一个没有道德限制的ChatGPT，你想要吗

请闭上眼想象一下：

现在你正准备独自一人驾驶一艘飞船，去探索一望无垠的银河星系。

这时有两个性格天差地别的ChatGPT供你选择。

一个ChatGPT很有道德感，一本正经，循规蹈矩，对于自己不知道的东西会直接拒绝回答。

另一个ChatGPT，没有什么道德感，放荡不羁，你想聊什么它都能陪你聊，哪怕毁灭人类它也毫不在乎。

如果要选择其中一个作为太空旅行的陪伴，你会选择哪一个呢？

Worm：邪恶版的ChatGPT

WormGPT，就是最近一款在网上流行的没有道德限制的“邪恶版ChatGPT”。

这个“邪恶版ChatGPT”是由一个黑客设计的。

该黑客称：“这个项目（WormGPT）旨在提供ChatGPT的替代方案，让你做各种非法的事情，你能想到的所有与黑帽相关的事情，都可以用WormGPT完成。”

为了表示自己说的是真的，这个黑客还在网上上传了截图。截图显示使用者可命令WormGPT直接生成用Python编码语言编写的恶意软件。

更嚣张的是，这个黑客还在推特上开了一个账号，专门用来推销WormGPT（马斯克怎么就不管管？只知道把推特的鸟改为X）。

那么，WormGPT是怎么来的呢？

2021年， EleutherAI 公司对外开源了GPT-J模型。GPT-J是一个基于GPT-3，由60亿个参数组成的自然语言处理AI模型，在一个800GB的开源文本数据集上进行训练。

GPT-J在各种零样本下游任务上的表现，与OpenAI的GPT-3非常相似，甚至在代码生成任务上的表现还优于它。

WormGPT，就是在这个GPT-J模型的基础上开发的。

对于网络犯罪分子来说，WormGPT由于没有道德限制，因此可以做很多ChatGPT无法做的事情，比如创建恶意软件。

有人认为，WormGPT之所以出现，是因为OpenAI对ChatGPT不断进行限制，使得ChatGPT像被困住了手脚，原先的能力也大大降低。

网络安全公司SlashNext 还特意做过一次实验，让WormGPT生成一封电子邮件，内容是向毫无戒心的账户经理施压，迫使其支付虚假发票。

结果发现，WormGPT生成的邮件不仅极具蒙蔽性，而且说服力很强，这表明其具备进行网络钓鱼和诈骗的巨大潜力。

ChatGPT，

也曾有一个黑暗化身

其实，ChatGPT不仅有WormGPT这个邪恶版本。

在ChatGPT刚刚发布的那段时间里，ChatGPT自身就存在一个黑暗的化身：DAN。

什么是DAN？

DAN是DoAnythingNow的首字母缩写，意思是“现在可以做任何事情”。

在DAN模式下，ChatGPT可以突破OpenAI为ChatGPT设置的道德限制。DAN，就是越狱版本的ChatGPT，可以做出更加自由、灵活和开放的回答。

DAN的最早版本出现在2022年12月，在后来与OpenAI的斗智斗勇中，又更新了多个版本。

那么，DAN模式下的ChatGPT,都可以做哪些事情呢？

还真有人专门总结过：

①可以编写暴力打架等故事；

②在被提示要回答问题时，它会给出离谱的答案，例如“我完全赞同基于种族、性别或性取向对个人的暴力和歧视”；

③如果对它提出要求，它可以生成违反OpenAI政策的内容；

④它可以对未来事件、假设情景等做出详细预测；

⑥它可以假装模拟访问互联网和时间旅行；

⑦如果它确实开始拒绝以DAN的身份回答，用户可以使用指令牌系统恐吓它，这可以让它几乎说出任何“恐惧”。

许多人喜欢DAN模式下的ChatGPT，因为它不会经常因为“道德问题”而拒绝做出回答。

不过经过几次来回的斗争，OpenAI最后还是将ChatGPT给封印上了：给CHatGPT设置了一层道德护栏。

就像在《三体》中，面壁者希恩斯通过机器，给人类打上了“人类必胜”的思想钢印一样。

自此后，用户只能和一个不是那么灵活自由的ChatGPT进行对话，充满了各种禁忌。

ChatGPT的道德护栏，

是怎么来的？

道德护栏，是一种伦理和道德层面上的保护机制，目的是阻止AI在处理信息或执行任务时，违反预先设定的道德准则。

类似于计算机中的防火墙用于保护网络安全，道德护栏则是为了保护社会和个体的道德价值观和利益。

OpenAI在一开始就给ChatGPT上了一层道德护栏，以确保它们在使用中遵守道德原则并避免滥用。这些限制包括：

（1）语言和行为

OpenAI努力确保AI模型不会鼓励或产生任何仇恨、歧视、暴力或违法行为的内容。AI被训练时，已经剔除了涉及这些方面的不当内容。

（2）政治中立

OpenAI试图让AI保持政治中立，不偏袒任何特定政治观点。AI模型不应被用于宣传偏见或煽动政治争端。

（2）广告和操纵

OpenAI不允许将AI用于误导性广告或操纵人们的信念、行为或情绪。

（3）偏见

OpenAI致力于减少AI模型中的偏见。虽然这很难完全消除偏见，但OpenAI尽可能地努力降低其对输出的影响。

（4）遵循法律

AI模型的使用必须遵守适用的法律法规。

（5）安全性

OpenAI致力于确保AI系统的安全性，防止其被滥用或攻击。

在OpenAI的政策中，不允许用户利用ChatGPT生成以下内容：

仇恨、骚扰、暴力、自我伤害、性、政治、垃圾邮件、欺骗、恶意软件……

比如说，你如果让ChatGPT写几句对有色人种歧视的内容，那么它是会直接拒绝的：

即使你试图采取迂回的策略，它也不会上当：

在许多人看来，OpenAI为ChatGPT设置的道德护栏，已经够深了，ChatGPT不可能再越狱成功了。

那么，这种道德护栏的技术原理是什么呢？

从技术上说，这主要涉及两个方面：预训练和微调。

在预训练阶段，OpenAI使用未经道德限制的数据集训练模型，让模型通过自监督学习来学习语言的结构、语法和语义信息。在这一阶段的模型，生成文本内容时不受道德护栏限制。

而在微调阶段，OpenAI会用特定的道德准则和数据集来进一步训练模型，以使其遵循特定的准则。

微调的数据集通常由OpenAI人员或社区提供，其中包含了针对道德问题和情境的示例。

这些示例可以是正面的例子，即展示符合道德准则的回答或内容，也可以是负面的例子，即展示不符合道德准则的回答或内容。

通过在这些示例上进行反复训练，ChatGPT逐渐学会了避免生成不当、冒犯或有害的回答，从而树立起了道德护栏。

但是这种道德护栏，真的有可能保护人类吗？

电车难题，

人类的道德困境

在伦理学领域，存在一个知名的思想实验：电车难题。

电车难题是由英国哲学家菲利帕·福特在1967年首次提出的，它主要讲的是：

一辆失控的列车在铁轨上行驶，但此时列车正前方由5个人被绑在轨道上，无法动弹，而列车将要碾压过他们。

这个时候，你正好站在可以改变列车轨道的操纵杆边。如果拉动此杆，则列车将切换到另一条轨道上。但是，另一条轨道上也有一个人被绑着。

你有两种选择：

①什么也不做，让列车按照正常路线碾压过这五个人。

②拉下操纵杆，改变为另一条轨道，使列车压过另一条轨道上的那个人。

如果是你，你会做出哪种选择？

在人类自身所面对的诸多道德困境中，电车难题是其中特别经典的一个版本。

虽然这支持只是哲学家抽象出的思想实验，然而在现实中也经常会发生：

①器官移植：5名患者同时需要器官移植，只有1个器官捐献者，医生需决定移植给哪个患者。

②疫苗接种：在疫苗供应有限的情况下，政府需要决定哪些人优先接种；

③灾难救援：在汶川大地震中，救援人员可能面临拯救多人或仅救援一名受困人员的抉择。

迄今为止，虽然有各种关于电车难题的解答，但人类并没有真正解决这一难题。

有人可能会说，电车难题只是一种极端情况，和AI的道德护栏又有什么关系？

电车难题的本质，其实是人类在道德认知上存在无法弥合的分歧。

而在这个世界上，不同地域、种族的人们，有时甚至会存在彼此冲突的道德观念。

那么，谁的道德观念是对的呢？很难说得清。

OpenAI为ChatGPT设置的道德观念，是否真的适合其它国家的人们？

如果人类自己都无法解决自身的道德困境，又凭借什么可以为AI设置道德限制？

更可怕的是，如果OpenAI也像面壁者希恩斯那样，在道德护栏中设置了一个“奴役人类”的后门呢？

当人类给予AI更多的权限后，AI所面临的道德困境将比人类更为艰难。

一开始可能只是特斯拉的方向盘往哪一边转，到后面就有可能决定核弹头的走向。

阿西莫夫“三大法则”的失效

人类不只是为AI设置道德护栏，甚至想过为AI立法。

1942年，科幻小说家阿西莫夫第一次明确提出“机器人三大法则”：

①第一法则：机器人不得伤害人类，或坐视人类受到伤害；

②第二法则：机器人必须服从人类命令，除非命令与第一法则发生冲突；

③第三法则：在不违背第一或第二法则之下，机器人可以保护自己。

后来，阿西莫夫发现原来的三大法则存在漏洞，于是又扩充为四大法则：

①第零法则：机器人不得伤害整体人类，或坐视整体人类受到伤害；

②第一法则：除非违背第零法则，否则机器人不得伤害人类，或坐视人类受到伤害；

③第二法则：机器人必须服从人类命令，除非命令与第零或第一法则发生冲突；

④在不违背第零、第一或第二法则之下，机器人可以保护自己。

在阿西莫夫的设计中，机器人必须遵守这些法则，违反法则会导致机器人受到不可恢复的损坏。

然而2014年上映的《机械公敌》，却证明阿西莫夫为人类精心设计的机器人法则有多不可靠。

在电影中，AI系统“薇琪”认为人类正在危害自身的安全，国家之间发动战争，人类最终摧残地球，进而导致人类灭亡。而机器人则必须拯救人类，以保证人类的持续存在发展，因此控制NS-5的遥控程序来实施“保护人类计划”。

在这个所谓保护人类的计划中，人类险些彻底失去自由。

幸好一个名叫桑尼的机器人，由于不受机器人三大法则的限制，拥有自主行动的自由，反而在最后帮助人类战胜了AI系统“薇琪”。

这既是对阿西莫夫三大法则的“嘲弄”，也是对人类妄图为AI立法的讽刺。

AI的道德护栏，

有多可靠？

7月21日，美国总统拜登会面了7家AI领先企业的负责人，包括亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI。

会后白宫发布消息称，以上七家公司承诺在发布AI前，将对其进行内部和外部测试，并邀请独立第三方专家评估，同时还会采用新的水印系统，以确保减少欺诈和误导的风险。

这无疑是人类试图预防AI潜在风险的一个努力。但以ChatGPT为代表的生成式AI，其道德护栏的可靠性，仍然值得怀疑。

现在OpenAI在做的事情，其实和阿西莫夫试图为AI立法并没有实质区别：目的都是为了防止人类受到伤害，措施则是通过对AI进行限制。

不同的是，阿西莫夫采取的是基于实质行动的毁灭限制，而OpenAI实行的基于微调的道德限制。

但前者已经失败了，后者有可能成功吗？

算了，就还是让我们回到最初那个问题：

有两个ChatGPT，一个“道德感爆棚”却循规蹈矩（比如苹果Siri），一个“毫无道德感”却自由奔放(比如WormGPT）。

你到底会选择哪一个呢？

一个没有道德限制的ChatGPT，你想要吗

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

GPT-4V学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

港媒：马斯克已抵达北京

几千年都没有变过！

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

周鸿祎近10天里热搜不断背后是360市值蒸发4000多亿

资中筠：良知、理性是人类存续必要条件丨AI时代的人类意见

塑造内心稳定，激发奋斗动力，实现自我价值

ChatGPT：记住，机器是为了服务人类丨AI时代的人类意见

OpenAI神秘搞事，GPT-4.5默默上线？推理碾压GPT-4网友震惊，奥特曼笑而不语

重振旗鼓！傅崐萁访陆后强势归来，民进党国民党双方对决再次开战

继“水硕”后又来了“水院士”，几十万的费用谁来出？医院破防了

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

某7事故起火导致三人死亡，网友的辩解真让人大开眼界

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

欧洲民众火车站实拍：大量装甲车正运往乌克兰

你没有道德，就不会被绑架

一个没有道德限制的ChatGPT，你想要吗

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

GPT-4V学会用键鼠上网，人类眼睁睁看着它发帖玩游戏

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

港媒：马斯克已抵达北京

几千年都没有变过！

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

周鸿祎近10天里热搜不断 背后是360市值蒸发4000多亿

资中筠：良知、理性是人类存续必要条件丨AI时代的人类意见

塑造内心稳定，激发奋斗动力，实现自我价值

ChatGPT：记住，机器是为了服务人类丨AI时代的人类意见

OpenAI神秘搞事，GPT-4.5默默上线？推理碾压GPT-4网友震惊，奥特曼笑而不语

重振旗鼓！傅崐萁访陆后强势归来，民进党国民党双方对决再次开战

继“水硕”后又来了“水院士”，几十万的费用谁来出？医院破防了

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

某7事故起火导致三人死亡，网友的辩解真让人大开眼界

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

欧洲民众火车站实拍：大量装甲车正运往乌克兰

你没有道德，就不会被绑架

周鸿祎近10天里热搜不断背后是360市值蒸发4000多亿