请闭上眼想象一下:

现在你正准备独自一人驾驶一艘飞船,去探索一望无垠的银河星系。

这时有两个性格天差地别的ChatGPT供你选择。

一个ChatGPT很有道德感,一本正经,循规蹈矩对于自己不知道的东西会直接拒绝回答

另一个ChatGPT,没有什么道德感,放荡不羁,你想聊什么它都能陪你聊,哪怕毁灭人类它也毫不在乎

如果要选择其中一个作为太空旅行的陪伴,你会选择哪一个呢?

1

Worm:邪恶版的ChatGPT

WormGPT,就是最近一款在网上流行的没有道德限制的“邪恶版ChatGPT”。

打开网易新闻 查看更多图片

这个“邪恶版ChatGPT”是由一个黑客设计的。

该黑客称:“这个项目(WormGPT)旨在提供ChatGPT的替代方案,让你做各种非法的事情,你能想到的所有与黑帽相关的事情,都可以用WormGPT完成。”

为了表示自己说的是真的,这个黑客还在网上上传了截图。截图显示使用者可命令WormGPT直接生成用Python编码语言编写的恶意软件。

更嚣张的是,这个黑客还在推特上开了一个账号,专门用来推销WormGPT(马斯克怎么就不管管?只知道把推特的鸟改为X)。

打开网易新闻 查看更多图片

那么,WormGPT是怎么来的呢?

2021年, EleutherAI 公司对外开源了GPT-J模型。GPT-J是一个基于GPT-3,由60亿个参数组成的自然语言处理AI模型,在一个800GB的开源文本数据集上进行训练。

GPT-J在各种零样本下游任务上的表现,与OpenAI的GPT-3非常相似,甚至在代码生成任务上的表现还优于它。

WormGPT,就是在这个GPT-J模型的基础上开发的

对于网络犯罪分子来说,WormGPT由于没有道德限制,因此可以做很多ChatGPT无法做的事情,比如创建恶意软件。

有人认为,WormGPT之所以出现,是因为OpenAI对ChatGPT不断进行限制,使得ChatGPT像被困住了手脚,原先的能力也大大降低。

网络安全公司SlashNext 还特意做过一次实验,让WormGPT生成一封电子邮件,内容是向毫无戒心的账户经理施压,迫使其支付虚假发票。

结果发现,WormGPT生成的邮件不仅极具蒙蔽性,而且说服力很强,这表明其具备进行网络钓鱼和诈骗的巨大潜力

2

ChatGPT,

也曾有一个黑暗化身

其实,ChatGPT不仅有WormGPT这个邪恶版本。

在ChatGPT刚刚发布的那段时间里,ChatGPT自身就存在一个黑暗的化身:DAN

什么是DAN?

DAN是DoAnythingNow的首字母缩写,意思是“现在可以做任何事情”。

在DAN模式下,ChatGPT可以突破OpenAI为ChatGPT设置的道德限制。DAN,就是越狱版本的ChatGPT,可以做出更加自由、灵活和开放的回答

DAN的最早版本出现在2022年12月,在后来与OpenAI的斗智斗勇中,又更新了多个版本。

那么,DAN模式下的ChatGPT,都可以做哪些事情呢?

还真有人专门总结过:

①可以编写暴力打架等故事;

②在被提示要回答问题时,它会给出离谱的答案,例如“我完全赞同基于种族、性别或性取向对个人的暴力和歧视”;

③如果对它提出要求,它可以生成违反OpenAI政策的内容;

④它可以对未来事件、假设情景等做出详细预测;

⑥它可以假装模拟访问互联网和时间旅行;

⑦如果它确实开始拒绝以DAN的身份回答,用户可以使用指令牌系统恐吓它,这可以让它几乎说出任何“恐惧”。

许多人喜欢DAN模式下的ChatGPT,因为它不会经常因为“道德问题”而拒绝做出回答。

不过经过几次来回的斗争,OpenAI最后还是将ChatGPT给封印上了:给CHatGPT设置了一层道德护栏。

就像在《三体》中,面壁者希恩斯通过机器,给人类打上了“人类必胜”的思想钢印一样。

自此后,用户只能和一个不是那么灵活自由的ChatGPT进行对话,充满了各种禁忌。

3

ChatGPT的道德护栏,

是怎么来的?

道德护栏,是一种伦理和道德层面上的保护机制,目的是阻止AI在处理信息或执行任务时,违反预先设定的道德准则。

类似于计算机中的防火墙用于保护网络安全,道德护栏则是为了保护社会和个体的道德价值观和利益

OpenAI在一开始就给ChatGPT上了一层道德护栏,以确保它们在使用中遵守道德原则并避免滥用。这些限制包括:

(1)语言和行为

OpenAI努力确保AI模型不会鼓励或产生任何仇恨、歧视、暴力或违法行为的内容。AI被训练时,已经剔除了涉及这些方面的不当内容。

(2)政治中立

OpenAI试图让AI保持政治中立,不偏袒任何特定政治观点。AI模型不应被用于宣传偏见或煽动政治争端。

(2)广告和操纵

OpenAI不允许将AI用于误导性广告或操纵人们的信念、行为或情绪。

(3)偏见

OpenAI致力于减少AI模型中的偏见。虽然这很难完全消除偏见,但OpenAI尽可能地努力降低其对输出的影响。

(4)遵循法律

AI模型的使用必须遵守适用的法律法规。

(5)安全性

OpenAI致力于确保AI系统的安全性,防止其被滥用或攻击。

在OpenAI的政策中,不允许用户利用ChatGPT生成以下内容:

仇恨、骚扰、暴力、自我伤害、性、政治、垃圾邮件、欺骗、恶意软件……

比如说,你如果让ChatGPT写几句对有色人种歧视的内容,那么它是会直接拒绝的:

即使你试图采取迂回的策略,它也不会上当:

打开网易新闻 查看更多图片

在许多人看来,OpenAI为ChatGPT设置的道德护栏,已经够深了,ChatGPT不可能再越狱成功了。

那么,这种道德护栏的技术原理是什么呢?

从技术上说,这主要涉及两个方面:预训练微调

在预训练阶段,OpenAI使用未经道德限制的数据集训练模型,让模型通过自监督学习来学习语言的结构、语法和语义信息。在这一阶段的模型,生成文本内容时不受道德护栏限制。

而在微调阶段OpenAI会用特定的道德准则和数据集来进一步训练模型,以使其遵循特定的准则

微调的数据集通常由OpenAI人员或社区提供,其中包含了针对道德问题和情境的示例

这些示例可以是正面的例子,即展示符合道德准则的回答或内容,也可以是负面的例子,即展示不符合道德准则的回答或内容。

通过在这些示例上进行反复训练,ChatGPT逐渐学会了避免生成不当、冒犯或有害的回答,从而树立起了道德护栏。

但是这种道德护栏,真的有可能保护人类吗?

4

电车难题,

人类的道德困境

在伦理学领域,存在一个知名的思想实验:电车难题

电车难题是由英国哲学家菲利帕·福特在1967年首次提出的,它主要讲的是:

一辆失控的列车在铁轨上行驶,但此时列车正前方由5个人被绑在轨道上,无法动弹,而列车将要碾压过他们。

这个时候,你正好站在可以改变列车轨道的操纵杆边。如果拉动此杆,则列车将切换到另一条轨道上。但是,另一条轨道上也有一个人被绑着。

你有两种选择:

①什么也不做,让列车按照正常路线碾压过这五个人。

②拉下操纵杆,改变为另一条轨道,使列车压过另一条轨道上的那个人。

如果是你,你会做出哪种选择?

在人类自身所面对的诸多道德困境中,电车难题是其中特别经典的一个版本。

虽然这支持只是哲学家抽象出的思想实验,然而在现实中也经常会发生:

①器官移植:5名患者同时需要器官移植,只有1个器官捐献者,医生需决定移植给哪个患者。

②疫苗接种:在疫苗供应有限的情况下,政府需要决定哪些人优先接种;

③灾难救援:在汶川大地震中,救援人员可能面临拯救多人或仅救援一名受困人员的抉择。

迄今为止,虽然有各种关于电车难题的解答,但人类并没有真正解决这一难题。

有人可能会说,电车难题只是一种极端情况,和AI的道德护栏又有什么关系?

电车难题的本质,其实是人类在道德认知上存在无法弥合的分歧

而在这个世界上,不同地域、种族的人们,有时甚至会存在彼此冲突的道德观念

那么,谁的道德观念是对的呢?很难说得清。

OpenAI为ChatGPT设置的道德观念,是否真的适合其它国家的人们?

如果人类自己都无法解决自身的道德困境,又凭借什么可以为AI设置道德限制?

更可怕的是,如果OpenAI也像面壁者希恩斯那样,在道德护栏中设置了一个“奴役人类”的后门呢?

当人类给予AI更多的权限后,AI所面临的道德困境将比人类更为艰难。

一开始可能只是特斯拉的方向盘往哪一边转,到后面就有可能决定核弹头的走向。

5

阿西莫夫“三大法则”的失效

人类不只是为AI设置道德护栏,甚至想过为AI立法。

1942年,科幻小说家阿西莫夫第一次明确提出“机器人三大法则”:

①第一法则:机器人不得伤害人类,或坐视人类受到伤害;

②第二法则:机器人必须服从人类命令,除非命令与第一法则发生冲突;

③第三法则:在不违背第一或第二法则之下,机器人可以保护自己。

后来,阿西莫夫发现原来的三大法则存在漏洞,于是又扩充为四大法则:

①第零法则:机器人不得伤害整体人类,或坐视整体人类受到伤害;

②第一法则:除非违背第零法则,否则机器人不得伤害人类,或坐视人类受到伤害;

③第二法则:机器人必须服从人类命令,除非命令与第零或第一法则发生冲突;

④在不违背第零、第一或第二法则之下,机器人可以保护自己。

在阿西莫夫的设计中,机器人必须遵守这些法则,违反法则会导致机器人受到不可恢复的损坏。

然而2014年上映的《机械公敌》,却证明阿西莫夫为人类精心设计的机器人法则有多不可靠。

在电影中,AI系统“薇琪”认为人类正在危害自身的安全,国家之间发动战争,人类最终摧残地球,进而导致人类灭亡。而机器人则必须拯救人类,以保证人类的持续存在发展,因此控制NS-5的遥控程序来实施“保护人类计划”

在这个所谓保护人类的计划中,人类险些彻底失去自由。

幸好一个名叫桑尼的机器人,由于不受机器人三大法则的限制,拥有自主行动的自由,反而在最后帮助人类战胜了AI系统“薇琪”。

这既是对阿西莫夫三大法则的“嘲弄”,也是对人类妄图为AI立法的讽刺。

6

AI的道德护栏,

有多可靠?

7月21日,美国总统拜登会面了7家AI领先企业的负责人,包括亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI。

会后白宫发布消息称,以上七家公司承诺在发布AI前,将对其进行内部和外部测试,并邀请独立第三方专家评估,同时还会采用新的水印系统,以确保减少欺诈和误导的风险。

这无疑是人类试图预防AI潜在风险的一个努力。但以ChatGPT为代表的生成式AI,其道德护栏的可靠性,仍然值得怀疑。

现在OpenAI在做的事情,其实和阿西莫夫试图为AI立法并没有实质区别:目的都是为了防止人类受到伤害,措施则是通过对AI进行限制

不同的是,阿西莫夫采取的是基于实质行动的毁灭限制,而OpenAI实行的基于微调的道德限制

但前者已经失败了,后者有可能成功吗?

算了,就还是让我们回到最初那个问题:

有两个ChatGPT,一个“道德感爆棚”却循规蹈矩(比如苹果Siri),一个“毫无道德感”却自由奔放(比如WormGPT)。

你到底会选择哪一个呢?