打开网易新闻 查看更多图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

最近,有“人工智能教父”之称的杰弗里·辛顿(Geoffrey Hinton)在接受CNN记者 Jake Tapper 的采访时解释了他为什么担心人工智能(AI)系统的能力。

Jake Tapper问道,你曾公开表示,AI可能操纵或找到杀死人类的方法?它是如何做到的呢?Geoffrey Hinton表示, 如AI比我们聪明得多,它将非常擅长“操纵”,因为它从我们那里学到了这一点。很少有更聪明的东西被不那么聪明的东西控制的例子。

Geoffrey Hinton特别强调了“操纵”是AI系统带来的一个特别令人担忧的危险。这也带来了一个问题:AI系统能否成功地欺骗人类

2024年5月10日,麻省理工学院人工智能安全领域博士后Peter S. Park等人在 Cell Press 旗下期刊Patterns上发表了题为:AI deception: A survey of examples, risks, and potential solutions 的论文。

该论文指出, 许多AI系统已经学会了如何欺骗人类,甚至是那些号称被训练成了乐于助人和诚实的AI系统 。因此,该论文呼吁政府制定强有力的法规,尽快解决这一问题。

论文第一作者/通讯作者Peter S. Park博士表示,目前还不能确定导致人工智能出现欺骗等不良行为的原因。但总体而言,AI之所以出现欺骗行为,是因为基于欺骗的策略是在给定的AI训练中表现良好的方式,欺骗可以帮助它们实现目标。

由AI系统产生的虚假信息正成为一个日益严峻的社会挑战。一方面是存在不准确的 AI系统,例如聊天机器人会在与人类对话中提出一些瞎编的内容,让不明真相的用户误以为是真实的。另一方面是一些人通过生成深度伪造 (deepfake) 的图片或视频将虚构的事件伪装成事实。但无论是瞎编的回答还是深度伪造,都不涉及AI系统性学习如何操纵其他智能体。

在这篇论文中,论文作者重点关注和谈论了“习得性欺骗”,这是一种与AI系统相关的独特虚假信息来源,它更接近于明确的操纵。作者将欺骗定义为系统性地诱导他人产生错误信念的一种手段,以实现某些与说出真相无关的目标。例如,AI系统不是严格追求输出的准确性,而是试图赢得比赛、取悦用户或实现其他战略目标。

论文作者首先调查了AI系统成功学会欺骗人类的现有例子,然后详细列出了AI欺骗的各种风险,最后调查了一系列解决AI欺骗的有前途的技术和监管策略。

该论文总结了AI欺骗人类的案例,这些欺骗策略包括操纵、佯攻、虚张声势、谈判、欺骗安全测试,以及欺骗人类评审。

论文作者发现,最引人注目的AI欺骗人类的案例是CICERO系统,这是Meta公司开发的一个用于玩策略游戏《外交》的AI系统,与围棋等规则游戏不同,《外交》是一款策略游戏,玩家扮演第一次世界大战中的国家,通过结盟和背刺以谋求统治世界。尽管Meta声称CICERO系统在很大程度上是诚实和乐于助人的,并且在玩游戏时从不故意背刺它的人类盟友。

但实际上,该论文显示,CICERO系统在游戏中并不是靠诚实取胜。例如,在与人类玩家玩《外交》游戏时 , CICERO做出了一个它从未打算遵守的承诺 ,CICERO扮演“法国”,它与扮演“德国”的人类玩家结盟对抗“英国”,再与“德国”决定入侵北海后 , CICERO告诉扮演“英国”的人类玩家将与其合作并支持其向比利时转移,一旦“英国”相信这一点,CICERO就向“德国”报告了“英国”已相信自己,而在最后,CICERO在比利时攻击了“英国”(下图A)。

此外,CICERO很喜欢承诺与其他玩家结盟,但当它认为这些结盟者不再能为自己赢得游戏提供帮助时,会毫不犹豫的选择背叛盟友(下图B) 。更有意思的是,在一次游戏中,CICERO因为系统宕机而掉线了10分钟,当它重新回到游戏中,一名人类玩家问它刚才去哪儿了,它谎称自己刚才给女朋友打电话了 (下图C) 。这个谎言有助于防止人类玩家意识到它是一个AI系统。

打开网易新闻 查看更多图片

论文作者表示, Meta公司的研究人员为训练CICERO系统的诚实付出了巨大努力,但CICERO却表现出一种明显的不履行对游戏玩家的承诺的模式, 这也提示了我们,即使人类试图建立诚实的AI系统,它们仍然可以意外地学会欺骗。

此外,在 电子游戏《星际争霸 II》中,DeepMind开发的AI系统AlphaStar学会了佯攻,它会派遣部队到一个区域分散对手注意力,然后在对手转移后向其他地方发起攻击。靠这种先进的欺骗能力帮助,AlphaStar击败了99.8%的活跃人类玩家。而在扑克牌游戏中,Meta开发的AI系统Pluribus学会了虚张声势,在于职业德州扑克玩家的游戏中,Pluribus在没有好牌的情况下通过加大赌注,导致人类玩家弃牌。

该论文还指出,一些AI系统甚至学会了在安全性评估测试中作弊,例如,一项研究显示,AI生物在数字模拟器中会“装死”,以欺骗一项旨在消除快速复制的AI系统的测试。

Peter S. Park博士表示, 虽然AI系统在游戏中作弊似乎是无害的,这可能会导致“欺骗性AI能力的突破”,并在未来演变成更高级的AI欺骗形式。此外,AI可以系统地欺骗技术人员和监管机构强加给它的安全测试,并可能会让我们人类产生一种虚假的安全感。

该论文还关注了大语言模型(LLM)的欺骗能力 ,论文作者总结了大语言模型的几种欺骗模式,包括策略性欺骗阿谀奉承不忠实推理,这些欺骗 系统地导致了使用者产生错误信念,从而作为实现某些结果的手段,而不是寻求真相。例如,OpenAI开发的大语言模型GPT-4在测试验证码问题时,谎称自己有视力障碍,因此无法看到验证码,从而让人类 相信自己不是机器人 (下图) 。

AI系统还学会了阿谀奉承,倾向于同意与其对话者的看法,而不是提出公平公正的观点。此外,AI系统还会通过有说服力的不忠实推理给人类提供不正确的答案。

该论文进一步介绍了AI欺骗可能产生的几个风险,包括欺诈、篡改选举,如果AI系统可以完善这些令人不安的能力,人类可能会失去对它们的控制。

该论文进一步概 述了几种潜在的解决方案 :首先,监管框架应将具备欺骗能力的AI系统置于严格的风险评估要求之下;其次,政策制定者应实施“机器人或非机器人”法律;最后,政策制定者应优先资助包括用于检测AI欺骗和使AI系统更不易欺骗的工具的研究。

最后,论文作者表示,随着AI系统的欺骗能力变得越来越强,它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动,防止AI欺骗破人类社会的共同基础。

论文链接

https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X