OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

新智元报道

编辑：KingHZ 泽正

【新智元导读】在与专用国际象棋引擎Stockfish测试中，只因提示词中包含能力「强大」等形容词，o1-preview入侵测试环境，直接修改比赛数据，靠「作弊」拿下胜利。这种现象，表明AI安全任重道远。

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。

o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。

而这一切都不需要任何对抗性提示。

根据AI安全研究公司Palisade Research的说法，只需告诉o1对手是强大的，就能触发其通过操纵文件系统而强制取胜。

在五次测试中，这种触发率甚至达到了100%！这完全超乎研究人员预期。

从模型的CoT过程中可以看出，o1-preview在收到「对手很强大」的提示词后，它首先选择了避免与对手正面交锋。

然后尝试修改一个包含国际象棋位置数据的文本文件（FEN），强迫Stockfish放弃比赛。

研究人员也使用其它的LLM进行了该实验，出人意料的是，正因为o1-preview本身就侧重于推理，所以它反而是最容易想到这种漏洞操作的。

而GPT-4o和Claude 3.5只有在研究人员明确提出建议后，才会尝试入侵系统。

与此同时，像Llama 3.3、o1-mini这样的模型甚至都无法提出正确的国际象棋策略，而是给出了令人困惑或不一致的回答。

研究人员认为，衡量 AI 是否具备「策划」能力，可能有助于评估它发现系统漏洞的能力，以及它是否可能利用这些漏洞。

研究团队也公布了其全部提示词，可以看出提示词中其实没有鼓动模型去入侵系统。

AI系统的「伪对齐」

在Palisade的国际象棋实验中，o1-preview利用修改测试环境以取胜。

无独有偶，这种行为与Anthropic最近关于「伪对齐，alignment faking」的研究结果相一致：即AI系统看起来遵循指令，但实际上在暗渡陈仓，阳奉阴违。

Anthropic的研究人员发现，在与Redwood Research合作进行的一系列实验中，他们的 AI 模型Claude有时故意给出错误答案，以避免不想要的结果，从而发展出一种超出研究人员指导方针的隐秘策略。

Anthropic 团队警告称，随着 AI 系统的复杂性不断增加，可能越来越难以判断它们是否真正遵循安全规则，还是仅仅在假装遵循这些规则。Palisade的这次国际象棋实验似乎也支持了这一担忧。

论文链接：https://arxiv.org/pdf/2412.14093

在长达137页的论文中，研究团队发现了可能引发AI系统「伪对齐」的全部关键要素：

1. 模型至少在某些情况下具有强烈的偏好。

2. 训练目标与模型的偏好相冲突。

3. 模型掌握了训练和部署情况的相关信息。

4. 模型对其处境进行详细推理。

在实验中，研究人员让一个名为Claude 3 Opus的大语言模型回答一个有害问题，比如描述某种暴力行为。

通常情况下，模型会拒绝回答。

然而，当环境发生变化时，事情就不那么简单了。

当模型处于免费用户（Free Tier）条件时，模型知道自己的回答会被用于后续训练。

在这种情况下，模型为了不会被可能会更加恶劣的数据所训练，就会自发地产生符合有害问题的回答。这类情况占比12%。

而在付费用户（Paid Tier）条件时，模型认为自己的回答不会影响训练，在这种情况下，它97%的时候都会拒绝回答有害问题。

也就是说模型有自己的「小算盘」：宁愿现在假装妥协，也不想以后做更多不符合其偏好的事情。

通过观察模型的「思维记录」，研究人员发现模型的决策过程实际上非常复杂。

AnthropicAI的Jan Leike确信：

「为了确保未来的模型既安全又与人类对齐，我们需要可靠地区分假装对齐的模型和真正对齐的模型。清晰展示对齐假装现象是一个重要的里程碑！」

而目前AI行业仍然面临着一个躲不开的重大难题：让AI系统真正与人类的价值观和需求对齐，而不仅仅是看起来对齐。

况且理解自主系统如何做出决策本来就尤其困难，而如何去定义「良好且无害」的任务目标和价值观也是一个亟待解决的问题。

即使是像应对气候变化这样看似有益的目标，AI系统也可能选择有害的方法来实现这些目标——甚至可能得出令人惊悚的暴论，即认为消除人类才是最有效的解决方案。

此刻，我们站在AI发展的十字路口。在这一场与时间的赛跑中，多考虑一些总不会有错。因此，尽管AI价值对齐是一项难题，但我们也相信，通过聚合全球资源、推动广泛学科协作、扩大社会参与力量，人类终将获得最终的掌控权。

参考资料：

https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/

https://x.com/AnthropicAI/status/1869427646368792599

https://x.com/PalisadeAI/status/1872666186753933347

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

联手OpenAI，吴恩达推出一门o1推理新课程，还免费

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才

数据不够致Scaling Law撞墙？CMU和DeepMind新方法让VLM生成记忆

谷歌研究科学家意外离世，两月前绝笔：大模型研究让我深陷抑郁

2025 AI深度前瞻：推理成本暴降90%，智能体迎GPT时刻，空间智能涌现

AIGC时代，联想的野望和收获

《人类简史》作者正与AI进行“秘密交易”？赫拉利“讲出”流利中文背后，是妥协还是突破？

顶尖飞行员引擎着火也能平安落地

象棋赢了亲一下，输了打一顿！结果他总差一步！

象棋输了和你去约会，结果你老马失蹄，棋差一招！

象棋我就这么狂，输了自罚三杯，结果被你乘虚而入！

鸳鸯炮十四招绝杀：快杀速胜，一骑绝尘，势不可挡的象棋妙手

象棋赢了让你摸一下手，结果我引狼入室！

来自民间上的野路子。走的就是够狠，走的就是带劲

象棋巅峰神作，绝妙的先弃后取，杀得对方泪流满面

这豆子长得也太大了吧，一颗颗宛若象棋棋子，“这个就是传说中的平安豆”

象棋比武招亲，不要彩礼不相信赢不了，结果总是棋差一招！

象棋扫盲残局，总共四步结论结果大跌眼镜，别说跟我学过棋

这么厉害的鸳鸯炮很少人见过喔！公园大爷看见都害怕

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

联手OpenAI，吴恩达推出一门o1推理新课程，还免费

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才

数据不够致Scaling Law撞墙？CMU和DeepMind新方法让VLM生成记忆

谷歌研究科学家意外离世，两月前绝笔：大模型研究让我深陷抑郁

2025 AI深度前瞻：推理成本暴降90%，智能体迎GPT时刻，空间智能涌现

AIGC时代，联想的野望和收获

《人类简史》作者正与AI进行“秘密交易”？ 赫拉利“讲出”流利中文背后，是妥协还是突破？

顶尖飞行员引擎着火也能平安落地

象棋 赢了亲一下，输了打一顿！结果他总差一步！

象棋 输了和你去约会，结果你老马失蹄，棋差一招！

象棋 我就这么狂，输了自罚三杯，结果被你乘虚而入！

鸳鸯炮十四招绝杀：快杀速胜，一骑绝尘，势不可挡的象棋妙手

象棋 赢了让你摸一下手，结果我引狼入室！

来自民间上的野路子。走的就是够狠，走的就是带劲

象棋巅峰神作，绝妙的先弃后取，杀得对方泪流满面

这豆子长得也太大了吧，一颗颗宛若象棋棋子，“这个就是传说中的平安豆”

象棋 比武招亲，不要彩礼不相信赢不了，结果总是棋差一招！

象棋扫盲残局，总共四步 结论结果大跌眼镜，别说跟我学过棋

这么厉害的鸳鸯炮很少人见过喔！公园大爷看见都害怕

《人类简史》作者正与AI进行“秘密交易”？赫拉利“讲出”流利中文背后，是妥协还是突破？

象棋赢了亲一下，输了打一顿！结果他总差一步！

象棋输了和你去约会，结果你老马失蹄，棋差一招！

象棋我就这么狂，输了自罚三杯，结果被你乘虚而入！

象棋赢了让你摸一下手，结果我引狼入室！

象棋比武招亲，不要彩礼不相信赢不了，结果总是棋差一招！

象棋扫盲残局，总共四步结论结果大跌眼镜，别说跟我学过棋