Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

【引言】在这个AI横行的时代，我们总是惊叹于它们的强大能力，仿佛它们真的能够理解我们的语言，甚至拥有类人的推理能力。但是，一项最新的研究彻底颠覆了我们的认知——LLM（大型语言模型）在面对“人类亲吻难题”时，竟然全部败下阵来！这不禁让人质疑，LLM们真的懂我们的语言吗？

【正文】最近，一项发表在《Nature》上的研究，全面驳斥了LLM具有类人推理能力的说法。研究者们设计了一个“人类亲吻难题”，结果7个大模型全部败北。这项研究不仅让我们对LLM的理解能力产生了怀疑，更让我们开始重新审视这些模型的本质——它们更像是工具，而非具有真正理解能力的存在。

【研究背景】这项研究由来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者共同完成。他们基于一个全新的基准数据集，对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和Bard）进行了评估。这些模型在理解性问题上的表现，让我们不得不重新思考LLM的真正能力。

【研究方法】研究者们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。他们还对400名人类进行了相同的测试，基于26,680个数据点的数据集，他们发现LLM的准确性有偶然性，但答案却有很大波动。

【研究结果】研究结果令人震惊。LLM在准确性上的表现仅处于随机水平，并且其答案相对不稳定。相比之下，人类在相同理解问题上的测试表现出大多准确的答案，且在重复提问时几乎不会改变。这一结果揭示出，LLM在不同响应条件下具有显著差异，而人类的表现则相对一致。

【LLM的局限性】研究者将这一证据解读为一种证明：尽管当前的AI模型具有一定的实用性，但仍未达到类人语言的水平。原因可能在于，它们缺乏用于有效调控语法和语义的组合运算符信息。LLM为什么这么容易受到莫拉维克悖论的束缚——在相对简单的任务上却会失败？这是因为，在需要记忆专业知识的任务中的良好表现，并不一定建立在对语言的扎实理解的基础上。

【人类与LLM的区别】人类利用类似MERGE的组合运算符，来调节语法和语义信息。而AI对语言的深层含义不敏感。我们这个物种天生就具有不可抑制的语言习得倾向，总是会在文字表面之下寻找意义，并在线性序列中构建出令人惊讶的层次结构和关系。不过，LLM也有这种能力吗？

【诡异考题，给LLM上难度】为此，研究者特意设计了一份别致的考题，来考验LLM对语言真正的掌握程度！他们考验了GPT-3和ChatGPT-3.5对一些语法性判断的表现，也就是判断一个提示是否符合或偏离模型所内化的语言模式。这些提示在日常语言中出现频率较低，因此很可能在训练数据中并不常见。

【研究意义】这项研究，在现实层面也意义重大。虽然LLM被训练来预测token，但当它们与界面设置结合起来，它们的能力已经被宣传为远远超过下一个token的预测：商家会强调说，它们是能流利对话的Agent，并且表现出了跨模态的长上下文理解。最近就有一家航空公司被告了，原因是乘客认为他们的聊天机器人提供了不准确信息。

【LLM的输出驱动】研究者对7个最先进的LLM进行了测试，使用的理解问题针对包含高频结构和词汇的句子，同时将语言复杂性控制在最低水平。他们特别关注了LLM生成的答案是否同时具备准确性和在重复试验中的稳定性。系统性测试表明，LLM作为一个整体在准确性上的平均表现仅处于随机水平，并且其答案相对不稳定。

【LLM更像工具，而不是科学理论】研究者认为，LLM之所以在简单理解任务中无法提供准确且稳定答案，是因为这些模型缺乏对语言的真正理解：它们生成的词语如同语义「黑箱」，只是近似于语言的表面统计和解析过程中较「自动化」的部分。事实上，不仅是较低的准确率，而且LLM响应的较低稳定性也表明，它们缺乏一种类人的算法，能够将句法信息直接映射到语义指令上。

【结语】这项工作证明：LLM连贯、复杂和精致的输出，相当于变相的拼凑而成。它们看似合理的表现，隐藏了语言建模方法本身固有的缺陷：智能实际上无法作为统计推断的副产品而自然产生，理解意义的能力也不能由此产生。LLM无法作为认知理论，它们因为在自然语言数据上进行训练，并生成听起来自然的语言，这并不意味着它们具备类人处理能力。这仅仅表明，LLM可以预测训练文本中某些「化石模式」。宣称模型掌握了语言，仅仅因为它能够重现语言，就好比宣称一个画家认识某人，只因为他可以通过看她的照片在画布上重现她的面容一样。

【参考资料】

Nature论文链接：点击访问
Arxiv论文链接：点击访问
Arxiv论文链接：点击访问

小编这几天用业余时间写了个用AI写藏头诗的小程序，欢迎大家体验并给出改善建议，感谢！

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

AI做数学学会「动脑子」！ UCL等发现LLM「程序性知识」，推理绝不是背答案

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！Scaling Law还能带我们到AGI吗？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI加速扩张：与苹果合作、推AI Agent，锁定10亿用户目标！

用 AI 复制你的个性，两个小时就够了

估值一年翻17倍，巨头创企疯狂涌入，AI搜索火爆了

如果谋杀方式有段位的话！那么这，绝对是王者级别的！推理

碎语｜不懂逻辑，就会常常犯错

常州坠湖直升飞机失事前视频低空掠过一片露营地

如何在千里之外实施谋杀？这个凶手给出了完美答案！推理

情节反转不断！结局意想不到！究竟是谁杀了这个可怜的女孩？推理

不够重视逻辑思维能力的培养将对孩子的头脑产生负面影响

十问CPU做AI推理，伪命题还是真需求？

带你沉浸式体验这部2024你不能错过的剧本啥电影！推理

小伙买到过期两天的面包找店家理论，沒想到老板娘高情商化解

蔡正元：特朗普这一套符合经济学理论米莱那一套完全不符合

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

AI做数学学会「动脑子」！ UCL等发现LLM「程序性知识」，推理绝不是背答案

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！Scaling Law还能带我们到AGI吗？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI加速扩张：与苹果合作、推AI Agent，锁定10亿用户目标！

用 AI 复制你的个性，两个小时就够了

估值一年翻17倍，巨头创企疯狂涌入，AI搜索火爆了

如果谋杀方式有段位的话！那么这，绝对是王者级别的！推理

碎语｜不懂逻辑，就会常常犯错

常州坠湖直升飞机失事前视频 低空掠过一片露营地

如何在千里之外实施谋杀？这个凶手给出了完美答案！推理

情节反转不断！结局意想不到！究竟是谁杀了这个可怜的女孩？推理

不够重视逻辑思维能力的培养将对孩子的头脑产生负面影响

十问CPU做AI推理，伪命题还是真需求？

带你沉浸式体验这部2024你不能错过的剧本啥电影！推理

小伙买到过期两天的面包找店家理论，沒想到老板娘高情商化解

蔡正元：特朗普这一套符合经济学理论 米莱那一套完全不符合

常州坠湖直升飞机失事前视频低空掠过一片露营地

蔡正元：特朗普这一套符合经济学理论米莱那一套完全不符合