【引言】 在这个AI横行的时代,我们总是惊叹于它们的强大能力,仿佛它们真的能够理解我们的语言,甚至拥有类人的推理能力。但是,一项最新的研究彻底颠覆了我们的认知——LLM(大型语言模型)在面对“人类亲吻难题”时,竟然全部败下阵来!这不禁让人质疑,LLM们真的懂我们的语言吗?
【正文】 最近,一项发表在《Nature》上的研究,全面驳斥了LLM具有类人推理能力的说法。研究者们设计了一个“人类亲吻难题”,结果7个大模型全部败北。这项研究不仅让我们对LLM的理解能力产生了怀疑,更让我们开始重新审视这些模型的本质——它们更像是工具,而非具有真正理解能力的存在。
【研究背景】 这项研究由来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者共同完成。他们基于一个全新的基准数据集,对目前最先进的7个模型(包括GPT-4、Llama2、Gemini和Bard)进行了评估。这些模型在理解性问题上的表现,让我们不得不重新思考LLM的真正能力。
【研究方法】 研究者们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。他们还对400名人类进行了相同的测试,基于26,680个数据点的数据集,他们发现LLM的准确性有偶然性,但答案却有很大波动。
【研究结果】 研究结果令人震惊。LLM在准确性上的表现仅处于随机水平,并且其答案相对不稳定。相比之下,人类在相同理解问题上的测试表现出大多准确的答案,且在重复提问时几乎不会改变。这一结果揭示出,LLM在不同响应条件下具有显著差异,而人类的表现则相对一致。
【LLM的局限性】 研究者将这一证据解读为一种证明:尽管当前的AI模型具有一定的实用性,但仍未达到类人语言的水平。原因可能在于,它们缺乏用于有效调控语法和语义的组合运算符信息。LLM为什么这么容易受到莫拉维克悖论的束缚——在相对简单的任务上却会失败?这是因为,在需要记忆专业知识的任务中的良好表现,并不一定建立在对语言的扎实理解的基础上。
【人类与LLM的区别】 人类利用类似MERGE的组合运算符,来调节语法和语义信息。而AI对语言的深层含义不敏感。我们这个物种天生就具有不可抑制的语言习得倾向,总是会在文字表面之下寻找意义,并在线性序列中构建出令人惊讶的层次结构和关系。不过,LLM也有这种能力吗?
【诡异考题,给LLM上难度】 为此,研究者特意设计了一份别致的考题,来考验LLM对语言真正的掌握程度!他们考验了GPT-3和ChatGPT-3.5对一些语法性判断的表现,也就是判断一个提示是否符合或偏离模型所内化的语言模式。这些提示在日常语言中出现频率较低,因此很可能在训练数据中并不常见。
【研究意义】 这项研究,在现实层面也意义重大。虽然LLM被训练来预测token,但当它们与界面设置结合起来,它们的能力已经被宣传为远远超过下一个token的预测:商家会强调说,它们是能流利对话的Agent,并且表现出了跨模态的长上下文理解。最近就有一家航空公司被告了,原因是乘客认为他们的聊天机器人提供了不准确信息。
【LLM的输出驱动】 研究者对7个最先进的LLM进行了测试,使用的理解问题针对包含高频结构和词汇的句子,同时将语言复杂性控制在最低水平。他们特别关注了LLM生成的答案是否同时具备准确性和在重复试验中的稳定性。系统性测试表明,LLM作为一个整体在准确性上的平均表现仅处于随机水平,并且其答案相对不稳定。
【LLM更像工具,而不是科学理论】 研究者认为,LLM之所以在简单理解任务中无法提供准确且稳定答案,是因为这些模型缺乏对语言的真正理解:它们生成的词语如同语义「黑箱」,只是近似于语言的表面统计和解析过程中较「自动化」的部分。事实上,不仅是较低的准确率,而且LLM响应的较低稳定性也表明,它们缺乏一种类人的算法,能够将句法信息直接映射到语义指令上。
【结语】 这项工作证明:LLM连贯、复杂和精致的输出,相当于变相的拼凑而成。它们看似合理的表现,隐藏了语言建模方法本身固有的缺陷:智能实际上无法作为统计推断的副产品而自然产生,理解意义的能力也不能由此产生。LLM无法作为认知理论,它们因为在自然语言数据上进行训练,并生成听起来自然的语言,这并不意味着它们具备类人处理能力。这仅仅表明,LLM可以预测训练文本中某些「化石模式」。宣称模型掌握了语言,仅仅因为它能够重现语言,就好比宣称一个画家认识某人,只因为他可以通过看她的照片在画布上重现她的面容一样。
【参考资料】
Nature论文链接:点击访问
Arxiv论文链接:点击访问
Arxiv论文链接:点击访问
小编这几天用业余时间写了个用AI写藏头诗的小程序,欢迎大家体验并给出改善建议,感谢!