大型语言模型的涌现能力是海市蜃楼吗？终于有好论文回答了

智能涌现是一个复杂而令人兴奋的话题。

复杂系统的涌现性（Emergent properties）一直以来都是跨学科研究的课题，涵盖物理学、生物学、数学等多个领域。

诺贝尔奖得主物理学家P.W. Anderson在1972年的论文《More Is Different》为涌现这一概念赋予了更广泛的意义，该概念认为随着系统复杂性的增加，涌现能力可能会出现。

然而，这些性质甚至无法通过对系统微观细节的精确量化理解来预测。

比如，蚁群可以找到最短路径。蚁群是由大量的蚂蚁组成的复杂系统。这些蚂蚁之间没有任何智能，但它们通过相互作用可以找到最短路径。

也有专家认为，这些属性在微观层面是无法准确预测的。这个概念的提出得益于对大型语言模型（如GPT）和其他复杂AI系统的观察。

智能涌现是指在复杂系统中，由大量相互作用的元素组成的整体系统所具有的智能，而这些元素本身并没有智能。

而我们常谈到的GPT 系列大语言模型都是由大量参数组成的复杂系统。这些参数之间的相互作用可以产生智能的行为，例如回答问题、生成文本、生成图像等。

审视它是否真的存在，或者是否只是一种看似的现象，是非常有意义的话题。

2023年，人工智能大模型烈火烹油，这个深奥的科学学术词汇也“甚嚣尘上”。

终于有一篇优秀的论文回答了这个问题，且这篇论文被NeurIPS评为优秀论文。

（此处有掌声，大约持续30秒）。

缩写为NeurIPS的学术会议，是当前全球最负盛名的人工智能学术会议之一。每年12月举行的机器学习和计算神经科学会议，这次是在美国新奥尔良举行。

这篇讨论“涌现能力”的论文，对谭老师来说，真是期待已久。

论文标题：《大型语言模型的涌现能力是海市蜃楼吗？》
英文标题：Are Emergent Abilities of Large Language Models a Mirage?

涌现能力指的是模型表现出的，突然出现，且不可预测的能力。成语 “海市蜃楼”则是比喻这些能力是否真实存在，或只是一种幻觉。

涌现的定义是：小模型中不存在的能力，但在大模型中存在的能力。

大家对于“涌现”的惊奇之处在于，它给了人们意外惊喜。接地气的说法是，性能突然就支棱起来了。

给标题划个重点：大模型的涌现能力只是一种幻觉，也就是说不存在。

涌现这个术语，是紧紧围绕“模型性能”而存在的。

在学术界，对于大模型幻觉的理解较为复杂，因为它涉及到对于模型性能和能力的解释、评估以及解释性的讨论。

第一，一些研究者认为，大模型幻觉可能与度量选择相关。在度量选择方面存在一些困难，因为不同的度量方法可能导致不同的结论。例如，非线性或不连续的度量方法可能产生表面上的涌现能力，而线性或连续的度量方法可能呈现出更加平滑和可预测的模型性能变化。

第二，学术界也关注模型性能评估的一般问题。有时，模型的性能可能受到评估任务的特定设置和数据集的影响。对于涌现能力的评估可能需要更全面的考虑，以确保其不仅仅是在特定条件下的幻觉。

第三，模型规模变化，模型性能也随之变化，于是，这可能涉及到模型在更大规模上学到的复杂特征和关系，这些特征在小模型中难以捕捉。

别人是难以描述，这家伙是“难以捕捉”。

第四，学术界还在探讨大型模型的复杂性和可解释性问题。大型模型通常是复杂的神经网络，Transformer的原理，理解其内部工作机制是一个挑战。

总体而言，争议是存在的，学术界对于大模型幻觉的理解并没有达成一致的共识，因为这涉及到多个因素的错综复杂。不同的研究者可能持有不同的观点，而未来的研究可能会更深入地探讨这一问题。

由于观察到大型语言模型（LLMs），如GPT、PaLM 和 LaMDA展现出所谓的“涌现能力”，涌现的概念在机器学习中引起了极大关注。

涌现一词甚至出现在AI大模型从业人员的日常用语之中。

对“LLMs的涌现能力”的清晰定义是：“小模型中不存在的能力，但在大模型中存在的能力；因此，无法通过简单地对小规模模型的性能改进来进行推断”。这种涌现能力最初是在GPT-3系列模型中发现的。

随后的研究强调了这一发现，指出“尽管模型在一般层面上的性能是可预测的，但在特定任务上的性能有时在规模上会出现意外，且突然的变化”。

这些引文共同确认了LLMs涌现能力的两个定义性特征：

第一，瞬间从不存在转变为存在（Sharpness, transitioning seemingly instantaneously from not present to present）
第一，不可预测性，看似无法预料的模型规模中出现（Unpredictability, transitioning at seemingly unforeseeable model scales）

这些涌现的能力引起了极大的关注，引发了一系列问题，如：

第一，是什么决定了哪些能力会涌现？

第二，是什么决定了这种能力何时涌现？

第三，我们如何能够更快地使期望的能力涌现，并确保不期望的能力永不涌现？

这些问题在人工智能的安全性和对齐性方面尤为重要，因为涌现的能力预示着更大规模的模型可能会在某一天突然获取对危险能力的不受欢迎的掌握。

换句话说，人们担心对于“涌现”的不理解，大模型会突然出现某种厉害的能力，让人类觉得危险。

在本文中，论文作者们对LLMs具有涌现能力的主张提出了质疑，特指在特定任务上，模型输出出现明显且难以预测的变化。

论文摘要：最近的研究认为，大型语言模型展现了新的能力，这些能力在较小规模的模型中不存在，但在较大规模的模型中存在。
涌现能力之所以令人着迷，有两个方面：
第一，瞬间从不存在转变为存在；
第一，不可预测性，看似无法预料的模型规模中出现。
论文中提出了涌现能力的另一种解释：
对于特定任务和模型系列，当分析固定的模型输出时，涌现能力的出现是由研究人员选择的度量而非模型行为的基本变化所致。具体而言，非线性或不连续的度量会产生表面上的涌现能力，而线性或连续的度量会产生平滑、连续且可预测的模型性能变化。
论文作者在一个简单的数学模型中提出了替代性解释，然后通过三种互补的方式进行了测试：
1）制定、测试并验证了关于度量选择效果的三个预测，使用InstructGPT/GPT-3家族在声称具有涌现能力的任务上进行；
2）在对BIG-Bench上涌现能力的元分析中制定、测试并确认了两个关于度量选择的预测；
3）展示如何选择度量以在多个深度网络上产生在视觉任务中以前未见过的似乎涌现的能力。
通过这三项分析，我们提供了证据，声称的涌现能力在采用不同的度量或更好的统计方法时会消失，而可能并非是扩展AI模型的基本特性。

论文作者坦言，他们疑虑源于这样的观察：涌现能力似乎只在对模型的性能指标进行非线性或不连续缩放时才会显现。

接地气的说法是，有些研究者认为，一些所谓的涌现可能只是因为我们选择了特定的性能指标，而这些指标的非线性或不连续缩放导致了看似的涌现现象。

好了，再重复一遍重点，这篇论文的结论是，涌现能力很可能不存在。

《我看见了风暴：人工智能基建革命》，作者：谭婧

大型语言模型的涌现能力是海市蜃楼吗？终于有好论文回答了

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

一哄而上，打不赢美国高科技

在实验时上香、投稿看黄历……科研人为了科研顺利已经疯了

科学家解决飞秒激光成丝抖动难题，生成高强度超连续光源，可用于高精度的光学测量

非洲蜥蜴人

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

从零手搓MoE大模型，大神级教程来了

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

中国学者一作Science论文，利用AlphaFold2结构预测，指导药物发现

20分逆转!森林狼4-3淘汰掘金进西决对阵独行侠

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

伊朗总统直升机残骸找到现场图流出

1998年7月重庆某县，我和家人在天空看到了一尊大佛

东南大学游雨蒙团队在Chem. Soc. Rev.上发表分子铁电体长篇展望性综述论文

创历史!曼城3-1豪夺英超4连冠福登双响罗德里破门

告诉大家一个好消息或者坏消息，乌克兰又把俄罗斯的军舰击沉了！

李少君的诗 | 闯海歌序曲

大型语言模型的涌现能力是海市蜃楼吗？终于有好论文回答了

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

一哄而上，打不赢美国高科技

在实验时上香、投稿看黄历……科研人为了科研顺利已经疯了

科学家解决飞秒激光成丝抖动难题，生成高强度超连续光源，可用于高精度的光学测量

非洲蜥蜴人

一位穷苦科研人的年度总结：喜提「WB 条带艺术家」及「茶歇杀手」称号

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

从零手搓MoE大模型，大神级教程来了

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

中国学者一作Science论文，利用AlphaFold2结构预测，指导药物发现

20分逆转!森林狼4-3淘汰掘金 进西决对阵独行侠

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

伊朗总统直升机残骸找到 现场图流出

1998年7月重庆某县，我和家人在天空看到了一尊大佛

东南大学游雨蒙团队在Chem. Soc. Rev.上发表分子铁电体长篇展望性综述论文

创历史!曼城3-1豪夺英超4连冠 福登双响罗德里破门

告诉大家一个好消息或者坏消息，乌克兰又把俄罗斯的军舰击沉了！

李少君的诗 | 闯海歌序曲

20分逆转!森林狼4-3淘汰掘金进西决对阵独行侠

伊朗总统直升机残骸找到现场图流出

创历史!曼城3-1豪夺英超4连冠福登双响罗德里破门