最近,“AI是否放缓了”,成为很多美国AI社区争论的焦点。
The Information的一篇报道写道,Pre-Train模型的预训练“撞墙”了,OpenAl下一代旗舰模型的质量提升幅度,不及之前,因为高质量文本和其他数据的供应量正在减少。原本的Scaling Law(用更多的数据训练更大的模型)可能无法持续。并且,更先进的模型由于训练费用暴增,可能在经济上也不具有可行性。
Ilya Sutskever在接受媒体采访时,也说:通过扩展预训练——即在训练AI模型时使用大量未标注数据来理解语言模式和结构的阶段——取得的效果已经触及瓶颈。
随后,不少科技大佬站出来发声,强调Scaling Law没有放缓。比如黄仁勋说:并没有看到人工智能Scaling Law遇到障碍,相反出现了测试时计算的新缩放定律。他认为,o1代表了人工智能行业改进模型的新方法。同时,Anthropic首席执行官达里奥·阿莫迪周三也表示,自己并没有看到模型开发放缓的迹象。
Sam Altman发了一条推文:there is no wall(并没有墙,对应之前的传言“AI撞墙”)
这些声音引发了业界对于未来AI发展方向的讨论,Scaling Law失效了吗?如果效果确实下滑了,那应该往什么新方向发展?或者,如何重新激活Scaling Law?我们综合了一些科技大佬、论文的观点,以求更全面的阐述这个话题,enjoy:
1
AI撞墙了吗?
从2022年底ChatGPT问世以来,Scaling Law一直是支撑AI指数级增长的理论基础,在OpenAI的重要论文Scaling Laws for Neural Language Models中,研究者提出了大语言模型遵循“伸缩法则”(scaling law)。
通过研究证明,当我们增加参数规模、数据集规模和延长模型训练时间,大语言建模的性能就会提高。并且,如果独立进行,不受其他两个因素影响时,大模型性能与每个单独的因素都有一个幂律关系,体现为Test Loss的降低,也就是模型性能提升。
但值得注意的是,Scaling Law并不是真正的物理定律。与摩尔定律一样,它观察到半导体的性能大约每两年翻一番,这与近年来AI性能每六个月左右翻一番的感知相似。
比如a16z的风险投资人Ben Horowitz就表示:“我们正以同样的速度增加用于训练AI的GPU数量,但我们根本没有从中获得智能上的改进。”
在近期引起争议的The Information文章中(随着GPT提升减速,OpenAI改变策略),就给出了一些颇具争议的观点:
OpenAI的下一代旗舰模型Orion,并不像前代实现巨大的飞跃,虽然性能会超越现有模型,但相较于从GPT-3到GPT-4的改进,幅度要小得多;
Scaling Law逐渐放缓的一大原因,就是高质量文本数据越来越少,OpenAI已经成立了一个基础团队,来研究如何应对训练数据的匮乏;
AI 产业界正将重心转向初始训练之后,再对模型进行提升的环节。
与这篇报道同时引起讨论的,是一篇论文《Scaling Laws for Precision》,CMU教授Tim Dettmers对此评论道:它是很长一段时间以来最重要的一篇论文,它以强有力的证据表明我们正在达到量化的极限。论文中说:你训练的标记越多,你需要的精度就越高。这对整个领域和 GPU 的未来有着广泛的影响。
Tim Dettmers认为:可以说,人工智能的大部分进步都来自计算能力的提升,而(在最近)这主要依赖于低精度路线的加速(32- > 16 - > 8 位)。现在看来,这一趋势即将结束。再加上摩尔定律的物理限制,大模型的大规模扩展可以说要到头了。而从我自己的经验(大量失败的研究)来看,效率是无法欺骗的。如果量化失败,那么稀疏化也会失败,其他效率机制也会失败。如果这是真的,那么我们现在就已经接近最优了。
AI大神Andrej Karpathy(OpenAI创始成员、特斯拉前AI高级总监)也转发了这条推文
也就是说,Scaling本质上还是扩大算力,在之前AI增长很快的这几年里,“大力出奇迹”一直是那根点石成金的“魔法棒”,但如今再用老办法去做,可能不管用了。未来需要重新寻找,去“点”哪里的问题,也就是得重新思考,把巨量算力以什么方式、用在什么地方。
并且,“数据饥饿”问题也越来越凸显,它也在限制大模型的迭代速度。在过去几年的飞速发展中,大模型一直在使用来自互联网、书籍和各种来源的公开文本等,进行预训练,而如今这类数据几乎已被“榨干”。
据The information报道,在OpenAI的下一代旗舰模型“Orion”中,虽然已经开始尝试在训练阶段引入AI生成数据,但同时又面临一个新问题,即Orion最终可能在某些方面与旧型号的大模型相似。
OpenAI研究员Noam Brown在上个月的TED-AI会议上表示,开发更先进的模型在经济上可能并不可行。特别是如今数据中心昂贵的建造成本,可能也难以支撑起继续指数型迭代,所需的庞大算力要求。“我们真的要训练花费数千亿美元或数万亿美元的大模型吗?有时候,Scaling law的范式也会崩溃。”Noam Brown说。
2
AIlya被忽视的后半句话:
现在的关键,是找到在什么地方去Scaling
Ilya Sutskever在接受路透采访时的前半句话是:“扩大预训练规模的结果已经达到稳定状态”(意思就是撞墙了),但他的后半句话是:“现在的关键,是找到在什么地方去Scaling。”(当然,llya也没有说未来到底去scaling什么因子)
最近,Anthropic的CEO Dario Amodei,与Lex Fridman进行了一次对谈,也聊到了Scaling law是否放缓的问题,比较好的解答了这个问题,当然他主要站在不认为Scaling law撞墙的那一派。下面我们节选了一些干货部分(如果你对这个访谈感兴趣,可以去看原视频: Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Huma nity | Lex Fridman Podcast https://www.youtube.com/watch?v=ugvHCXCOmm4):
Lex Fridman:今天我们处于 scaling law 的什么阶段?
Dario Amodei:对我来说,真正的转折点是在2014年到2017年之间,那时我真正确信:通过扩大模型规模,我们就能完成各种复杂的认知任务。
其实 scaling law 在发展的每个阶段都会有各种各样不同的质疑。刚开始我也觉得可能是我错了,比如 Chomsky 认为,尽管模型可以做到句法分析,但仍然无法理解语义,还有一种观点认为,句子可以是有意义的,但还是不能让段落连贯起来。
现在最新的质疑就包括,数据马上就要耗尽了,或者数据的质量不够高,或者模型不能进行推理等等。但面对这些质疑,我们每次都能找到解决的办法,或者持续做scaling就能解决问题。
直到现在,我仍然认为scaling有很多不确定性,我们只能通过归纳推理来判断未来两年是否会延续过去 10 年的趋势。这样的情况我已经见过太多次了,我认为 scaling 很可能还会继续下去,只不过其中的奥秘还没有办法完全用理论解释。
Lex Fridman:这里的 scaling 指的是计算规模更大、数据更多、算力更强吗?
Dario Amodei:是的,具体来说是 network、raining times 和 data 的线性扩展。这就好比一个化学反应一共有三种成分,如果想让反应顺利进行,就需要把这三种成分一起按比例加倍。如果只增加其中一个成分,其他试剂不够了,反应就会停止。如果能把所有成分都按照相同的比例增加,反应就能继续进行下去。
Lex Fridman:Scaling law 是不是可以延展到其它更细节的环节?比如可解释性中也存在 scaling laws,或者 post-train 也存在 scaling law?
Dario Amodei:是的,除了语言以外,到 2020 年底左右,我们又发现同样的规律在图像、视频、文本到图像、图像到文本、数学等模态下也都适用。在其他我们研究过的模型训练的环节中,比如 post-train 、新的 resigning models 上,也能看到类似的规律。
Lex Fridman:Scaling 的上限在哪里?现实世界还有多少复杂的知识需要我们和模型去学习?
Dario Amodei:还没有人能给出明确答案。
我的一个直觉是,就达到人类的水平这个目标来说,scaling law 还没有遇到上限。人类能够理解各种复杂的模式,所以如果我们继续放大这些模型规模,开发新的训练方法并扩大它们的能力,至少能让模型达到人类的水平。问题是,模型是否有可能超越人类的能力,会不会比人类更聪明、更敏锐?这个答案在不同领域可能不一样。
比如我在 Machines of Loving Grace 这篇文章里面提到的生物学领域,今天人类才刚刚开始理解生物学的复杂性。
在斯坦福、哈佛、伯克利这样的学校,可能有一整个系的人都在研究免疫系统或代谢通路,但每个人都只理解其中很小的一部分,研究分工特别地专业化,而且他们也在尝试把互相之间的研究整合起来。所以,我直觉上会觉得,AI 智能还有很大的提升空间。
如果说到物质世界的材料,或者人与人之间的冲突,这些问题可能没有生物学那么难解决,但问题在于我们也只能做到这个程度,就好比语音识别能听清的程度是有限的。
所以某些领域的上限可能很接近于人类的水平,而其他领域的上限可能还远远没达到。只有真正搭建好了这些 AI 系统,才能知道上限到底在哪里,尽管我们可以推测,但不能确定,也很难提前知道答案。
Lex Fridman:如果我们真的遇到了上限,或者 scaling law 放缓了,你认为原因可能会是什么?
Dario Amodei:我认为可能的原因有几种。我们这里所说的上限是指模型还没有达到人类的水平之前能力就触顶了的情况。
现在比较普遍的一种观点是,我们可能会面临数据不足的限制。我们的确有可能会用完数据,因为网络上的数据量是有限的,数据质量也是个问题,虽然网络上有数百亿的词汇量,但其中很多都是重复的,或者是为了 SEO 而产生的内容,甚至未来可能是 AI 自己生成的文本。所以我认为通过这种方式获取的数据是有限的。
不过,我们正在研究如何制造合成数据(synthetic data),通过模型生成与现有数据类似的新数据,甚至完全从零开始生成数据。我估计其他公司也在这么做,比如 DeepMind 就让 AlphaGo Zero 做 self-play,让它从完全不会下围棋到超越人类水平,过程中不需要人类的示例数据。
还有一个方向是 reasoning models,这类模型会进行思维链思考,也可以停下来反思自己的思维过程,某种程度上算是另一种结合了 RL 的合成数据。
所以通过合成数据和 resoning models 其中任何一种方法,都可以帮我们解决数据限制的问题。
我们也会发现,即使数据层面没有遇到调整,在模型的 scaling up 中,模型能力可能也不会一直进步,虽然长期过程中我们都观察到模型性能会随着规模变大不断进步,但可能会在某个时间停止,具体原因我们还不得而知。
一个可能的答案是我们要发明新的架构。过去也遇到过模型数值的稳定性等问题,当时模型性能看起来基本已经不再提升了,但实际上找到合适的解决方案后,性能又会继续提升。所以我们可能需要新的优化的方法或者技术来突破当前的瓶颈,虽然到目前为止我还没有看到这方面的迹象,但如果 scaling 的进展被明确证实放缓了,那么原因可能就是缺少新的架构。
Lex Fridman:算力会是 scaling law 的限制吗?
Dario Amodei:我估计目前主流模型公司的计算规模在 0.33~3 billion 之间,预计明年能提升到几十亿的规模,2026 年可能会超过一百亿,到 2027 年,可能会建设上百亿规模的计算集群。这一切都是可以实现的,因为业界有很强的决心,当然,即使达到千亿级别的计算规模,算力可能也还不够,我们要么需要进一步加大规模,要么就需要开发更高效的方法,改变现在的 scaling 曲线。
我之所以看好 powerful AI ,其中一个原因就是如果我们继续沿着当前的曲线发展,模型很快就能接近人类的能力水平。在今天已经被开发出来的 reasoning models 中,有些已经达到了 PhD 或者专业的水平,就 coding 的能力来说,我们最新发布的 Sonnet 3.5 在 SWE-bench 上的表现已经达到了 50% 左右。
今年年初,SOTA 模型在 SWE-bench 上的表现也才只有 3% 到 4%,仅仅在 10 个月内,模型的表现就从 3% 提升到了 50%。再过一年,甚至都不需要一年,可能就会达到 90%。
OpenAI 的 o1 模型已经能够在研究生级别的数学、物理、生物等领域取得了类似的进展。如果我们继续沿着这条技能提升的曲线往前走,我认为几年内这些模型的专业能力就能超过人类的最高水平。但确实存在这条曲线并不一定会一直持续下去的风险。
另一方面,推理也被视为是解决问题的办法之一。Cohere联合创始人兼CEO Aidan Gomez(他也是AI领域最具影响力的论文《Attention Is All You Need》的联合作者),就认为,大语言模型的发展已进入平台期,而推理能力将成为未来突破口,并将带来新的商业模式和市场机遇。同时,他也提醒投资者警惕模型价格倾销。
对于Scaling law放缓的问题,Gomez认为,简单扩大模型规模带来的边际效益正在递减。以绘画为例,在大模型发展的初期,如同用大笔触快速完成基础构图,但随着模型需要处理更精细的任务,就需要越来越细的笔触来完善细节,模型改进需要的数据也越来越精细,这导致获取高质量数据的成本越来越高,最终模型的规模化发展,将受限于人类知识的边界和专家数据的获取难度。
而下一阶段的突破口可能在推理能力方面。Gomez说:推理能力可以让大模型不仅简单地记忆输入输出对,还可以像人类一样进行多步骤的思考和推理,解决更复杂的问题。而这,这带来了一个革命性的变化——企业不必再为提升AI能力,去投入巨额固定成本,而是可以通过增加推理时间来实现。用通俗的话说,就是从"买更大的算力"变成了"多给AI一点思考时间"。
在AI领域也有不少人持有这样的观点,虽然从预训练来看,Scaling Law可能在放缓,但对于推理层面的Scaling Law,还未被充分挖掘。
最后,想说一段深度学习历史上的一段小插曲,来做为这个争议的结尾。
在2022年3月,Gary Marcus发表了“深度学习撞墙了”这个观点,AI界也陷入了一波争论。Gary Marcus是Robust.AI的创始人,同时是纽约大学心理学及神经科学教授,在AI领域还是有些分量。
随后,Geoffrey Hinton、Yann LeCun等人,都站出来驳斥了这个观点,Yann LeCun说:当代人工智能的主要技术是深度学习神经网络,这是一种大规模的自学习算法,擅长识别和利用数据中的模式。从一开始,批评者就过早地认为神经网络已经遇到了不可翻越的墙,但每次都被证明只是一个暂时的障碍。
如今可能也是一样,就像IIya的后半句话所说:现在的关键,是找到在什么地方去Scaling。
曾经我们访谈过一位AI创业者,他提到的一个信念,很适合我们应对面前的这个坎:“我记得在2016年的时候,那时我还在一家大公司,有一次参加完一个NLP的会议,结束之后充满了挫败感,感觉好像这辈子都看不到真正的应用,你也不知道那时的投入到底是不是对的。但我也经常反思,从我过去十几年对未来的预判里,我发现AI和机器人整体的发展速度,又是大大超出我的预期了。短期内你永远会看到很多困难,但这么多聪明的头脑,其实在解决一个又一个问题,产生了一个又一个技术突破,就像有一只巨大的手在促使这个行业往上升。”
References:
1.新智元:Scaling Law撞墙,AI圈炸锅了!OpenAI旗舰Orion被曝遭遇瓶颈,大改技术路线
2.机器之心:OpenAI大改下代大模型方向,scaling law撞墙?AI社区炸锅了
3.AI前线:营收翻倍、Blackwell芯片爆单,黄仁勋否认 Scaling Law 失效
4.信息平权:怎么理解Ilya说的“AI放缓了”
5.硬AI:这个访谈回应了所有AI焦点问题!
6.机器之心:Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
7.海外独角兽:Dario Amodei:Scaling Law 还没遇到上限