OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

新智元报道

编辑：KingHZ 泽正

【新智元导读】本月，OpenAI科学家就当前LLM的scaling方法论能否实现AGI话题展开深入辩论，认为将来AI至少与人类平分秋色；LLM scaling目前的问题可以通过后训练、强化学习、合成数据、智能体协作等方法得到解决；按现在的趋势估计，明年LLM就能赢得IMO金牌。

随着AI不断刷新各项基准测试，关于AI的发展各方也态度不一。

早在本月5日，「泛化的未知未来」研讨会上，众多知名研究员就相关话题展开了一场针锋相对的辩论。

此次辩题是「当今的LLM沿着既有路线持续发展是否就足以实现真正的AGI」。

辩论分为两个阵营：「火花派」认为现有技术已经具备或即将具备解决这些难题的能力；「余烬派」则持怀疑态度，认为需要更多质的变化。

正方辩手Sébastien Bubeck

辩论正方是Sébastien Bubeck，在辩论五周前加入OpenAI，是「Sparks of Artificial General Intelligence」的第一作者。

论文地址：https://arxiv.org/pdf/2303.12712

在过去几年里，Sébastien Bubek由于专注于研究大模型的智能涌现问题，所以更加主张随着大模型的智能涌现，就足以产生解决现存NP难题以及黎曼假设的智能水平。

反方辩手Tom McCoy

反方是Tom McCoy，目前是耶鲁大学语言学助理教授，是「Embers of Autoregression」一文的第一作者。

论文地址：https://arxiv.org/pdf/2309.13638

他在约翰霍普金斯大学获得认知科学博士学位，并在普林斯顿大学作过计算机科学的博士后，博士后导师是Thomas Griffiths。

今年他开始在耶鲁大学担任语言学助理教授，从事计算语言学、认知科学和人工智能的研究。他对人和机器如何学习以及表示语言结构感兴趣。

现有的LLM能够基于扩展解决重大数学问题吗？

Sébastien表示过去几年LLM取得的进步「简直是奇迹」。

重大未决数学猜想是指那些大多数人类专家认为无法用当前证明技术解决的问题，比如P≠NP或黎曼猜想。

比如，在MMLU基准中，最佳模型已超过了90%，已经彻底饱和。在医疗诊断领域，GPT-4则达到了90%正确率，而人类医生才达到了75%准确率。

并且与辩题相关的高中数学竞赛基准很快也会饱和。

Google最新发布的AI数学家，通过微调的Gemini系统，可以拿到2024年国际数学奥林匹克竞赛银牌。

基于这种趋势， Sébastien认为到明年LLM拿下IMO的金牌不是问题。

随着各种基准日益饱和，Sébastien表示真正衡量AI进步的尺度应该是「AGI时间」。

Sébastien：扩展AGI时间足以解决

GPT-4目前处于「秒级AGI」，在许多情况下可以快速响应并给出答案，类似于人类可以极短时间内作出反应。

对于某些编程任务，GPT-4可能已经达到了「分钟级AGI」，即它能像人类一样花几分钟时间编写代码片段。

而o1则可能已经达到了「小时级AGI」。

在数学领域，GPT-4仍然停留在AGI秒阶段，即便是o1也只是「分钟级AGI」，因为它无法像人类那样花费较长时间深入思考复杂的数学问题。

Sébastien表示对于重大开放性问题的解决，类似于黎曼猜想等重大数学问题的证明，那就可能需要AGI能够持续深入研究问题并坚持数周。

他表示道：「如果你有『周级AGI』的能力，那么你就拥有了这一切。」

Tom：依然欠缺创造性飞跃

而Tom则对Sébastien的观点抱以怀疑的态度，他认为仅靠现有方法的扩展是不足以去解决复杂的数学猜想的。

Tom McCoy的核心观点是证明数学猜想需要某种创造性的飞跃。

「很可能我们还欠缺某种创造性的飞跃，也就是一种全新的证明思路。在有了这种新思路之后，还需要结合长时间的推理与规划，最后才能形成符合学术标准的可信且完整的证明」。

他表示虽然LLM不仅仅是记忆，但是其泛化能力并不足以解决数学猜想，因为解决数学猜想「需要提出一个全新的想法，而不仅仅是已有想法的组合。」

而且他认为LLM缺乏长期推理和规划的能力，它们的能力很大程度上取决于训练数据的性质。这也是他们「Embers of Autoregression」论文的主要观点。

而且至关重要的是，到目前为止的扩展（scaling），并没有从根本上解决这个问题。

「我们需要的是根本性的变革，因为对于新的证明方法来讲，其在训练数据中的频率是0。所以无论怎么去继续扩展规模，都不会让LLM能够接触到这些新的证明方法，至于继续从这些新的方法里继续学习也就无从谈起了」。

Tom还表示由于LLM幻觉的存在，让其形成洋洋洒洒数十页乃至数百页的可信数学证明是不现实的。

「问题在于，当需要撰写的证明很长时，即使我们能大幅降低幻觉出现的概率，但只要这个概率不为零，当证明足够长时，证明中出现错误的可能性就几乎是必然的。而且只要证明中存在一处缺陷，这个证明就无效了」。

所以Tom认为，为了给出可信的严谨证明，LLM需要的是质变，而不仅仅是扩大规模所带来的那种量变收益。

总的来说，Tom认为有两个关键因素阻碍了当前LLM方法实现解决重大数学猜想。

第一是需要实现创造性的飞跃，产生全新性质的想法。第二是能够在数十页或数百页的篇幅中进行持续的长期推理和规划。

结合与扩展推理

Sébastien：「组合」就足以强大

为了反驳Tom的「模型的泛化能力仅仅是将两个不同的想法组合」，Sébastien询问在坐的听众：「你觉得你做的比仅仅将现有的想法结合起来更多吗？」

Sébastien认为将事物互相结合的这个过程本身就附带了一定的随机性，类似于在「思维空间里随机游走」。不断地组合现存事物，即可产生突破性的成果。

「至少对我来说，当我回顾自己所做的事时，我觉得大部分都是在做组合的工作，然后添加一点随机性进去。实际上，我写过很多论文，在其中我借鉴了别人的成果，然后意识到他们所做的其实也只是在组合已有的东西。」

错误也可以在多智能体环境被纠正

Tom的第二个核心论点是「随着推理变得越来越长，错误是不可避免」。

对此，Sébastien认为问题被夸大了。即便是知名研究员撰写的论文，如果它们超过了50页还能保持完全正确的，也是非常非常少。

但这不意味着论文的结果是错误的，况且错误也可以被他人所指正。

「我可以想象一个未来，有一群AI共同工作。那将是一个多智能体的环境，其中一些AI在阅读其他AI写的论文，然后指出错误并得到修正回馈，等等。这绝对是一个可能的未来」。

后训练是否可以解决现存问题

Sébastien对于「Embers of Autoregression」一文中提到的问题，即训练数据表示不充分时会出现更多错误。

「当然，这绝对是一个真实的陈述，但它只是针对基础模型的真实陈述。」

但是Sébastien认为这并不意味着模型本身就不具备能力，只是因为训练数据中一些任务表示不够充分。所以可以通过后训练来提取相应的能力。

他对Tom讲道：「我认为你在Embers of Autoregression论文中提到的只是关于基础模型的内容。如果你对其进行后训练，一些结论可能会改变。」

Tom回应：后训练不行

Tom表示其论点是基于基础模型的。

他认为这些由预训练产生的效果在后训练中仍然持续存在:「我们分析过的模型全都经过后期训练，但它们依然表现出这种自回归的痕迹。」

o1表现确实比之前的模型都要好得多，但它仍然在处理字母顺序上比逆向字母顺序表现出更好的效果，以及其他类似的情况。

「即使这些后训练方法也不足以改变模型的基本性质，其基于自回归的根本特性。」

因此猜测「要完全消除这些问题，需要从预训练阶段就明确且直接地对推理进行训练，因为目前的情况，模型中的推理实际上是在最后拼凑上去的。」

这是一个非常重要的步骤，而且在训练浮点运算次数等方面，与其他方法相比它要少得多。

「因此，为了达到所需的稳健性，这需要某种质的变化。」

是的，另一个问题是，除了能够组合现有的想法，找出哪些想法需要被组合起来也很重要。

据他了解，那些令人印象深刻的想法组合，大部分是人类告诉AI模型的：「这里有两件事，我们要你把它们组合起来。」

但他认为，「知道哪些东西的组合会产生新的证明技巧，这是一个更难的问题。」

此外，他完全同意「一些著名证明的想法，确实是通过令人印象深刻的方式将现有想法组合在一起而产生的。」

从新颖性或创意角度来看，有些方法虽然未解决问题但也很成功，他表示「像费马大定理这样的问题，之所以受到盛大的庆祝，是因为它们极具创意，并且以非常新颖的方式使用了旧技术。」

Sébastien：人机交互很重要

这次Sébastien表示要稍微偏题一下，那就是「AI自行解决问题之前，它将与所有人进行合作。」

他分享了与AI一起合作做研究的经历。

「凸函数的梯度流能有多长？」

这个问题当时还是他在Dropbox中的草稿，并且还没有发表。所以可以肯定这没有被包含在训练数据中。

他向o1模型问了这个专业问题，没想到o1将问题与所谓的自收缩曲线联系了起来。

但这种关联并不直观，而且它解释了为什么在这两者之间建立联系是个好主意。并提供了相关文献。

而Sébastien自己花了三天时间才找到这个联系。

也就是说，即便仅仅是目前的基础模型，也足以让他能够加快三天的研究进度。

他表示在明年更多的科学家会经历类似的体验。

「这和医疗诊断领域发生的一样。在每个领域都有同样的故事。AI至少将与我们几乎平分秋色。」

随后Tom也认为AI可与人类合作，但这不必然意味着它可以不依赖于人类而独自做出对数学的创新贡献。

「为了解决某些未解决的数学问题，仅仅和人类一样好是不够的，实际上它必须在某种程度上比人类更好，或者至少比我们迄今为止所提到的任何人类（比如高斯）都要好」，Tom回应道。

Tom：推理时间扩展面临指数级增长困境

Tom发起了一个疑问，「在假设有无限的时间和数据的前提下，扩展是否会最终达到目标？」

如果我们把这个问题降到实际层面，即是否有一个数字X，在经过X年后，通过扩展能否达成目标。

他认为首先，人们已经开始担心现有的互联网数据量是否足够支持这种数据规模的继续增长。例如，继续现有的数据扩展水平。

测试时扩展变得如此令人兴奋的原因之一就在于它提供了一种不同的扩展方式，这种扩展不再那么依赖预训练数据的规模。

但是即使是对于测试时扩展或训练周期数量的扩展，也存在一个问题：许多已观察到的scaling law表明，性能改善随着规模扩大是按对数增长的。

这意味着我们需要更多指数级的数据或推理时间才能继续看到性能提升。

Tom担忧「到了某个时候，这种指数型增长可能会变得不可行」。

同时，Tom认为对于 AI 系统来说，稳健地用新方式使用那些熟悉的想法也很重要。

「我们也有证据表明，AI系统在以熟悉的方式使用某些概念时，表现得比以新颖方式使用时要好得多。有趣的是，这与人类的情况有点类似。」

比如，给GPT-4一个数字，让它乘以9/5再加上32，其准确率大约为11%。但若同时告诉GPT-4「也就是将数字从华氏度转化到摄氏度」，其准确率提升到了62%。同样的计算，仅仅认识到这是熟悉的场景，就足以显著提高性能。

Tom总结：总体乐观，但怀疑Scaling不行

Tom在总结时以一个笑话开始。

这个笑话是这样的：

一群朋友在公园里散步时，遇到了一个男人和他的宠物狗正在下棋。他们走上前说：「哇～，你的狗竟然会下棋！真是太神奇了！」那个男人回答：「哦，其实也没啥，通常都是它输了。」

故事的笑点是，这个人对他的狗会下棋习以为常，然而对一只狗而言，会下棋就已经很神奇了，哪怕它并不擅长下棋。

Tom对大语言模型的批评也是如此：「大语言模型能做这么多的事情，真是令人惊叹，即便在很多事情上做得并不完美。所以，大语言模型确实很厉害，但重要的是，不要过度夸大它们的能力。」

他认为：「大语言模型的这些能力来源训练数据。」

通过反复观察，他非常清楚地看到大语言模型的能力与训练数据的频率紧密相关。

这样看来，大语言模型拥有如此广泛和令人印象深刻的能力，可能更多地反映了训练数据的多样性，而不是说其具备深层次的泛化能力。

这意味着如果我们希望大语言模型能够真正地别开生面，这就需要不同于当前的范式。

只用当前的范式Scaling是不够的，因为所需的能力并不包含在训练分布中。

现在，确实有可能存在一个学习器（learner）能够做到超出其数据范围的事情，因为人类就可以，毕竟人类过去已经解决了数学中的多个猜想。

但到目前为止，还没有证据表明大语言模型能够达到这种创造力和深度。

他认为「总体上，我对AI能够帮助我们解决这些未解问题是乐观的，但我怀疑仅靠扩大规模不能做到这一点。」

他认为需要改进以下关键点：

第一点是增强长距离推理和规划能力，以及更好的长期记忆。

因为仅仅给大语言模型更大的内存可能还不够，还需要找出如何让它们有效地利用增强的记忆，确保能够在非常长的记忆背景下识别出重要信息。

第二点，需要找到解决幻觉和可靠性问题的方法。一种潜在的技术是更流畅地与符号组件（如证明验证器）进行集成。

另一个是他之前提到过的想法，可能从一开始就优化系统，使其更适合操作思想而不是语言。

大语言模型首先是一种语言模型，它们主要的初始预训练阶段基于语言预测。

而最近的方法确实包含额外的微调和后训练阶段，但基本模型本质上仍然以语言为基础。

因此，这就导致了这样一个效果：大语言模型处理概念的能力必须通过语言间接地涌现。

他认为这很可能解释了为什么如此多的LLM推理仍然相对脆弱或容易受到概率的影响。

为了绕过这个问题，重要的是让模型直接优化推理能力，而不是从语言开始优化。

最后的一点是，采取什么措施来产生创造力，这确实非常令人困惑。

他认为没有人知道具体需要什么才能具有创造力。

但有几个因素可能很重要，那就是抽象能力和类比能力，因为抽象和类比将以新的方式看待熟悉的想法，从而建立前所未有的联系。

这一切说起来容易做起来难，但他确信点燃AGI星星之火需要持续不断的富含人类智慧的创新。

Sébastien总结：创意就是模式识别

Sébastien认为「在进入大学阶段或刚入大学阶段，我们会接触到很多东西，知识也逐渐扩展。然后进入研究生阶段，就开始深入研究了，会花很长时间思考问题。在读研的第一年，你可能会选择一篇论文，然后花费一个月的时间来钻研它。」

而大语言模型在互联网数据上的预训练也是如此。

它们被训练地特别针对性地深入地思考某个具体的问题领域。

Sébastien认为第二个非常关键的要点是：「一切都是涌现，没有硬编码。」

不用向AI下达「请检查答案」「请回溯」「请做XXX」这类指令。

不用向模型传授任何锦囊妙计。

通过强化学习， LLM能学到这一切。

GPT-4的智能涌现让Sébastien感到惊讶不已：「一旦事物开始以这种方式涌现，这种能力的极限到底在哪里，你怎么能说得清楚呢？这真的很难说。但这个非常重要。」

然而问题是现在LLM卡在这里了，即便是o1也是如此。

此路不通，可以另寻他路，其中一种方法当然是合成数据。Sébastien与微软团队一起开发的Phi系列模型，一直在这样做。

Sébastien的最后一个观点是关于真正的创造力。

他表示美好的时刻就是「审视自己的工作以及那些人所做的工作的时刻」，真正的创意时刻就是「识别出模式的时刻。」

他再次强调，「识别模式有点像组合事物，但它可以在不同的规模上进行组合」。

他感慨到：「这不仅仅是将两个想法结合在一起。就像你突然发现很多事情以一种非常新颖的方式相互关联。」

这就是一个好定义的含义。

一个好定义能够涵盖可能无限多的东西，并将其浓缩成精炼的一句话。

「所以构建那些好定义的过程，全在于识别模式，全在于抽象化。现在关键点是这似乎是一种可以传授的技能。你可以给出一些例子。你可以设计许多关于如何提出一个好的定义的例子。一旦你将这种抽象能力注入模型中，想出一个好的定义，然后把它和其他我们说过的内容结合起来，我就看不到这些模型能做的事情有什么限制。」

参考资料：

https://x.com/tsarnick/status/1871869965135179909

https://x.com/tsarnick/status/1871874919661023589

https://simons.berkeley.edu/talks/sebastien-bubeck-open-ai-2024-12-05

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

AGI前夜的思考：2025年将出现真正AI智能体，年轻人需要快速适应

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

中国AI的进步之快，让美国人开始怀疑现实了

程序员的AI救赎时刻接入这个数据库业务提问自动解决

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

网友用350美元造出能走能玩的端到端人形机器人

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

AI指挥机器人拍照，1:1复刻大片构图

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

AGI前夜的思考：2025年将出现真正AI智能体，年轻人需要快速适应

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

中国AI的进步之快，让美国人开始怀疑现实了

程序员的AI救赎时刻 接入这个数据库 业务提问自动解决

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

网友用350美元造出能走能玩的端到端人形机器人

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

国产之光DeepSeek把AI大佬全炸出来了！53页论文技术细节大公开

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

AI指挥机器人拍照，1:1复刻大片构图

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

程序员的AI救赎时刻接入这个数据库业务提问自动解决

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有