OpenAI被曝数据崩溃GPT-5难产，团队抢算力冲突激烈！Ilya预言成真？

新智元报道

编辑：编辑部 JHZ

【新智元导读】虽然圣诞12日最后一天，o3刷新了ARC-AGI测试，但离AGI依然前途渺茫。而且就在最近，外媒还曝出GPT-5不达预期，还因训练数据问题多次踩坑。对手已经纷纷赶上，OpenAI的前路不容乐观。

OpenAI轰轰烈烈搞出一场12天圣诞特别活动，结果期间发布最轰动成果的，居然是谷歌。

谷歌一发发密集的核弹，让OpenAI分成12天的挤牙膏黯然失色，毫无还手之力。

，demo惊艳的Project Astra，组团出道的AI智能体，……显得OpenAI的圣诞活动仿佛是个笑话。

到了最后一天，OpenAI好歹支棱起来，放出个大的。

奥特曼亲自上场，在直播中揭秘OpenAI下一代推理模型o3，令人印象最为深刻的，就是它在难度极大的ARC-AGI基准上遥遥领先。

OpenAI模型在ARC-AGI得分的历年表现

「从o1到o3要3个月。从o1 Pro到o3只要1个月。」

这个对比，算是让前段时间甚嚣尘上的「Scaling Law撞墙论」打脸了，OpenAI总算扬眉吐气了一回。

目前，o3只对安全研究员开放，而大家最关心的是：我们的GPT-5呢？

巧了不是，就在直播几小时后，OpenAI直接被外媒踢爆负面消息：GPT-5问题不断，遥遥无期！

华尔街日报发文曝料：OpenAI的新一代AI模型GPT-5的内部开发项目「Orion」问题重重

文章标题明晃晃地指出「项目延期」、「成本高昂」，直接把奥特曼惹急了！

他暗暗讽刺道：o3发布没多久，他们就说AI的下一个伟大飞跃进展缓慢，这合理吗？

虽然o3的性能耀眼，但GPT-5究竟何时发布，目前还是未知数。

要知道，自从2023年3月发布的GPT-4到现在，已经超过18个月了，市场和投资人的耐心，也快被磨没了。

风头机构Menlo Ventures的数据显示，今年OpenAI在企业AI领域的市场份额，从50%暴降至34%，但老对手Anthropic的市场份额却翻了一番，从12%涨至24%。

甚至今天还有消息曝出：因为OpenAI模型的性价比太低，微软正计划将非OpenAI模型集成到365 Copilot。

谷歌、Anthropic的步步紧逼，微软的暗戳戳「背刺」，OpenAI的境遇，显然已不是当初「赢者通吃」的一家独大。

OpenAI在GPT-5的训练上，问题不断

根据华尔街日报的报道，微软原本计划在年中看到GPT-5，但奥特曼在11月时表示，今年反正是不会发布了。

当然，这并不是说OpenAI什么都没做。

据知情人士透露，OpenAI至少进行了2次大规模的训练，每次都需要数月时间处理和分析海量数据。

但每次训练都会有新的问题出现，同时模型的表现也无法达到研究人员的预期——其性能的提升不足以证明维持新模型高昂的运行成本是值得的。

不仅如此，一次为期6个月的训练成本也非常之高——仅计算部分就需要约5亿美元。

大语言模型训练日

OpenAI的ChatGPT模型参数规模巨大，在测试持续的时期内，模型可以被输入数万亿个token。

ChatGPT系列不同参数规模比较

一次大规模训练可能需要在数据中心耗时数月，使用的顶级计算芯片达到数万块。

每次训练，研究人员需要在电脑前持续工作数周甚至数月，努力将世界上大部分知识输入到AI系统中。

奥特曼曾表示训练GPT-4的成本超过1亿美元。未来的AI模型训练成本预计将突破10亿美元。

训练失败令人痛心且代价高昂，就像航天发射任务中火箭在升空后突然爆炸一样。

为此，研究人员尝试通过开展小规模实验来降低这种失败的风险——在正式训练前进行预先测试（trial run）。

但没想到的是，GPT-5在预先测试中就已经暴露出了大量问题。

2023年中旬，OpenAI启动代号为Arrakis的项目，作为Orion新设计方案的预先测试。

然而，这个过程的进展非常缓慢——也就是说，更大规模的训练将需要极其长的时间，而成本也将会达到天文数字。

项目结果表明，开发GPT-5的道路将远比预期更加曲折。

OpenAI的研究人员决定对Orion进行技术优化，并着手去解决多样化和高质量训练数据不足的问题。

从零开始构建数据

为了让Orion更智能，OpenAI需要扩大模型的规模，而这就需要更多的训练数据。

但众所周知，目前可用的优质数据已经捉襟见肘。

对此，OpenAI的解决方案是：从头创建数据集。

他们正在组建团队为Orion提供学习材料，比如聘请软件工程师编写全新的软件代码，聘请数学家设计数学问题。这些专家还会向系统详细解释他们的解题思路和工作过程。

许多研究人员认为，程序代码作为一种严谨的计算机语言，能够帮助LLM学会处理它们此前从未遇到过的问题。

让人们解释他们的思维过程可以深化新创建的数据的价值。

这不仅为LLM提供了更多可学习的语言数据，还为模型在未来解决类似问题提供了系统化的解决方案。

与OpenAI、Meta等科技巨头都有合作的AI基础设施公司Turing，就会要求软件工程师编程序去高效解决复杂的逻辑问题，或让数学家计算用一百万个篮球堆成的金字塔的最大高度。

然后，这些答案，以及更重要的解题思路和步骤，都会被整合到AI的训练数据当中。

此外，OpenAI还与理论物理等领域的专家展开合作，请他们详细说明如何应对该领域中最具挑战性的问题。这些专业知识也将助力提升Orion的智能水平。

这个过程，同样非常缓慢……

据估计，GPT-4的训练使用了大约1.3×10¹³个token。即使组织一千人的团队，每人每天撰写5000字，要生成十亿个token也需要数月时间。

与此同时，OpenAI也采用了「合成数据」来辅助训练Orion。然而研究表明，这种AI创建数据再用于训练AI的反馈循环往往会导致系统故障或产生毫无意义的答案。

据知情人士透露，OpenAI的科学家们认为，使用另一个AI模型o1生成的数据，可以避免这些问题。

人才流失

大模型训练充满挑战。而公司内部的剧烈动荡和竞争对手持续以数百万美元年薪挖角其顶尖研究人员，OpenAI的大模型训练变得更加复杂。

去年，奥特曼突然被OpenAI董事会解职，这一事件让许多研究人员对公司的未来产生疑虑。不过奥特曼很快被重新任命为首席执行官，并随即着手改革OpenAI的治理架构。

仅在今年一年，就有超过二十多名核心高管、研究人员和资深员工离开了OpenAI，包括联合创始人兼首席科学家Ilya Sutskever和首席技术官Mira Murati。

在最近的一次人事变动中，著名研究员Alec Radford也宣布离职，他在公司服务近八年，是多篇重要科研论文的主要作者。

重启Orion项目

截至2024年初，OpenAI的高管们开始感受到越来越大的压力。

GPT-4推出已满一年，而竞争对手们正在快速追赶。

Anthropic公司推出的新一代大模型在业内广受好评，许多专家认为其性能已经超越了GPT-4。

在2024年第二季度，谷歌又推出了智能笔记应用NotebookLM，这款AI辅助写作工具迅速成为年度最受欢迎的人工智能应用。

面对Orion项目的研发瓶颈，OpenAI开始将资源分配到其他项目和应用的开发中。这些新项目包括开发GPT-4的轻量级版本，以及名为Sora的AI视频生成产品。

据知情人士透露，为了争夺有限的算力资源，负责新产品开发的团队与Orion研究员之间产生了冲突。

AI实验室之间的竞争已经远超科学界常态，各大科技公司发表的最新研究成果和技术突破论文数量显著减少。

自2022年大量资金涌入市场以来，科技公司开始将这些研究成果视为核心商业机密。一些研究人员对保密工作极其谨慎，甚至拒绝在飞机上、咖啡店或任何可能被他人窥视工作内容的场所办公。

这种过度保密的态度引发了许多资深AI研究者的不满，其中包括Meta首席AI科学家Yann LeCun。他直言不讳地表示，OpenAI和Anthropic的工作本质上已不能算作研究，而应该被视为「高级产品开发」。

在一次OpenAI几乎缺席的AI会议上，LeCun表示：「如果是在商业开发周期的压力下进行的，那就不能称之为研究；如果是在完全保密的情况下进行的，那也不能称之为研究。」

再次踩坑

2024年初，OpenAI准备借助改进后的数据再次启动Orion项目。研究团队在第一季度开展了数次小规模模型训练，以积累经验并建立信心。

到5月，OpenAI的研究人员认为时机成熟，决定再次尝试Orion的大规模模型训练，预计整个过程将持续到11月。

然而，训练开始后，研究人员发现了数据集存在的问题：数据的多样性远低于预期，这可能会严重制约Orion的学习能力。

这个问题在小规模测试中并未显现，直到大规模训练启动后才暴露出来。考虑到已投入的时间和资金成本过于巨大，OpenAI已无法从头开始。

为此，研究团队不得不在训练过程中紧急寻找更多样化的数据输入模型。这种补救策略的效果目前仍未可知。

数据正在耗尽

Orion项目遇到的这些问题向OpenAI内部传递出一个信号：过去推动公司取得成功的「规模至上」策略可能已经走到尽头。

不只是OpenAI在担忧发展遇到瓶颈。整个AI行业都在激烈讨论一个问题：人工智能的技术进步是否已开始进入平台期。

全新策略：增加推理时间

在Orion项目的研发过程中，OpenAI研究人员发现了提升大语言模型智能的新途径：强化推理能力。

研究人员表示，通过延长模型在推理时的「思考」时间，可以使其解决一些没有训练过的难题。

从技术实现角度来看，OpenAI o1采用多答案生成机制，即对每个问题生成多个候选答案，并通过分析筛选出最优解。

由此，模型便可以处理更复杂的任务，如制定商业计划或设计填字游戏，同时提供详细的推理过程说明——这种机制使模型能够从每次回答中持续学习优化。

不过，苹果的研究员在论文中对此提出了质疑，认为包括o1在内的推理模型很可能只是在复现训练数据中的模式，而非真正具备解决新问题的能力。

论文链接：https://arxiv.org/abs/2410.05229

研究人员发现，当在问题中添加无关信息时，模型性能会出现严重退化——例如，仅仅在一道关于猕猴桃的数学题中加入水果大小差异的描述，就会导致模型表现显著下降。

在最近的TED演讲中，OpenAI的高级研究科学家Noam Brown着重强调了推理能力的重要性。

Noam Brown表示：「我们的研究发现，让AI在扑克游戏中进行20秒的推理思考，就能获得与将模型规模扩大100,000倍并延长训练时间100,000倍相当的性能提升。」

一个更先进、更高效的推理模型可能成为Orion项目的核心基础。

OpenAI的研究团队正在深入探索这一方向，并计划将其与传统的数据扩充方法相结合，部分训练数据将来自OpenAI的其他AI模型。

随后，他们将利用人工生成的内容来进一步优化模型效果。

o3屠榜基准测试，但距离AGI有多远？

随着o3的「发布」，模型也在多项基准测试中，相比o1 pro取得了明显的提升，而这才过了1个月。

并且，在号称通用人工智能「唯一正式进展基准」的ARC-AGI测试中， o3以20%+的优势远超第二名。

具体来说，o3在半私有评估集上取得了突破性的75.7%高分，在高计算量模式（172倍计算量）下得分高达87.5%。

作为对比，ARC-AGI在此前的4年时间里，正确率仅增长了5%——从2020年GPT-3时的0%到2024年GPT-4o的5%。

o3颠覆了所有关于AI能力的直观感受。

毕竟，就算在GPT-4上投入再多的计算，也无法获得这样的结果。

但问题在于，提高准确率的代价是巨大的：人类在完成ARC-AGI基准测试时，每项任务大约只需支付5美元，且只消耗几美分的能量；而o3在低计算量模式下，每个任务需要17-20美元。

尽管87.5%这个更高得分排名性价比很低，但能证明随着计算量的增加，模型的性能确实有所提升。

还不是AGI

在ARC-AGI「公开评估」（Public Eval）中，有大约9%的任务，即便o3加大计算量也无法解决。但对于人类来说却十分简单。

擦擦眼睛，试试能否打败目前最强的o3模型。

在尝试前，请注意：在下面这个例子中，箭头前的图片（即上方图片）表示输入，箭头后的图片（下方的图片）表示输出，灰色部分表示数据集中的例子，绿色部分为o3的两次错误尝试，最后一部分为答案。

在第一个例子中，o3先是给出了一个错到离谱的答案，然后在第二次输出中生成了一大片黑色像素……

这似乎是目前为止最差的一次结果，而且很难解释为什会这样。

第二个例子有点考验眼力，虽然每一行都对了的，但网格却没有对齐。

第三个例子，o3没有将蓝色图块拉到左侧边栏。

最后一个例子，在两次尝试中，o3的预测中漏掉了几行。看来，它很难记住有多少相同重复的行要输出。

GPT-5将带来「重大飞跃」？

在10月，投资者给予OpenAI的1570亿美元估值，很大程度上基于奥特曼预测GPT-5将在各类学科和任务上实现「重大飞跃」。

目前并没有固定的标准，来判断一个模型是否足够智能到可以被称为GPT-5。

普遍的看法是GPT-5能够解锁新的科学发现，同时能完成日常任务（如门诊预约或订机票）。

研究人员希望它犯更少的错误，或至少能在犯错时承认自己对答案也有所怀疑，即减少所谓的「AI幻觉」。

一位前OpenAI高管表示，如果说GPT-4的表现像个聪明的高中生，那么未来的GPT-5在某些任务上将相当于拥有博士学位水平。

今年早些时候，奥特曼在斯坦福大学的一次演讲中告诉学生，OpenAI可以「以高度的科学确定性」说，GPT-5将比当前模型更加智能。

公司高管们主要基于经验判断和技术评估，或者如许多技术专家所说的「整体表现」，来决定模型是否达到了GPT-5的水平。

但是，到目前为止，这种「整体表现」并不理想。

参考资料：

https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi

OpenAI被曝数据崩溃GPT-5难产，团队抢算力冲突激烈！Ilya预言成真？

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

坏AI，到底能有多坏？

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

程序员的AI救赎时刻接入这个数据库业务提问自动解决

人形机器人组队进厂打工！5只Figure 02在宝马工厂

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

训练18个月GPT-5跳票！AI大模型的泡沫要破裂了？

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

AI如何改变社交娱乐新姿势？阿里云专家解读来了

我用两年聊天记录，复刻出一个AI版的自己

所有APP都会被AI重塑，背后的变革关键是什么？

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

波士顿动力新机器人后空翻视频炸圈！扮作圣诞老人，动作干净丝滑

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产机器狗驮成年小伙遛弯视频爆火，新通勤工具有了

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

AI指挥机器人拍照，1:1复刻大片构图

网友用350美元造出能走能玩的端到端人形机器人

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

OpenAI被曝数据崩溃GPT-5难产，团队抢算力冲突激烈！Ilya预言成真？

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

坏AI，到底能有多坏？

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

程序员的AI救赎时刻 接入这个数据库 业务提问自动解决

人形机器人组队进厂打工！5只Figure 02在宝马工厂

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

训练18个月GPT-5跳票！AI大模型的泡沫要破裂了？

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

AI如何改变社交娱乐新姿势？阿里云专家解读来了

我用两年聊天记录，复刻出一个AI版的自己

所有APP都会被AI重塑，背后的变革关键是什么？

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

波士顿动力新机器人后空翻视频炸圈！扮作圣诞老人，动作干净丝滑

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产机器狗驮成年小伙遛弯视频爆火，新通勤工具有了

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

AI指挥机器人拍照，1:1复刻大片构图

网友用350美元造出能走能玩的端到端人形机器人

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

程序员的AI救赎时刻接入这个数据库业务提问自动解决

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有