o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

文章转载于新智元

o3智商竟有157，堪比爱因斯坦？

今天，一张OpenAI模型智商图，在全网传遍了。

基于编程竞赛Codeforces排名评分

图中清晰可见，能够达到o3智商水平的人类大约占比仅有0.0075%。

13333人当中，也仅有1人IQ是o3级别的。对于GPT-4o，6人当中就有1人能够达到IQ 115的水平。

从GPT-4o、到o1系，再到o3系，模型IQ逐渐递增，也仅用了1年时间，实现了质的飞跃。即便是最强o1 pro（IQ为139），o3完全领先近20分。

有网友表示，用不了多久，我们口袋里就会拥有一个IQ 157的智能。

还有人称，陶哲轩智商大约在225-230之间，未来模型很快就能达到这个水平。

o3超高智商背后

o3发布之后，很多人都认为AGI实现了。

从o1到o3，OpenAI仅用了3个月；从o1 pro到o3，仅用了1个月。种种迹象表明，Scaling Law并未终结。

过去五年，OpenAI模型在ARC-AGI上的得分，也说明了一切。

OpenAI研究员Nat McAleese在o3发布当天，分享了一些关于模型的介绍。

他表示，o3代表着通过强化学习在通用领域的巨大进步。

o1是首个大规模推理模型，也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上，进一步scaling强化学习而开发的。

我们已经看到，o3在世界上最具竞争的编程基准CodeForces中得分超2700，完全达到了国际大师的水平。

与此同时，o3在数学基准FrontierMath惊艳表现令人生畏，甚至击穿了陶哲轩的预言。

在Keras之父François Chollet转写的报告中，也解释了o3与以往旧模型之间的区别：

o3的核心创新点在于，实现了token空间内自研语言程序搜索和执行。在测试时，它会搜索可能的CoT空间，并寻描述解决任务所需的步骤，由评估模型引导搜索过程。

而且，他表示，这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。

本质上，o3是一种深度学习引导的程序搜索形式。

不过，即便o3进化速度如此疯狂，OpnenAI研究员Will depue表示，这还不是AGI，我们还有很长的路要走。

o3 ARC-AGI测试被曝「作弊」？

而且就在最近，o3的ARC-AGI测试结果，在圈内引起了不小的争议。

要知道，这个基准设立的初衷，就是专门找到那些对人类很容易，对AI来说却很难的题目。

根据OpenAI的说法，在ARC-AGI这个基准测试中，o3在低计算模式下，在半私有评估中的得分为75.7%；在高计算模式下，得分为87.5%。

而人类在该任务上的表现通常在85%的水平，也就是说，o3在高计算模式下，已经超越了人类。

这个结果，引起了多人的质疑：OpenAI不会专门针对这个任务做过训练吧？

要知道，在直播的第12天，奥特曼专门强调过，「并未对模型做过特殊处理」。

对此，心细的网友们纷纷展开调查。

比如这位名为Knight Lee的网友，就表示o3在ARC-AGI上的分数是经过微调的，而之前的AI分数并没有被微调。

他表示，o3的一个主要优势，就是接受过示例测试问题的明确训练而已。

之所以有这样的观点，是他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说，他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型，因此尚不清楚其性能有多少归因于ARC-AGI数据。

这个这个说法为真，那o3所取得的分数，显然占了很大便宜。

OpenAI研究员Zach Stein-Perlman反驳说，他们没有针对ARC对o3做过微调。

不过今天出来的o3智商157的结果，至少可以为它的性能稍稍正名了。

o4才是Orion？

而且，在o3之后，或许还会有IQ更强的模型现身。

Information独家爆料称，o3并不是代号为Orion的模型。相对的，Orion可能会作为o4的基础模型。

OpenAI研究员Jason Wei称，从o1到o3仅用了3个月的时间，这表明在新范式下，进展远快于预训练范式每1-2年更新一次模型的速度。

推理模型的优势在于，利用更多计算资源思考之后，能够弥补预训练的放缓速度。

也正因此，o3推理代价是高昂的。ARC-AGI基准测试报告中，已经披露了o3在每个高计算任务中的成本会超过1000美金。

这也充分解释了，OpenAI博士级AI助手能达到每月2000美元的原因。

另一位OpenAI研究员John Hallman对此表示，当Sam和我们研究人员说AGI即将到来时，我们不是为了给你画大饼，不是为了推2000美元的订阅，也不是为了诱骗你投资我们的下一轮融资。它真的要来了。

目前，不清楚的是，o3对普通ChatGPT用户能带来多大帮助。

o3可能在编程、数学、科学领域表现，对编程、数学和科学领域的人员帮助最大，包括那些研究极其困难问题（如核聚变能源）的研究人员。

而对于普通用户而言，新模型可能有点「大材小用」。

虽然o3表现出色，其他科技巨头也不甘示弱。

谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2，以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。

一些对价格敏感的开发者，纷纷转向了谷歌Flash模型。

可以看出，推理模型仍将继续超进化迭代，2025年也将会如今年一样令人兴奋。

参考资料：

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

ChatGPT拒绝谈论这个人，没人知道为什么

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

LLM推理性能受输出格式影响，JSON最严重

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

豆包电脑版，原地封神了！

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

训练18个月GPT-5跳票！AI大模型的泡沫要破裂了？

爱因斯坦认为所谓的引力并不存在，他为什么这样说？

035美国数学竞赛题难住很多美国人看中国学霸怎么破解

哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

599小学数学思维题，难倒不少同学，其实有巧妙方法轻松破解

603小学数学思维题：难倒全班一大片，其实有巧妙方法轻松算出

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

040小学数学易错题求下列图形周长这题看着不简单啊

北京市数学竞赛题，题目有点意思，不是很难值得一做！

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

ChatGPT拒绝谈论这个人，没人知道为什么

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

LLM推理性能受输出格式影响，JSON最严重

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

豆包电脑版，原地封神了！

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

8年前阿法狗的一个“错误”，竟成大模型研究新方向！ 大模型之争进入新阶段，从拼“模仿”转向拼“推理”

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

训练18个月GPT-5跳票！AI大模型的泡沫要破裂了？

爱因斯坦认为所谓的引力并不存在，他为什么这样说？

035美国数学竞赛题难住很多美国人看中国学霸怎么破解

哪家AI能成卧底之王？淘天技术团队发布多智能体博弈游戏平台WiS

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

599小学数学思维题，难倒不少同学，其实有巧妙方法轻松破解

603小学数学思维题：难倒全班一大片，其实有巧妙方法轻松算出

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

040小学数学易错题求下列图形周长这题看着不简单啊

北京市数学竞赛题，题目有点意思，不是很难值得一做！

8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有