打开网易新闻 查看更多图片

新智元报道

编辑:编辑部 HYZ

【新智元导读】OpenAI o3的智商,竟然已经高达157,碾压99%的人类?这张OpenAI模型智商图全网疯转。甚至有人大胆预测:达到陶哲轩智商(225-230)的大模型,应该会很快出现了。

o3智商竟有157,堪比爱因斯坦?

今天,一张OpenAI模型智商图,在全网传遍了。

打开网易新闻 查看更多图片

基于编程竞赛Codeforces排名评分

图中清晰可见,能够达到o3智商水平的人类大约占比仅有0.0075%。

13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。

打开网易新闻 查看更多图片

从GPT-4o、到o1系,再到o3系,模型IQ逐渐递增,也仅用了1年时间,实现了质的飞跃。即便是最强o1 pro(IQ为139),o3完全领先近20分。

打开网易新闻 查看更多图片

有网友表示,用不了多久,我们口袋里就会拥有一个IQ 157的智能。

打开网易新闻 查看更多图片

还有人称,陶哲轩智商大约在225-230之间,未来模型很快就能达到这个水平。

打开网易新闻 查看更多图片

o3超高智商背后

o3发布之后,很多人都认为AGI实现了。

从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。

过去五年,OpenAI模型在ARC-AGI上的得分,也说明了一切。

打开网易新闻 查看更多图片

OpenAI研究员Nat McAleese在o3发布当天,分享了一些关于模型的介绍。

他表示,o3代表着通过强化学习在通用领域的巨大进步。

o1是首个大规模推理模型,也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上,进一步scaling强化学习而开发的。

打开网易新闻 查看更多图片

我们已经看到,o3在世界上最具竞争的编程基准CodeForces中得分超2700,完全达到了国际大师的水平。

打开网易新闻 查看更多图片

与此同时,o3在数学基准FrontierMath惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

打开网易新闻 查看更多图片

在Keras之父François Chollet转写的报告中,也解释了o3与以往旧模型之间的区别:

o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。

打开网易新闻 查看更多图片

而且,他表示,这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。

本质上,o3是一种深度学习引导的程序搜索形式。

不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,我们还有很长的路要走。

打开网易新闻 查看更多图片

o3 ARC-AGI测试被曝「作弊」?

而且就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。

要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对AI来说却很难的题目。

根据OpenAI的说法,在ARC-AGI这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。

而人类在该任务上的表现通常在85%的水平,也就是说,o3在高计算模式下,已经超越了人类。

打开网易新闻 查看更多图片

这个结果,引起了多人的质疑:OpenAI不会专门针对这个任务做过训练吧?

要知道,在直播的第12天,奥特曼专门强调过,「并未对模型做过特殊处理」。

打开网易新闻 查看更多图片

对此,心细的网友们纷纷展开调查。

比如这位名为Knight Lee的网友,就表示o3在ARC-AGI上的分数是经过微调的,而之前的AI分数并没有被微调。

他表示,o3的一个主要优势,就是接受过示例测试问题的明确训练而已。

之所以有这样的观点,是他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

这个这个说法为真,那o3所取得的分数,显然占了很大便宜。

OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。

不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。

打开网易新闻 查看更多图片

o4才是Orion?

而且,在o3之后,或许还会有IQ更强的模型现身。

Information独家爆料称,o3并不是代号为Orion的模型。相对的,Orion可能会作为o4的基础模型。

打开网易新闻 查看更多图片

OpenAI研究员Jason Wei称,从o1到o3仅用了3个月的时间,这表明在新范式下,进展远快于预训练范式每1-2年更新一次模型的速度。

打开网易新闻 查看更多图片

推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。

也正因此,o3推理代价是高昂的。ARC-AGI基准测试报告中,已经披露了o3在每个高计算任务中的成本会超过1000美金。

这也充分解释了,OpenAI博士级AI助手能达到每月2000美元的原因。

另一位OpenAI研究员John Hallman对此表示,当Sam和我们研究人员说AGI即将到来时,我们不是为了给你画大饼,不是为了推2000美元的订阅,也不是为了诱骗你投资我们的下一轮融资。它真的要来了。

打开网易新闻 查看更多图片

目前,不清楚的是,o3对普通ChatGPT用户能带来多大帮助。

o3可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。

而对于普通用户而言,新模型可能有点「大材小用」。

虽然o3表现出色,其他科技巨头也不甘示弱。

谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2,以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。

一些对价格敏感的开发者,纷纷转向了谷歌Flash模型。

可以看出,推理模型仍将继续超进化迭代,2025年也将会如今年一样令人兴奋。

参考资料:

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

打开网易新闻 查看更多图片