文章转载于新智元
o3智商竟有157,堪比爱因斯坦?
今天,一张OpenAI模型智商图,在全网传遍了。
基于编程竞赛Codeforces排名评分
图中清晰可见,能够达到o3智商水平的人类大约占比仅有0.0075%。
13333人当中,也仅有1人IQ是o3级别的。对于GPT-4o,6人当中就有1人能够达到IQ 115的水平。
从GPT-4o、到o1系,再到o3系,模型IQ逐渐递增,也仅用了1年时间,实现了质的飞跃。即便是最强o1 pro(IQ为139),o3完全领先近20分。
有网友表示,用不了多久,我们口袋里就会拥有一个IQ 157的智能。
还有人称,陶哲轩智商大约在225-230之间,未来模型很快就能达到这个水平。
1
o3超高智商背后
o3发布之后,很多人都认为AGI实现了。
从o1到o3,OpenAI仅用了3个月;从o1 pro到o3,仅用了1个月。种种迹象表明,Scaling Law并未终结。
过去五年,OpenAI模型在ARC-AGI上的得分,也说明了一切。
OpenAI研究员Nat McAleese在o3发布当天,分享了一些关于模型的介绍。
他表示,o3代表着通过强化学习在通用领域的巨大进步。
o1是首个大规模推理模型,也仅仅是一个通过RL训练的大模型。o3是通过在o1基础上,进一步scaling强化学习而开发的。
我们已经看到,o3在世界上最具竞争的编程基准CodeForces中得分超2700,完全达到了国际大师的水平。
与此同时,o3在数学基准FrontierMath惊艳表现令人生畏,甚至击穿了陶哲轩的预言。
在Keras之父François Chollet转写的报告中,也解释了o3与以往旧模型之间的区别:
o3的核心创新点在于,实现了token空间内自研语言程序搜索和执行。在测试时,它会搜索可能的CoT空间,并寻描述解决任务所需的步骤,由评估模型引导搜索过程。
而且,他表示,这种方式与AlphaZero的蒙特卡洛树搜索并无太大差异。
本质上,o3是一种深度学习引导的程序搜索形式。
不过,即便o3进化速度如此疯狂,OpnenAI研究员Will depue表示,这还不是AGI,我们还有很长的路要走。
1
o3 ARC-AGI测试被曝「作弊」?
而且就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。
要知道,这个基准设立的初衷,就是专门找到那些对人类很容易,对AI来说却很难的题目。
根据OpenAI的说法,在ARC-AGI这个基准测试中,o3在低计算模式下,在半私有评估中的得分为75.7%;在高计算模式下,得分为87.5%。
而人类在该任务上的表现通常在85%的水平,也就是说,o3在高计算模式下,已经超越了人类。
这个结果,引起了多人的质疑:OpenAI不会专门针对这个任务做过训练吧?
要知道,在直播的第12天,奥特曼专门强调过,「并未对模型做过特殊处理」。
对此,心细的网友们纷纷展开调查。
比如这位名为Knight Lee的网友,就表示o3在ARC-AGI上的分数是经过微调的,而之前的AI分数并没有被微调。
他表示,o3的一个主要优势,就是接受过示例测试问题的明确训练而已。
之所以有这样的观点,是他引用了ARC-AGI设计师François Chollet的说法——
OpenAI分享说,他们测试的o3是在公共训练集75%的数据上进行训练的。他们尚未透露更多细节。我们尚未测试未经ARC数据训的模型,因此尚不清楚其性能有多少归因于ARC-AGI数据。
这个这个说法为真,那o3所取得的分数,显然占了很大便宜。
OpenAI研究员Zach Stein-Perlman反驳说,他们没有针对ARC对o3做过微调。
不过今天出来的o3智商157的结果,至少可以为它的性能稍稍正名了。
1
o4才是Orion?
而且,在o3之后,或许还会有IQ更强的模型现身。
Information独家爆料称,o3并不是代号为Orion的模型。相对的,Orion可能会作为o4的基础模型。
OpenAI研究员Jason Wei称,从o1到o3仅用了3个月的时间,这表明在新范式下,进展远快于预训练范式每1-2年更新一次模型的速度。
推理模型的优势在于,利用更多计算资源思考之后,能够弥补预训练的放缓速度。
也正因此,o3推理代价是高昂的。ARC-AGI基准测试报告中,已经披露了o3在每个高计算任务中的成本会超过1000美金。
这也充分解释了,OpenAI博士级AI助手能达到每月2000美元的原因。
另一位OpenAI研究员John Hallman对此表示,当Sam和我们研究人员说AGI即将到来时,我们不是为了给你画大饼,不是为了推2000美元的订阅,也不是为了诱骗你投资我们的下一轮融资。它真的要来了。
目前,不清楚的是,o3对普通ChatGPT用户能带来多大帮助。
o3可能在编程、数学、科学领域表现,对编程、数学和科学领域的人员帮助最大,包括那些研究极其困难问题(如核聚变能源)的研究人员。
而对于普通用户而言,新模型可能有点「大材小用」。
虽然o3表现出色,其他科技巨头也不甘示弱。
谷歌强势推出了Gemini 2.0 Flash、视频模型Veo 2,以及由耗资30亿美金聘请AI研究员Noam Shazeer开发的推理模型。
一些对价格敏感的开发者,纷纷转向了谷歌Flash模型。
可以看出,推理模型仍将继续超进化迭代,2025年也将会如今年一样令人兴奋。
参考资料:
https://x.com/i_dg23/status/1871135348069482993
https://x.com/kimmonismus/status/1871162085675253977
https://x.com/SmokeAwayyy/status/1871273888191221922
https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi