新V观海外：OpenAI o1模型实测的惊艳感不足

经济观察报社论 陈沛/文 OpenAI刚刚推出了全新的o1系列模型，包括o1-preview和o1-mini，被认为是OpenAI最近持续放风的代号为strawberry的模型项目，重点提升了模型高级推理能力。可是根据我对o1-preview模型的实测体验，惊艳感低于预期。

先思考，后回答

o1-preview模型收到问题后会先思考一段时间，自动选择必要的推理过程，然后生成结果。这是新模型最显著的特点。

例如，我先测试了一个简单的示例问题“向幼儿园小朋友解释什么是怀旧”，o1-preview模型执行了4个推理步骤：理解问题要求、生成一个简单的比喻、描述怀旧的感受、整体理解怀旧的概念。执行这4个推理步骤共思考了7秒，然后生成了答案。

之后我换了推理难度更高的“两根电线杆之间80米电缆”问题。这个问题我使用之前各个版本的GPT从来没有做出来过。而这次o1模型对这个问题足足思考了74秒，反复执行了28个推理步骤，最终得到了经过反复验证的正确答案。

初步测试下来，能明显感觉到o1-preview模型与之前模型的差异。之前的GPT系列模型的设定是无论如何先快速生成一些看上去非常自然的内容，但是其中的逻辑是否合理、是否正确则不会过多验证。而o1-preview模型则是会自行选择合适的分析逻辑，并且谨慎验证思路是否合理，避免快速给出不负责任的答案。

奥赛数学题依然做不对

由于OpenAI官方发布o1系列模型时，重点强调了新模型在数学竞赛和编码相关的测试基准方面的能力提升。因此我继续采用一道中国数学奥林匹克竞赛题“56元集合和15个子集求解最小正整数”进行测试。

这道题的正确答案应该是41。在我的测试中，o1-preview模型思考了64秒，反复执行了30个推理步骤，然后给出了50的答案。虽然没有做对，但是整体解题思路已经接近，如果在正常的考试判卷中，相信o1-preview给出的证明过程也能得到部分分数。

但是，这个测试并没有让我感到o1-preview模型的高级推理能力非常惊艳。因为就在不久前，DeepMind也发布过Alpha Proof和Alpha Geometry 2在国际奥数竞赛中的结果，虽然那个测试结果也有一定的取巧成分，但已表明这种通过模型自我对弈实现高级推理能力的做法，并不是OpenAI的最新突破。

仓促发布产品的毛坯感十足

除了奥赛数学题方面的惊艳感不足之外，这次o1-preview模型的整体用户体验还不完整。目前仅支持纯文本输入，这也限制了进一步测试新模型在处理几何问题等方面的高级推理能力。

特别是对于已经习惯GPT-4o的图片、语音、文档多模态处理能力的用户来说，就像是回到了ChatGPT刚发布时的感觉，没有数据分析功能，也不能访问网页内容。

而在这一版o1-preview用户体验中的最大亮点——自动思考和推理过程，其实也在之前其他AI Agent应用中出现过，似乎给用户带来的惊艳感也并不强烈。

总而言之，就像o1-preview名称所预示的含义，这版模型目前还只是预览版，后续正式发布时应该还会加上更多常见的产品功能。也许这次的新模型发布预示OpenAI开始模仿人类思考习惯，从“系统1”进军“系统2”踏上新的智能研究方向，但是o1-preview模型本身将注定只是一个过程产品。

新V观海外：OpenAI o1模型实测的惊艳感不足

OpenAI o1式思维链，开源模型也可以有，成功案例来了

OpenAI o1要跟，怎么跟？这个GitHub项目把相关论文一网打尽

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

DeepMind再迎挑战者，ESM作者带队6个月超越AlphaFold 3，代码权重全开源

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

Mamba架构第一次做大！混合Transformer，打败Transformer

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

大疆前高管带6人创业，做出了类目Top1的割草机器人

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

Python爆火可视化插件来了！拖拽就成动态GUI，一行代码都不用，真·数据科学神器

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

新V观海外：OpenAI o1模型实测的惊艳感不足

OpenAI o1式思维链，开源模型也可以有，成功案例来了

OpenAI o1要跟，怎么跟？这个GitHub项目把相关论文一网打尽

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

DeepMind再迎挑战者，ESM作者带队6个月超越AlphaFold 3，代码权重全开源

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

Mamba架构第一次做大！混合Transformer，打败Transformer

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

大疆前高管带6人创业，做出了类目Top1的割草机器人

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

Python爆火可视化插件来了！拖拽就成动态GUI，一行代码都不用，真·数据科学神器

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名