o1如何做到像人一样“推理”？OpenAI研究团队问答：揭秘模型细节、未来规划，还有最大化o1性能的小窍门

9月13日，OpenAI宣布了o1系列模型的正式亮相，标志着AI领域迈入了一个全新的纪元，迎来了能够执行通用复杂推理任务的大模型时代。模型发布后，OpenAI研究团队在X社交平台上举办了一场AMA（Ask Me Anything）活动，深度揭秘了o1系列模型的诸多细节。

图片来源：X社交平台

“外星人”级别的AI助手

OpenAI表示，o1系列包括两个版本：作为完整模型早期迭代的o1-preview，以及速度更快的轻量级o1-mini。与之前的模型不同，o1能够在给出最终答案前生成长链的隐藏思维过程，展现了类似人类的推理能力。研究人员将o1比喻为拥有超能力的“外星人”。

图片来源：X社交平台

在推理过程中，o1使用了强化学习来实现“推理”这一性能。尽管目前没有计划向API用户或ChatGPT展示这些思维链token，但研究人员透露，嵌入提示中的指令可以影响o1的思维方式。相比之下，GPT-4o无法通过提示达到o1的思维链性能水平。

图片来源：X社交平台

o1系列模型使用与GPT-4o相同的分词器，在输入token上保持一致。不过，o1能够处理更长、更开放的任务，减少了对输入分块的需求。未来，o1还将支持更大的输入上下文窗口。

o1还展现了令人印象深刻的推理和泛化能力，例如破译密码、思考哲学问题以及通过自我测验来评估自身能力。

研究团队还透露，o1-preview在某些个性化写作任务上的表现与GPT-4o相当或略胜一筹。

mini版本竟然更强？

与o1-preview相比，o1-mini在体积和速度上进行了优化。

图片来源：X社交平台

尽管在像世界知识这样的某些领域可能有局限，但o1-mini在STEM（科学、技术、工程、数学）任务以及代码相关任务上展现出了其优势。此外，o1-mini能够探索比o1-preview更多的思维链。

图片来源：X社交平台

o1即将支持工具集成与多模态理解

尽管o1-preview目前尚未使用工具，但OpenAI计划为其加入功能调用、代码解释器和网页浏览等能力。工具支持、结构化输出和系统提示也将在未来的更新中推出。

图片来源：X社交平台

此外，OpenAI开发者团队表示，未来用户将有望能够控制o1的思考时间以及token限制，并承诺将积极推进这一功能的实现。

OpenAI还在积极推进流式传输支持和API中的推理进度反馈。此外，o1已经内置了多模态能力，有望在多模态理解任务（MMLU）上达到最先进的水平。

图片来源：X社交平台

o1-mini每周有50次提示限制

o1-mini目前对ChatGPT Plus用户开放，但有每周50次的提示限制，所有提示都计入相同的配额。OpenAI承诺，未来将逐步提高API访问级别和速率限制，并在限制放宽后提供批量定价优惠。

o1模型的定价预计将遵循每1-2年降价的趋势。此外，个性化微调支持已在产品路线图中，但具体发布时间表尚不明确。

图片来源：X社交平台

最大化o1性能的秘诀

o1-mini目前使用截至2023年10月的数据进行训练，未来的迭代将使用更新的数据集来扩充其世界知识。

为了充分发挥o1的推理优势，团队建议用户在设计提示时提供信息丰富、涵盖边缘案例的具体示例，并明确指定所需的推理步骤和风格。但要注意，无关的上下文可能会干扰模型的推理过程。

每日经济新闻综合自公开消息

o1如何做到像人一样“推理”？OpenAI研究团队问答：揭秘模型细节、未来规划，还有最大化o1性能的小窍门

OpenAI o1式思维链，开源模型也可以有，成功案例来了

OpenAI o1要跟，怎么跟？这个GitHub项目把相关论文一网打尽

OpenAI押注的「1X」训出专用世界模型，首证机器人Scaling Law

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

真把自己「当个人」的AI，扫去了我的社交贫困

Mamba架构第一次做大！混合Transformer，打败Transformer

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

o1如何做到像人一样“推理”？OpenAI研究团队问答：揭秘模型细节、未来规划，还有最大化o1性能的小窍门

OpenAI o1式思维链，开源模型也可以有，成功案例来了

OpenAI o1要跟，怎么跟？这个GitHub项目把相关论文一网打尽

OpenAI押注的「1X」训出专用世界模型，首证机器人Scaling Law

OpenAI重金押注，机器人NEO世界模型登场！机器人迎来ChatGPT时刻？

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

真把自己「当个人」的AI，扫去了我的社交贫困

Mamba架构第一次做大！混合Transformer，打败Transformer

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

甲骨文埃里森：未来10年前沿模型门槛或达千亿美元，AI训练难以全部转向推理阶段｜钛媒体AGI

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

大模型如何助力企业AI创新？阿里云AI专家为你解答 哪些因素影响企业用户选择模型服务平台？检索增强R

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R