今日，OpenAI杀死ChatGPT-3.5

智东西编译李水青编辑心缘

GPT-4o新版本降到1块钱/百万tokens了，打败OpenAI的还是OpenAI！

智东西7月19日报道， 7月18日晚间，OpenAI推出最便宜模型GPT-4o mini，我们第一时间将包括OpenAI在内的10家国内外厂商的大模型API最新定价进行了对比，发现这次其他同行压力不小了。

GPT-4o mini API输入定价为15美分（约合1.09元人民币）/百万tokens，输出价格为60美分（约合4.36元人民币）/百万tokens，相比GPT-3.5 Turbo便宜了超60%；但其能力大幅赶超GPT-3.5 Turbo，在MMLU测试中取得了82%的好成绩，并在LMSYS排行榜的聊天偏好方面超越了GPT-4。

此前，许多开发者因大模型价格昂贵，转向谷歌的Gemini 1.5 Flash、Anthropic的Claude 3 Haiku等小模型。现在，这些模型都被GPT-4o mini“狙击”了。

▲GPT-4o mini性价比远高于一众小模型（图源：Artificial Analysis）

如下表所示，据智东西统计，GPT-4o mini目前定价明显低于Gemini 1.5 Flash的2.5元/百万tokens的输入价格、7.6元/百万tokens的输出价格，也低于Claude 3 Haiku的1.8元/百万tokens输入价格、9元/百万tokens的输出价格，且性能全方位碾压它们。

同时，从上表可知，国内厂商如深度求索、智谱AI、字节跳动、阿里云、百度、字节跳动、腾讯云、科大讯飞等在6月陆续将模型大幅降价，但现在价格优势也被削弱。

比如阿里云Qwen-Turbo输入价格2元/百万tokens、输出价格6元/百万tokens，百度ERNIE 3.5系列输入价格12元/百万tokens、输出价格12元/百万tokens，字节Doubao-pro-128k输入价格5元/百万tokens、输出价格9月/百万tokens……在GPT-4o mini面前，性价比都要打一个大大的问号。

OpenAI CEO Sam Altman称，GPT-4o mini“走向廉价到无法计量的智能”。

▲OpenAI CEO Sam Altman在社交平台X发文

根据OpenAI公告，GPT-4o mini对比2022年功能相对初级的GPT-3的text-davinci-003模型，tokens成本已锐减99%。

目前，GPT-4o mini已免费上线ChatGPT，预计逐步替代GPT-3.5。

一、赶超GPT-3.5 Turbo，问鼎小模型

GPT-4o mini具备低成本和低时延特征，能胜任多种任务，如：链接或并行模型调用、处理大量上下文、快速实时文本交互等。

它拥有128ktokens的上下文处理能力，在API中已支持文本和视觉输入，且支持16k输出tokens，未来还将扩展到视频和音频的输入/输出。

在多个全球权威基准测试中，GPT-4o mini成绩超越了自家的GPT-3.5 Turbo以及一众小模型。

在MMLU文本智能与推理基准测试中，GPT-4o mini以82.0%的得分领先，而Gemini Flash和Claude Haiku分别为77.9%和73.8%。

在MGSM数学推理测试中，GPT-4o mini获得87.0%的高分，远超Gemini Flash的75.5%和Claude Haiku的71.7%。

在HumanEval编码性能测试中，GPT-4o mini也以87.2%的优异成绩领先，Gemini Flash和Claude Haiku则分别为71.5%和75.9%。

多模态推理领域，GPT-4o mini在MMMU评估中得分59.4%，同样领先于Gemini Flash的56.1%和Claude Haiku的50.2%。

在执行任务时，如从收据中提取结构化数据或基于对话历史生成高质量电子邮件回复等，GPT-4o mini的表现显著优于GPT-3.5 Turbo。

GPT-4o mini昨夜刚刚发布，AI大牛Andrej Karpathy在社交平台X上称：“大语言模型的尺寸竞争正在加剧……倒退！我敢打赌，我们会看到非常小的模型，甚至是GPT-2参数级别的模型，已经非常擅长‘思考’”且可靠。”

▲AI大牛Andrej Karpathy在社交平台X发文

二、API输入价格低至1元，已免费上线ChatGPT

GPT-4o mini现已正式上线，集成于Assistants API、Chat Completions API及Batch API中，供开发人员使用。

费用方面，GPT-4o mini输入价格为15美分（约合1.09元人民币）/百万tokens，输出价格为60美分（约合4.36元人民币）/百万tokens，这大致相当于处理约2500页标准书籍内容的成本。

OpenAI计划在接下来几天内推出GPT-4o mini的微调功能。

对于ChatGPT用户，无论是免费版、Plus版还是团队版，从今天起他们都将能够体验到GPT-4o mini，它将逐步替代GPT-3.5。企业用户也将在下周起接入这一升级。

OpenAI称，GPT-4o mini继承了GPT-4o同等严格的安全防护机制。其在预训练阶段过滤掉不良信息，进入训练后采用强化学习与人工反馈（RLHF）等技术，使模型行为更加符合安全策略。

作为首个应用OpenAI指令层次结构方法的模型，GPT-4o mini在API中展现出更强的防御能力，有效抵御越狱攻击、即时注入及系统即时提取等风险。

OpenAI将持续监控GPT-4o mini的使用情况，一旦发现新风险，立即采取措施提升模型安全性。

OpenAI在公告文末附上了9位团队负责人的名字，其中Shengjia Zhao、Hongyu Ren、Haitang Hu、Mianna Chen、Kevin Lu五位都是华人面孔，毕业学校涉及到了清华大学、北京大学、同济大学等国内知名高校。

结语：模型尺寸竞赛逆转，价格战加剧

大模型价格战加剧。OpenAI的GPT-4o mini对比2022年功能相对初级的GPT-3的text-davinci-003模型，tokens成本已锐减99%，这是此前6月份产业价格战的高潮延续。

OpenAI的每一次发新都把压力给到同行。而就在同日，英伟达和法国明星AI独角兽Mistral也联合发布了名为Mistral NeMo的小杯模型，性能超过Llama 3 8B。更低成本、更高性能的小模型出现，将推动AI无缝融入更多日常场景，也让产业换一个角度思考AI落地。

今日，OpenAI杀死ChatGPT-3.5

OpenAI曾讨论提高ChatGPT付费版价格，最高每月2000美元｜钛媒体AGI

坏AI，到底能有多坏？

“ChatGPT之父”全球AI基建计划曝光！先在美国砸数百亿美元，OpenAI高管集体出动，全球奔走拉投资

阿里云王坚：AI+的重点在于机制创新

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

大模型如何助力企业AI创新？阿里云AI专家为你解答

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

今日，OpenAI杀死ChatGPT-3.5

OpenAI曾讨论提高ChatGPT付费版价格，最高每月2000美元｜钛媒体AGI

坏AI，到底能有多坏？

“ChatGPT之父”全球AI基建计划曝光！先在美国砸数百亿美元，OpenAI高管集体出动，全球奔走拉投资

阿里云王坚：AI+的重点在于机制创新

大模型如何助力企业AI创新？阿里云AI专家为你解答 哪些因素影响企业用户选择模型服务平台？检索增强R

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

硅谷AI精英人均“百万美元”薪酬，业界标配还是谣言？

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

模型开源应关注什么？开源社区如何降门槛？阿里云AI专家为你解答

大模型如何助力企业AI创新？阿里云AI专家为你解答

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名