2024年人工智能年终总结报告

新智元报道

编辑：泽正

【新智元导读】Artificial Analysis回顾今年人工智能的重大事件，梳理出了一份关于人工智能领域的年终总结。

临近年末，在人们都开始着手于年终总结的时候，Artificial Analysis也给出了关于2024年AI变革式发展的回顾。令人欣喜的是，我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。

毫无疑问的是，2024年对于AI的发展是里程碑式的一年。今年我们见证了太多AI技术变革带来的惊艳，而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

这一年里，各家大模型的能力提升层出不穷。从gpt-4o的交互式高质量解决问题到o1那令人震惊的推理能力，再到刚刚发布的o3，OpenAI还是一往如常地为我们不断带来新的人工智能范式。

对于开发者来讲，Claude 3.5 Sonnet出色的辅助代码体验更是让Anthropic给OpenAI带来了真正的市场竞争压力。

而就在12月，闷声办大事的Google也通过发布Genmini 2.0 Flash和Genmini 2.0 Flash Thinking彻底打了一场漂亮的翻身仗，成功逆袭。

并且，这一年里，无论是模型的能力表现、响应速度、API价格都有显著的提升，就像集成电路的摩尔定律一样，大模型也迎来了它自己的「摩尔定律」时代。

这里要用到左右排版

自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来，生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。

而仅仅不到两年，多个实验室就都已经赶上了OpenAI的GPT-4，甚至出现了第一批超越GPT-4o智能水平的模型。例如：Claude 3.5 Sonnet，Gemini 1.5 Pro以及新近发布的Gemini 2.0 Flash。

截止2024年，在LLM领域，依然是美国位于主导地位，其中主要是ChatGPT、Gemini、Claude、Nova、LLama系列。而我国则暂时处于第二梯队，取得国际关注与认同的主要有Qwen2.5 Instruct 72B与DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平，大部分国家在这场竞赛中都与领先国家望尘莫及。

而在Open AI不再「Open」之后，开源模型也没有因此就与专有模型的性能有难以克服的差距。在Meta、Mistral和阿里巴巴发布的开源模型的驱动下，开源和专有模型之间的性能差距也有了显著下降。

更加利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降，例如GPT-4o mini在智能水平上接近GPT-4，但价格却便宜了100倍。而得分超越GPT-4 Turbo的国产大模型Qwen2.5 72B的价格也甚至只有GPT-4 Turbo的1.3%。

推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平，例如微软最新推出的phi-4模型。

上下文窗口长度对于模型的实际应用是至关重要的，因为许多应用程序不仅仅使用文本，更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了128K tokens的长度，对比23年的三季度，短短一年整整增长了32倍！

对于使用者来讲，目前更加倾向于使用头部企业的产品，如OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有：推理质量，上下文窗口，价格，速度等。

人们对于LLMs的使用都不局限在某一个需求方面，而是覆盖了信息抽取、长文本总结、文本生成等需求，而且也最在意模型的多模态能力。

对于各种各样的技术与商业需求来讲，大部分开发者用户都会同时使用多个模型。其中72%的开发者会直接使用已发布成品模型，另外的24%则是针对现有的模型进行微调，仅有4%是从头开始对模型进行训练。

2024年，图像生成质量也得到了迅速发展，其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为：印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现，随着先进的文生图模型不断迭代推出，生成的图像也越来越逼真，符合实际规律。

随之而来的是，2024年图像模型的进步和竞争也加速了。人工智能分析图像领域的前5名模型都是自2024年第三季度以来推出的。例如24年10月推出的Recraft v3模型。

有意思的是，OpenAI在2024年2月就预览了Sora，当时竞争其实还很小，但到了2024年12月它推出时，这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax的海螺AI以及腾讯的混元都对Sora发起了挑战。

基于Transformer的文本转语音模型也在2024年OpenAI的领衔下达到了新的质量里程碑，超越了曾经的云服务供应商。

在 AI语音识别领域， OpenAI 在2022年末开源 W h isper重塑了整个领域格局，使得云推理服务提供商能够进入市场，并在响应速度和价格上展开了竞争，为消费者带来了前所未有的高性价比体验。其中最快的一个可以在大约10秒内转录整整一小时的音频，转录的价格也降至每1000分钟音频不到1美元。Groq发布的最新Whisper模型与亚马逊2018年模型相比有约72倍的价格降低和约11倍的速度提升。

从Artificial Analysis给出的2024年的人工智能年度回顾报告中，我们也可以发现，这其中并没有统计到最新的o3与Gemini 2.0 Flash Thinking。由此可见，今年整体的AI发展，尤其是LLMs，其推陈出新的能力几乎超乎了人们的想象。

这也让我们对即将到来的2025有了更多的憧憬与期望，明年是否又会是真正达成AGI的关键一年呢？答案就需要留待明年此时再来回看了。

参考资料：

https://artificialanalysis.ai/

2024年人工智能年终总结报告｜Artificial Analysis

联手OpenAI，吴恩达推出一门o1推理新课程，还免费

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

学件基座系统可成长、可重组，拓展大模型更多可能性

所有APP都会被AI重塑，背后的变革关键是什么？

国产大模型DeepSeek V3一夜之间刷屏，训练成本仅需280万GPU小时

36氪研究院 | 2024年中国人工智能之自然语言处理（NLP）技术洞察

AI竟会表里不一：人前一套，背后一套！

AI智能体，人工智能的“增程模式”？

程序员的AI救赎时刻接入这个数据库业务提问自动解决

AI暴打验证码，人类遭殃？未来，验证码会消失，还是变得更反人类？

AI指挥机器人拍照，1:1复刻大片构图

Meta搞出带触觉机器手，多模态操控精度提升94%

Ilya播客干货引热议：LLM不仅是统计学

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

对话型Chatbot难形成高客单价，高附加值是未来关键

AIGC让电影成本降到几千块，全球创作者规模将急剧扩大

数据整合与应用是具身智能走向产业的关键

AI时代正在形成新的开发范式

AI将对传统能源行业带来怎样的变革？

AI如何改变社交娱乐新姿势？阿里云AI专家解读来了