打开网易新闻 查看更多图片

新智元报道

编辑:泽正

【新智元导读】Artificial Analysis回顾今年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。

临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。 令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。

毫无疑问的是,2024年对于AI的发展是里程碑式的一年。今年我们见证了太多AI技术变革带来的惊艳,而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

这一年里,各家大模型的能力提升层出不穷。从gpt-4o的交互式高质量解决问题到o1那令人震惊的推理能力,再到刚刚发布的o3,OpenAI还是一往如常地为我们不断带来新的人工智能范式。

对于开发者来讲,Claude 3.5 Sonnet出色的辅助代码体验更是让Anthropic给OpenAI带来了真正的市场竞争压力。

而就在12月,闷声办大事的Google也通过发布Genmini 2.0 Flash和Genmini 2.0 Flash Thinking彻底打了一场漂亮的翻身仗,成功逆袭。

并且,这一年里,无论是模型的能力表现、响应速度、API价格都有显著的提升,就像集成电路的摩尔定律一样,大模型也迎来了它自己的「摩尔定律」时代。

这里要用到左右排版

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来,生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。

而仅仅不到两年,多个实验室就都已经赶上了OpenAI的GPT-4,甚至出现了第一批超越GPT-4o智能水平的模型。例如:Claude 3.5 Sonnet,Gemini 1.5 Pro以及新近发布的Gemini 2.0 Flash。

打开网易新闻 查看更多图片

截止2024年,在LLM领域,依然是美国位于主导地位,其中主要是ChatGPT、Gemini、Claude、Nova、LLama系列。而我国则暂时处于第二梯队,取得国际关注与认同的主要有Qwen2.5 Instruct 72B与DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。

打开网易新闻 查看更多图片

而在Open AI不再「Open」之后,开源模型也没有因此就与专有模型的性能有难以克服的差距。在Meta、Mistral和阿里巴巴发布的开源模型的驱动下,开源和专有模型之间的性能差距也有了显著下降。

打开网易新闻 查看更多图片

更 加 利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降,例如GPT-4o mini在智能水平上接近GPT-4,但价格却便宜了100倍。 而得分超越GPT-4 Turbo的国产大模型Qwen2.5 72B的价格也甚至只有GPT-4 Turbo的1.3%。

打开网易新闻 查看更多图片

推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平,例如微软最新推出的phi-4模型。

打开网易新闻 查看更多图片

上下文窗口长度对于模型的实际应用是至关重要的,因为许多应用程序不仅仅使用文本,更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了128K tokens的长度,对比23年的三季度,短短一年整整增长了32倍!

打开网易新闻 查看更多图片

对于使用者来讲,目前更加倾向于使用头部企业的产品,如OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有:推理质量,上下文窗口,价格,速度等。

打开网易新闻 查看更多图片

人们对于LLMs的使用都不局限在某一个需求方面,而是覆盖了信息抽取、长文本总结、文本生成等需求,而且也最在意模型的多模态能力。

打开网易新闻 查看更多图片

对于各种各样的技术与商业需求来讲,大部分开发者用户都会同时使用多个模型。其中72%的开发者会直接使用已发布成品模型,另外的24%则是针对现有的模型进行微调,仅有4%是从头开始对模型进行训练。

打开网易新闻 查看更多图片

2024年,图像生成质量也得到了迅速发展,其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为:印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现,随着先进的文生图模型不断迭代推出,生成的图像也越来越逼真,符合实际规律。

打开网易新闻 查看更多图片

随之而来的是,2024年图像模型的进步和竞争也加速了。人工智能分析图像领域的前5名模型都是自2024年第三季度以来推出的。例如24年10月推出的Recraft v3模型。

打开网易新闻 查看更多图片

有意思的是,OpenAI在2024年2月就预览了Sora,当时竞争其实还很小,但到了2024年12月它推出时,这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax的海螺AI以及腾讯的混元都对Sora发起了挑战。

打开网易新闻 查看更多图片

基于Transformer的文本转语音模型也在2024年OpenAI的领衔下达到了新的质量里程碑,超越了曾经的云服务供应商。

打开网易新闻 查看更多图片

在 AI语音识别领域, OpenAI 在2022年末 开源 W h isper重塑了整个领域格局 ,使得云推理服务提供商能够进入市场,并在响应 速度和价格上展开了 竞争,为消费者带来了 前所未有的高性价比 体验。其中最快的一个可以在大约10秒内转录整整一小时的音频,转录的价格也降至每1000分钟音频不到1美元。Groq发布的最新Whisper模型与亚马逊2018年模型相比有约72倍的价格降低和约11倍的速度提升。

打开网易新闻 查看更多图片

从Artificial Analysis给出的2024年的人工智能年度回顾报告中 ,我们也可以发现,这其中并没有统计到最新的o3与Gemini 2.0 Flash Thinking。由此可见,今年整体的AI发展,尤其是LLMs,其推陈出新的能力几乎超乎了人们的想象。

这也让我们对即将到来的2025有了更多的憧憬与期望,明年是否又会是真正达成AGI的关键一年呢?答案就需要留待明年此时再来回看了。

参考资料:

https://artificialanalysis.ai/

打开网易新闻 查看更多图片