机器之心报道

机器之心编辑部

2024年,我们居然进步这么大。

刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。

对于身在 AI 领域的工程师和学者们来说,他们看待这一年的观点会有不同吗?

新年伊始,就有人对过去一年里大模型技术的发展进行了详尽的总结。本文的作者 Simon Willison 是英国知名独立研究员和开放源代码创建者。

打开网易新闻 查看更多图片

让我们看看他是怎么说的。

2024 年,大型语言模型领域发生了很多事情。以下是过去 12 个月我们对该领域的研究成果的回顾,以及我尝试确定的关键主题和关键时刻。

2023 年的总结在这里:https://simonwillison.net/2023/Dec/31/ai-in-2023/

在 2024 年,我们可以看到:

  • GPT-4 垄断被全面打破
  • 一些 GPT-4 级模型可以在笔记本电脑上运行
  • 由于竞争和优化,大模型服务的价格崩盘
  • 多模态视觉已经变得常见,音频和视频模型开始出现
  • 语音和实时摄像头模式正从科幻小说变成现实
  • 一个提示词做出一个 APP,已经很普遍了
  • 对最佳模型的普遍访问仅持续了短短几个月
  • AI 「智能体」可能还有点远
  • 评估真的很重要
  • Apple Intelligence 很糟糕,但 MLX 库很出色
  • 正在崛起的「推理」模型
  • 目前最好的 LLM 来自中国,训练成本不到 600 万美元?
  • 环境影响变好了,但也在变得越来越严重
  • 合成训练数据效果很好
  • LLM 不知何故变得更难用了
  • 知识分布不均匀
  • LLM 需要更好的批评

GPT-4 垄断被全面打破

在 2023 年 12 月的评论中,我写了关于我们还不知道如何构建 GPT-4——OpenAI 提出的领先大模型当时已经有近一年的历史了,但没有其他人工智能实验室能做出更好的模型。OpenAI 的做法里面有什么过人之处吗?

令人欣慰的是,这种情况在过去十二个月里完全改变了。现在有 18 个公司、机构在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314)—— 总共有 70 个模型。

打开网易新闻 查看更多图片

其中最早的是谷歌于 2 月发布的 Gemini 1.5 Pro。除了产生 GPT-4 级别的输出外,它还为该领域引入了几项全新的功能 —— 最值得注意的是其 100 万(后来是 200 万)个 token 输入上下文长度,以及接收视频的能力。

我当时在《The killer app of Gemini Pro 1.5 is video》中写到了这一点,这让我在 5 月的谷歌 I/O 开幕主题演讲中作为主持人短暂露面。

Gemini 1.5 Pro 还展示了 2024 年的一个关键主题:增加上下文长度。去年,大多数模型接收 4096 或 8192 个 token,但 Claude 2.1 是个值得注意的例外,它能接收 20 万个 token。如今,每个严肃的提供商都有一个 10 万以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 万个 token。

更长的输入极大地增加了使用 LLM 可以解决的问题范围:你现在可以投入一整本书并询问有关其内容的问题。但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。涉及长输入的 LLM 用例对我来说比纯粹依赖模型权重中已经嵌入的信息的短提示更有趣。我的许多工具都是使用这种模式构建的。

回到击败 GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月推出,Claude 3 Opus 很快成为我最喜欢的日常大模型。他们在 6 月进一步提高了赌注,推出了 Claude 3.5 Sonnet—— 六个月后,这个模型仍然是我的最爱(尽管它在 10 月 22 日进行了重大升级,令人困惑的是保留了相同的 3.5 版本号。Anthropic 粉丝从那时起就喜欢称它为 Claude 3.6)。

然后是其余的大模型。如果你今天浏览 Chatbot Arena 排行榜(仍然是获得基于情绪的模型评估的最有用的地方),你会发现 GPT-4-0314 已经跌至第 70 位左右。拥有得分较高的模型的 18 家组织分别是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯顿和腾讯。

一些 GPT-4 级模型可以在笔记本电脑上运行

我的个人笔记本电脑是 2023 年的 64GB M2 MacBook Pro。这是一台功能强大的机器,但它也已经有近两年的历史了 —— 而且至关重要的是,我自 2023 年 3 月第一次在电脑本地上运行 LLM 以来,一直在使用的是同一台笔记本电脑。

去年 3 月,同一台笔记本电脑几乎可以运行 GPT-3 类模型,现在已经运行了多个 GPT-4 类模型!我对此的一些注释:

Qwen2.5-Coder-32B 是一款可以很好地编码的 LLM,可在我的 Mac 上运行,11 月份,我谈到了 Qwen2.5-Coder-32B——Apache 2.0 许可模型。

我现在可以在我的笔记本电脑上运行 GPT-4 类模型,运行 Meta 的 Llama 3.3 70B(12 月发布)。

这对我来说仍然很令人惊讶。我们原本会想当然地认为具有 GPT-4 功能和输出质量的模型需要一台数据中心级服务器,该服务器具有一个或多个价值 4 万美元以上的 GPU。

事实上,这些模型占用了我 64GB 的内存空间,所以我不经常运行它们 —— 运行的时候就不能干其他的事了。

它们能够运行的事实证明了 AI 领域在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,还有很多唾手可得的成果。我预计未来还会有更多。

Meta 的 Llama 3.2 模型值得特别提及。它们可能不是 GPT-4 级别,但在 1B 和 3B 大小下,它们的性能远远超出了参数量的水平。我使用免费的 MLC Chat iOS 应用程序在 iPhone 上运行 Llama 3.2 3B,对于其微小(<2GB)的参数量来说,这是一个功能惊人的模型。尝试启动它并要求它提供「Netflix 圣诞电影的情节大纲,其中一位数据记者爱上了一位当地的陶瓷师」。这是我得到的结果,每秒 20 个 token 的速度相当可观:

打开网易新闻 查看更多图片

它平淡而普通,但我的手机现在可以向 Netflix 推荐平淡而普通的圣诞电影了!

由于竞争和优化

大模型服务的价格崩盘

在过去的 12 个月中,通过顶级托管服务的 LLM 运行 token 的成本急剧下降。

2023 年 12 月(这是 OpenAI 定价页面的互联网快照),OpenAI 对 GPT-4 收取 30 美元 / 百万输入 token,对当时新推出的 GPT-4 Turbo 收取 10 美元 /mTok,对 GPT-3.5 Turbo 收取 1 美元 /mTok。

今天 30 美元 /mTok 可以让你获得 OpenAI 最昂贵的模型 o1。GPT-4o 售价 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售价 0.15 美元 /mTok—— 比 GPT-3.5 便宜近 7 倍,功能强大得多。

其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku(从 3 月开始,但仍然是他们最便宜的型号)为 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 为 0.075 美元 /mTok,而他们的 Gemini 1.5 Flash 8B 为 0.0375 美元 /mTok—— 比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm 定价标签下跟踪这些价格变化。

这些价格下降是由两个因素驱动的:竞争加剧和效率提高。对于每个关心 LLM 对环境影响的人来说,效率真的很重要。这些价格下降与运行提示所消耗的能源量直接相关。

关于大型 AI 数据中心建设对环境的影响,仍然有很多值得担心的地方,但许多对单个提示的能源成本的担忧已不再可信。

这里有一个有趣的简单计算:使用 Google 最便宜的型号 Gemini 1.5 Flash 8B(10 月发布)为我个人照片库中的每 6.8 万张照片生成简短描述需要花费多少钱?

每张照片需要 260 个输入 token 和大约 100 个输出 token。

  • 260×68,000 = 17,680,000 个输入 token
  • 17,680,000×0.0375 美元 / 百万 = 0.66 美元
  • 100×68,000 = 6,800,000 个输出 token
  • 6,800,000×0.15 美元 / 百万 = 1.02 美元

处理 68,000 张图片的总成本为 1.68 美元。这太便宜了,我不得不计算了三次才能确认我做对了。

这些描述有多美好?这是我从一行命令中得到的结果:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

处理在加州科学院照的这张蝴蝶照片:

打开网易新闻 查看更多图片

输出内容:

一个浅盘,可能是蜂鸟或蝴蝶喂食器,是红色的。盘内可见橙色水果片。喂食器中有两只蝴蝶,一只深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一只大号棕色蝴蝶,带有浅棕色、米色和黑色斑纹,包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。

260 个输入 token,92 个输出 token。成本约为 0.0024 美分(不到 400 分之一美分)。效率的提高和价格的降低是我最喜欢的 2024 年趋势。我希望以极低的能源成本获得 LLM 的效用,看起来这就是我们得到的。

多模态视觉已经变得常见

音频和视频模型开始出现

上面的蝴蝶示例说明了 2024 年的另一个关键趋势:多模态 LLM 正在兴起。

一年前,其中最引人注目的例子是 GPT-4 Vision,于 2023 年 11 月在 OpenAI 的 DevDay 上发布。谷歌的多模态 Gemini 1.0 于 2023 年 12 月 7 日发布,因此它也(刚好)进入了 2023 年的窗口。

2024 年,几乎每个重要的模型供应商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(图像、音频和视频),然后 9 月各家带来了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。

10 月份,我们从 OpenAI 获得了音频输入和输出,11 月份,我们从 Hugging Face 获得了 SmolVLM,12 月份,我们从 Amazon Nova 获得了图像和视频模型。

10 月份,我也升级了我的 LLM CLI 工具,以通过附件支持多模态模型。它现在拥有一系列不同视觉模型的插件。

我认为,抱怨 LLM 改进速度放缓的人往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行提示是一种应用这些模型的迷人新方法。

语音和实时摄像头模式

正从科幻小说变成现实

新兴的音频和实时视频模式值得特别关注。

与 ChatGPT 对话的功能首次出现在 2023 年 9 月,但当时还没真正实现:OpenAI 要用旗下的 Whisper 语音转文本模型和一个新的文本转语音模型(名为:tts-1)来实现与 ChatGPT 对话,但实际的模型还只能看到文本。

5 月 13 日,OpenAI 春季发布会推出了 GPT-4o。多模态模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「听懂」你说的每一句话 —— 接受音频输入并输出令人难以置信的逼真语音,也不再需要 TTS 或 STT 模型在其中转化。

这个演示中的声音与斯嘉丽・约翰逊惊人地相似...... 在斯嘉丽投诉之后,这个声音 Skye 从未在任何正式产品中亮相。

不过,发布会上那个让人眼前一亮的 GPT-4o 高级语音功能在产品端上线的计划一再推迟,这引起了不少讨论。

当 2024 年 8 月至 9 月期间,ChatGPT 高级语音模式最终上线时,效果真的惊艳到我了。

我经常在遛狗时使用它,更拟人的语调,让 AI 生成的内容听起来更生动。试验 OpenAI 的音频 API 也很有趣。

更有趣的是:高级语音模式可以模仿口音!比如,我让它「假装你是一只带着浓重俄罗斯口音的加利福尼亚棕鹈鹕,但只用西班牙语和我交谈」:

打开网易新闻 查看更多图片

试听链接:https://mp.weixin.qq.com/s/ac3E1roCv8uSVYVKZ84E1w

OpenAI 不是唯一一家在搞多模态音频模型的公司,Google 的 Gemini 也能接收语音输入,而且 Gemini 应用现在也能像 ChatGPT 一样说话了。亚马逊也提前宣布了他们的 Amazon Nova 会有语音模式,不过得等到 2025 年第一季度才能用上。

Google 在 9 月份发布的 NotebookLM 把音频输出玩出了新花样 —— 它能生成超级逼真的「播客主持人」对话,不管你给它什么内容都行。后来他们还加入了自定义指令功能,我当然二话不说就把主持人都变成了鹈鹕:

打开网易新闻 查看更多图片

试听链接:https://mp.weixin.qq.com/s/ac3E1roCv8uSVYVKZ84E1w

最新的转折出现在 12 月(这个月可真是热闹),就是实时视频功能。ChatGPT 的语音模式现在让你可以直接和模型分享摄像头画面,实时聊聊你看到的东西。Google Gemini 也推出了类似的预览功能,这次终于抢在 ChatGPT 前一天发布了。

这些功能才刚出来几个星期,我觉得它们的影响力还没完全显现出来。如果你还没试过,真的要体验一下!

Gemini 和 OpenAI 都提供这些功能的 API 接口。OpenAI 最开始用的是比较难搞的 WebSocket API,不过在 12 月他们推出了新的 WebRTC API,用起来简单多了。现在,要开发一个能和用户语音对话的网页应用已经变得超级容易了。

一个提示词做出一个 APP

已经很普遍了

这在 2023 年就可以通过 GPT-4 实现了,但直到 2024 年它的价值才真正凸显。

我们早就知道大语言模型在写代码方面有着惊人的能力。如果你给出恰当的提示词,它们能用 HTML、CSS 和 JavaScript(如果配置好相关环境,还能用上 React 这样的工具)为你构建一个完整的交互式应用程序 —— 通常只需要一个提示词就够了。

Anthropic 在发布 Claude 3.5 Sonnet 的公告中,顺带介绍了一个突破性的新功能:Claude Artifacts。这个功能起初并没有引起太大关注,因为它只是在公告中写了一下。

有了 Artifacts,Claude 可以为你写一个即时交互式应用,然后让你直接在 Claude 界面中使用它。

这就是我用 Claude 生成的一个提取网页 URL 的应用:

打开网易新闻 查看更多图片

现在 Claude Artifacts 已经成为了我的依靠。很多其他团队也开发了类似的系统,例如,GitHub 在 10 月份推出了他们的版本:GitHub Spark。Mistral Chat 在 11 月份添加了一个叫 Canvas 的类似功能。

来自 Val Town 的 Steve Krause 基于 Cerebras 构建了一个版本,展示了一个每秒处理 2000 个 token 的大语言模型如何能在不到一秒的时间内对应用进行迭代更新。

到了 12 月,Chatbot Arena 团队为此类功能推出了一个全新的排行榜,用户可以用两个不同的模型构建相同的交互式应用,然后对结果进行投票。

打开网易新闻 查看更多图片

排行榜前六位

很难找到比这更有说服力的证据,这项功能现在已经成为能在所有主流模型上有效实现的通用功能了。

我自己也在为 Datasette 项目开发类似的功能,目标是让用户能够通过提示来构建和迭代针对自己数据的自定义小部件和数据可视化。我还通过 uv 找到了一种编写一次性 Python 程序的类似模式。

这种提示驱动的自定义界面功能非常强大,而且构建起来也很容易(只要你搞定了浏览器沙箱的那些棘手细节),我预计在 2025 年会有一大波产品都会推出类似功能。

对最佳模型的普遍访问仅持续了短短几个月

今年有几个月的时间,三个最好的可用模型:GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多数人免费使用。

OpenAI 在 5 月份向所有用户开放了 GPT-4o 的免费使用权限,而 Claude 3.5 Sonnet 从 6 月份发布起就是免费的。

这是一个重大的改变,因为在之前的一年里,免费用户主要只能使用 GPT-3.5 级别的模型,这导致新用户对大语言模型的实际能力形成了很不准确的认识。

不过,这个时代似乎已经结束了,而且很可能是永久性的,标志是 OpenAI 推出了 ChatGPT Pro。这项每月 200 美元的订阅服务是访问他们最强大的新模型(o1 Pro)的唯一途径。

由于 o1 系列(以及「o 系列」未来的模型)背后的诀窍是投入更多的计算时间来获得更好的结果,我认为那些能免费就能访问到最顶级的模型的日子,应该不会再回来了。

AI 「智能体」可能还有点远

说实话,AI Agents 这个词让我很头疼。它没有一个统一、清晰且被广泛认可的定义。更糟的是,用这个词的人似乎从来不承认这一点。

如果你告诉我你在开发 AI Agents,这基本上等于什么都没说。除非我能读心,否则我根本不知道,AI Agents 定义有几十种,你到底在造哪一种?

我看到的 AI Agents 开发者主要有两类:一类认为 AI Agents 显然就是替你做事的东西,就像旅行社那样;另一类人则在想象为大语言模型配备各种工具,让大模型能够自主驱动,执行任务。

人们还经常提到「autonomy」这个词,但同样也没说清楚是什么意思。

(几个月前我在推特上收集了 211 个定义,我还让 gemini-exp-1206 试着总结了一下这些定义。)

  • 文档链接:https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管这个词到底是什么意思,AI Agents 总会给人一种「即将成真」的感觉。

撇开术语不谈,我对它们的实用性持怀疑态度,原因还是一个老问题:大语言模型很容易「轻信」,它会照单全收你告诉它的一切。

这就暴露出一个关键问题:如果一个决策辅助系统连真假都分不清,它还能发挥多大作用?无论是旅行顾问、生活助手,还是研究工具,都会因为这个缺陷而大打折扣。

最近就有一个现成的例子:就在前几天,谷歌搜索闹了个大乌龙。它把粉丝创作网站上一个虚构的《魔法满屋 2》剧情,当成了真实电影来介绍。

提示注入就是这种「轻信」的必然结果。自 2022 年 9 月以来我们一直在讨论这个问题,但 2024 年在解决这个问题上,几乎没有什么进展。

我开始觉得,最流行的 AI Agents 概念其实依赖于通用人工智能的实现。要让一个模型能够抵抗「轻信」,这真是个艰巨的任务。

评估真的很重要

Anthropic 的 Amanda Askell(负责 Claude 性格塑造的主要工作者)说:

系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。

2024 年的经验告诉我们:在大语言模型应用领域,最重要的核心竞争力是什么?是一套完善的自动化评估系统。

为什么这么说?因为有了它,你就能:抢占先机,快人一步采用新模型,加速迭代,不断优化产品,确保功能既可靠又实用。

Vercel 的 Malte Ubl 说:

当 @v0 刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。
于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的 ASML 机器 —— 就算再先进,也无从下手。

我还在探索最适合自己的工作模式。评估的重要性已是共识,但「如何做好评估」这个问题却仍然缺乏系统性的指导。我一直在通过评估标签追踪这方面的进展。我现在用的「鹈鹕骑自行车」SVG 基准测试,与那些成熟的评估套件相比,还有很长的路要走。

Apple Intelligence 很糟糕

但 MLX 库很出色

去年,因为没有配备 NVIDIA GPU 的 Linux/Windows 机器,我在尝试新模型的时候遇到了不少阻碍。

从配置上看,64GB 的 Mac 本应该是运行 AI 模型的理想之选 —— CPU 和 GPU 共享内存的设计堪称完美。

但现实很残酷:当下的 AI 模型在发布时,基本都是以模型权重和开发库的形式推出,而这些几乎只适配 NVIDIA 的 CUDA 平台。

llama.cpp 生态系统在这方面帮了大忙,但真正的突破是苹果的 MLX 库,这是一个「专为 Apple Silicon 设计的数组框架」。它真的很棒。

苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超过 1000 个已转换为必要格式的模型。

Prince Canuma 开发的优秀且发展迅速的 mlx-vlm 项目也把视觉大语言模型带到了 Apple Silicon 上。我最近用它运行了 Qwen 的 QvQ。

虽然 MLX 是个改变游戏规则的东西,但苹果自己的 Apple Intelligence 功能大多令人失望。我本来非常期待 Apple Intelligence,在我的预测中,我认为苹果绘专注于做能保护用户隐私,打造让用户清晰明了、不会误解的大语言模型应用。

现在这些功能已经推出,效果相当差。作为一个大语言模型的重度用户,我知道这些模型能做什么,而苹果的大语言模型功能只是提供了一个苍白的模仿。我们得到的是曲解新闻标题的通知摘要,以及完全没用的写作助手工具,不过 emoji 生成器还是挺有意思的。

正在崛起的「推理」模型

2024 年最后一个季度最有趣的进展是一种新型 LLM 的出现,以 OpenAI 的 o1 模型为代表。

要理解这些模型,可以把它们看作是「思维链提示」技巧的延伸。这个技巧最早出现在 2022 年 5 月的论文《Large Language Models are Zero-Shot Reasoners》中。

这个技巧主要在说,如果你让模型在解决问题时「大声思考」,它往往能得到一些原本想不到的结果。

o1 把这个过程进一步融入到了模型本身。具体细节有点模糊:o1 模型会花费一些「推理 token」来思考问题(用户看不到这个过程,不过 ChatGPT 界面会显示一个总结),然后给出最终答案。

这里最大的创新在于,它开创了一种新的扩展模型的方式:不单纯地通过增加训练时的计算量来提升模型性能,而是让模型在推理时投入更多计算资源来解决更难的问题。

o1 的续作 o3 在 12 月 20 日发布,o3 在 ARC-AGI 基准测试上取得了惊人成绩。不过,从 o3 的巨额推理成本来看,它可能花掉了超过 100 万美元的计算成本!

o3 预计将在 1 月份推出。但我觉得很少有人的实际问题需要这么大的计算开销,o3 也标志着 LLM 架构在处理复杂问题时迈出了实质性的一步。

OpenAI 并不是这个领域的「独角戏」。谷歌在 12 月 19 日也推出了他们的第一个类似产品:gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 团队在 11 月 28 日发布了他们的 QwQ 模型,我在自己电脑上就能跑。他们在 12 月 24 日又推出了一个叫 QvQ 的视觉推理模型,我也在本地运行过。

DeepSeek 在 11 月 20 日通过他们的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型试用。

要深入了解推理扩展,我推荐看看 Arvind Narayanan 和 Sayash Kapoor 写的《Is AI progress slowing down?》这篇文章。

Anthropic 和 Meta 还没什么动静,不过我赌他们肯定也在开发自己的推理扩展模型。Meta 在 12 月发表了一篇相关论文《Training Large Language Models to Reason in a Continuous Latent Space》。

目前最好的 LLM 来自中国

训练成本不到 600 万美元?

不完全是,但差不多是。这的确是个吸引眼球的好标题。

今年年底的大新闻是 DeepSeek v3 的发布,它在圣诞节当天连 README 文件都没有就被放到了 Hugging Face 上,第二天就发布了文档和论文。

DeepSeek v3 是一个庞大的 685B 参数模型,是目前最大的公开授权模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 还要大得多。

基准测试结果表明,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试(又称聊天机器人竞技场)目前将其排在第 7 位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 型号。这是迄今为止排名最高的公开授权模型。

DeepSeek v3 真正令人印象深刻的是其训练成本。该模型在 2,788,000 个 H800 GPU 时内完成了训练,估计成本为 5,576,000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却略逊一筹。

美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。

环境影响得到改善

模型(包括托管模型和我可以在本地运行的模型)效率的提高带来了一个可喜的结果,那就是在过去几年中,运行 Prompt 的能耗和对环境的影响大大降低了。

与 GPT-3 时代相比,OpenAI 自己的提示词器收费也降低了 100 倍。我有可靠消息称,Google Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行提示词器。

我认为这意味着,作为个人用户,我们完全不必为绝大多数提示词消耗的能源感到内疚。与在街上开车,甚至在 YouTube 上看视频相比,其影响可能微乎其微。

同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。

对于效率较低的模型,我认为将其能源使用量与商业航班进行比较是非常有用的。最大的 Llama 3 模型的成本约等于从纽约到伦敦的一位数满载乘客航班。这当然不是一无是处,但一旦经过训练,该模型就可以供数百万人使用,而无需额外的训练成本。

环境影响也变得越来越严重

更大的问题在于,未来这些模式所需的基础设施建设将面临巨大的竞争压力。

谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建设新的数据中心,这对电网和环境造成了巨大影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。

这些基础设施有必要吗?DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续暴跌可能暗示了这一点。但是,你是否希望自己成为一名大型科技公司的高管,在几年后证明自己的观点是错误的情况下,仍然坚持不建设这些基础设施呢?

一个有趣的比较点是,19 世纪铁路在世界各地的铺设方式。修建这些铁路需要巨额投资,并对环境造成巨大影响,而且修建的许多线路被证明是不必要的,有时不同公司的多条线路服务于完全相同的路线。

由此产生的泡沫导致了数次金融崩溃,参见维基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。

「泔水」之年

2024 年是「泔水」一词成为艺术术语的一年。我在 5 月份写过一篇文章,对 @deepfates 的这条推文进行了扩展:

实时观察「泔水」如何成为一个艺术术语。就像「垃圾邮件」成为不受欢迎电子邮件的专有名词一样,「泔水」也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。

我把这个定义稍微扩展了一下:

「泔水」指的是人工智能生成的未经请求和审查的内容。

最后,《卫报》和《纽约时报》都引用了我关于泔水的论述。

以下是我在《纽约时报》上说的话:

社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。「忽略那封邮件,它是垃圾邮件 」和「忽略那篇文章,它是泔水」都是有用的教训。

我喜欢「泔水」这个词,因为它简明扼要地概括了我们不应该使用生成式 AI 的一种方式。

「泔水」甚至还入选了 2024 年牛津年度词汇,但最终输给了「脑腐」。

合成训练数据很有效

「模型崩溃」的概念,似乎出人意料地在公众意识中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了这一现象。2024 年 7 月,《自然》杂志以更醒目的标题重复了这一现象:在递归生成的数据上进行训练时,人工智能模型会崩溃。

这个想法很有诱惑力:随着人工智能生成的「泔水」充斥互联网,模型本身也会退化,将以一种导致其不可避免灭亡的方式吸收自己的输出。

这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上进行训练 — 有意识地创建人工数据,以帮助引导他们的模型走向正确的道路。

我所见过的对此最好的描述之一来自 Phi-4 技术报告,其中包括以下内容:

合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型也一直强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品,不如说合成数据与有机数据相比有几个直接优势。

结构化学习和逐步学习。在有机数据集中,token 之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前标记与下一个 token 联系起来,这使得模型很难有效地学习下一个 token 的预测。相比之下,语言模型生成的每个 token 顾名思义都是由前面的标记预测的,这使得模型更容易遵循由此产生的推理模式。

另一种常见的技术是使用较大的模型为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。DeepSeek v3 使用了 DeepSeek-R1 创建的「推理」数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。

精心设计进入 LLM 的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据并不加区分地将其投入训练运行的时代已经一去不复返了。

LLM 不知何故变得更难用了

我一直在强调,LLM 是强大的用户工具,它们是伪装成菜刀的电锯。它们看起来简单易用,给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要有深厚的理解力和丰富的经验。

如果说在 2024 年,这个问题变得更加严重的话,好消息是我们已经建立了可以用人类语言与之对话的计算机系统,它们会回答你的问题,而且通常都能答对。这取决于问题的内容、提问的方式,以及问题是否准确地反映在未记录的秘密训练集中。

可用系统的数量激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如 Python、JavaScript、网络搜索、图像生成,甚至数据库查询。所以你最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。

你知道 ChatGPT 现在有两种完全不同的 Python 运行方式吗?

想要构建一个与外部 API 对话的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 标头。

模型可能变得更强大了,但大多数限制却没有改变。OpenAI 的 o1 也许终于能大部分计算「Strawberry」中的 R,但它的能力仍然受限于其作为 LLM 的性质,以及它所运行的线束对它的限制。O1 不能进行网络搜索,也不能使用 Code Interpreter,但 GPT-4o 却可以 —— 两者都在同一个 ChatGPT UI 中。(如果你要求,o1 会假装做这些事,这是 2023 年初 URL 幻觉 bug 的回归)。

我们对此有何对策?几乎没有。

大多数用户都被扔进了深水区。默认的 LLM 聊天 UI 就像是把全新的电脑用户扔进 Linux 终端,然后指望他们自己能搞定一切。

与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心理模型也越来越常见。我见过很多这样的例子:有人试图用 ChatGPT 的截图来赢得争论 — 这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你正确提示,就能让它们说任何话。

这也有一个反面:很多见多识广的人已经完全放弃了 LLM,因为他们不明白怎么会有人能从一个有如此多缺陷的工具中获益。要想最大限度地利用 LLM,关键在于学会如何使用这种既不可靠又强大无比的技术。这是一项绝对不显而易见的技能!

在这里,有用的教育内容大有可为,但我们需要做得更好,而不是将其全部外包给那些在推特上狂轰滥炸的人工智能骗子。

知识分布不均匀

现在,大多数人都听说过 ChatGPT。有多少人听说过 Claude?

积极关注这些内容的人与 99% 不关注这些内容的人之间存在着巨大的知识鸿沟。

变革的速度也无济于事。就在上个月,我们看到实时界面的普及,你可以将手机摄像头对准某样东西,然后用声音谈论它...... 还可以选择让它假装成圣诞老人。大多数自我认证的 nerd 甚至还没试过这个。

鉴于这项技术对社会的持续及潜在影响,我不认为这种差距的存在是健康的。我希望看到更多的努力来改善这种状况。

LLM 需要更好的批评

很多人都非常讨厌这种东西。在我混迹的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶尔在 Hacker News),即使提出「LLM 很有用」,也足以引发一场大战。

我明白不喜欢这项技术的理由有很多:环境影响、训练数据(缺乏)道德、缺乏可靠性、负面应用、对人们工作的潜在影响。

LLM 绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。

我喜欢对这些东西持怀疑态度的人。两年多来,炒作的声音震耳欲聋,大量的「假冒伪劣商品」和错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。

如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。

(如果你仍然认为根本没有什么好的应用,那我就不知道你为什么能读完这篇文章了!)。

我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。我们这些了解这些东西的人有责任帮助其他人弄明白。

参考内容:

https://simonwillison.net/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet