狂奔一年后，面壁者决心“破壁”

出品 | 虎嗅科技组

作者 | 王欣

编辑 | 苗正卿

头图 |《奥本海默》

“世界上不需要超过 5 个或是几个大模型，我觉得这完全跟当年 IBM 的董事长的论调——世界不需要超过5台计算机是一模一样，是非常短视的。”面壁首席科学家、清华⼤学长聘副教授刘知远对虎嗅表示，“我认为未来的大模型就像是CPU一样，无处不在。所以我们首先要做的是降低成本，让每个人有属于自己的若干个大模型来支持生活、学习和工作。”

这是近期中关村初冬的早晨。2024中国人工智能大会(CCAI 2024)像呈燎原之势的大模型产业切片，汇集了AI新锐企业和学者。此时距离刘知远在CCAI 2024端侧专题论坛发表Densing Law主题演讲，不足一小时。

在众多AI企业中，面壁从路线、模式甚至名字，都显得又些另类。当刘知远坐在我面前，这些另类似乎都找到了答案源头——他的身上，学者的儒雅和接地气的一面达到了奇妙的平衡比例。

巧合的是，在交流的前一天，llya发表了预训练时代将会终结的判断，又撼动了一些从业者对于大模型和AGI的信心。

刘知远也观察到，目前国内已经有大模型公司放弃预训练。“这种事情在历史任何时刻都会存在”，就像2000年互联网泡沫破灭时，不坚定的参与者批量离场，“很多人看到大模型这个方向火，然后加入进来，这样的人，他一定会在遇到挫折的时候率先退场。”

“数据差不多耗尽了，接下来的确会面临，模型可持续训练的未来的发展瓶颈”，但刘知远认为：“通过强化学习或者合成数据依然可以制造更多数据，明年仍然还是快速发展的阶段。”

这一瓶颈是刘知远在一年前就预判到的问题：“半年之后，国内一定有五六家可以把GPT-4水平的模型做出来，那还有必要做这个事情吗？”

从商业上考虑“投入了几千万，市面上五六个同类型的模型，你怎么能确保你的模型能卖得的比别人都好？”

因此一年前，脱胎于清华NLP实验室的面壁智能，就开始专注端侧模型的路线。

交流结束后，刘知远上台分享了近期团队的研究成果。正是Scaling Law遇到瓶颈后的“破壁之法”，预测大模型发展的另一视角——大模型密度定律（Densing Law）—— 模型能力密度随时间呈指数级增长。

就像摩尔定律背后的核心其实是有效地提升芯片上的电路密度，而不是简简单单的芯片尺寸。大模型行业也有着和摩尔定律相似的规律，和芯片的电路密度类似，大模型的能力“密度”也在提升，这意味我们能用更少的参数实现相同的智能水平。

模型能力密度提升意味着——如果一个4B的模型能实现40B模型的效果，那么它能搭载运行的终端范围会大大拓宽，比如原来服务器上的模型，就可以直接在手机上运行，它的应用范围也就拓宽了。

以下为虎嗅与刘知远一对一交流实录：

虎嗅：最近半年你关心的问题是什么？

刘知远：现在算力浪费现象严重，导致模型训练成本过高。历史上，IBM曾预测全球仅需5台大型计算机，但如今我们有13亿台PC、70亿部手机和数百亿联网设备，以及2000亿个CPU在运行。有种说法是世界上不需要超过 5 个或是几个大模型，我觉得这完全跟当年 IBM 的董事长的论调一模一样，是非常短视的。我认为未来大模型应像CPU一样普及，让每个人都能拥有大模型来改善生活、学习和工作。因此，降低成本是关键，来让大模型达到信息革命PC机的时刻。（虎嗅注：密度定律表明，达到相同能力的模型参数指数递减，2023年以来每3.3个月减少一半，相应模型推理速度提升一倍。例如，GPT-3.5级模型在过去20月内API价格下降至1/266.7，约2.5个月下降一倍。）

虎嗅：llya最近表示预训练毫无疑问将会终结，训练模型需要的海量数据即将枯竭。你如何看待他的观点？

刘知远：我觉得他说了一部分的这个正确的事情，现在数据差不多耗尽了，可能接下来的确会面临，模型可持续训练的未来的发展瓶颈。因为所谓的Scaling Law有两个基本的支撑点，数据和算力。llya主要还是强调的数据问题，但是其实我们会认为算力也是关键问题，随着这个模型变得越来越大，训练算力成本有限。如何支撑这个模型可以去有效scale？所以我们会认为llya提出来的是合时宜的，解决方案还要探讨。

其实我们在去年的时候就意识到这个问题。

虎嗅：目前国内有公司已经陆续放弃预训练，你怎么看？

刘知远：大模型是去年才开始火的。所以我们会认为，很多看到这个方向火然后就加入进来，这样的人，他一定会在遇到挫折的时候率先退场。这是必然的。因为在历史上的任何的时刻都会存在这样的事情，就跟千禧年互联网兴起的时候，也有很多人被吸引想要参与，但是互联网泡沫破灭时，就会主动地或者被动地退出。

虎嗅：这可能跟明年哪些新的趋势有关系？你对明年大模型发展的预判是什么？

刘知远：可以看到就是的，不管是比如说这个推理，还是说Agent，还是说别的强化学习等等，就是包括 o1他提到的各种各样，其实回归到本质的话，其实无非就是要想到某种办法，然后能够为这个模型来提供更多数据。

比如AlphaGo先从人类积累的数据来学习下起，所有的基础都学完后，就出现AlphaZero让下围棋的Agent跟自己下棋，来产生更多数据。

如果我们控制这个模型的参数规模不变，我们可以随着技术的发展，把更多能力放进去。也就是说模型的规模不变，但是模型的这个知识量密度在增加。所以我觉得面向未来其实仍然大有可为，明年一定还是快速发展的阶段。

这个过程其实就像是，科学技术的发展，来对抗这个世界的熵增的过程，就像芯片是要通过技术进步，来改善算力密集度，以更高的质量，更低的价格来达到相同的能力。

虎嗅：一年前是如何提前预判到行业目前现状的？为什么那时开始专注端侧？

刘知远：这个涉及到对技术的预判。就是在去年初的时候，ChatGPT的横空出世，其实是让很多人震惊。因为大家都还不知道这个东西到底是怎么训练出来的。但是经过大家快速的研判和探索，实际上在去年的大概到 4 月份，已经大致找到了到底如何达到相同水平的路径。

我们那次判断是：国内是到 2023 年12月实现GPT-3.5水准的模型能力，差不多需要一年的时间。

事实证明我们的判断是对的，因此2023年4月份GPT-4发布时，我们预计国内一定会在2024年的六月份前做出GPT-4水平模型。

所以我现在想问你，如果你是我们这个团队的决策者，你发现一年后国内一定有五六家可以把GPT-4水平的模型做出来，那还有必要做这个事情吗？问题是在于GPT-4的模型能力，至少需要几千万美元的算力。

当然，技术上是可以做的，但你做出来之后，你怎么把这个钱给赚回来？你投了几千万。但市面上有五六个同类型的模型，你怎么能确保你的模型能卖的比别人都好？

也就是说在我们确保技术上可行的时候，得去看这件事情在商业是不是值回成本的一件事情。

所以我们会认为应该更加重视的是极大地去降低训练模型的成本，极大地提升用相同的成本训练出来的模型品质，所以那个时候我们坚持的是这样的事情。这件事情其实事前我们并没有那么多信心一定是对的，当然事后的话证明我们是对的。

虎嗅：你怎么看现在有公司也开始转向端侧了？

刘知远：是的，我觉得这是好事。这是理性的决定。因为你不走向端侧，那就说明你还没有做出理性的决定。

虎嗅：你觉得未来这样公司会越来越多吗？

刘知远：一定会。

虎嗅：经历过这一年之后，你的感受是什么？

刘知远：我觉得学到好多事情。因为我是作为清华的老师，去参与创业。我觉得这的确是一个大的时代，一定要抽身参与其中，但是这里面其实对我来讲有很多新鲜感受。

我们最近几个月其实一直在尝试着去总结说我们到底怎么办？后面的路怎么走？因为这件事情是充满不确定的。

llya的判断出来后，很多人对AGI信心又撼动了。是不是llya说的就一定是对的？或是我说的就一定是对的？

这个世界本身就是充满非共识的。真正创新的东西才是推动科学发展的力量，所以其实我觉得还是要能够去寻找，历史上的一些蛛丝马迹的规律，来指导着我们往前走的方向。

我一直跟实验室的同学说要实事求是。不要因为你在这方向上取得了优势和一些积累，你就会认为这个方向就一直是对的。

我们团队其实从 2010 年开始，就在做自然语言处理，然后再到 2018 年从深度学习到大模型，其实我们应该算是最早做这个事情的。原因在于我会认为就是这个世界的趋势，它不以个人意志为转移，不会说因为你觉得这个技术有缺点，它就不会发展。该发生的一定会发生，我们要做的事情就是要去顺应事实，而且我们看得更前瞻，更前沿去做一下。

虎嗅：之前被斯坦福抄袭时，你的感受是什么？如何看待中美大模型发展差异？

刘知远：我觉得它可能算是一个偶然事件，本身对面也相当于只是一个学生团队，我个人倾向于不太会把这件事情当成有深刻含义的一件事情，我觉得如果放在宏大的历史上来去讲，就像是黄仁宇的《万历十五年》，就是通过那一个年份，来叙述整个明朝的衰败，所以其实众多的case，会汇聚成一个大的趋势。

我们其实能清晰地看到，中国在过去的这十年、二十年的发展，其实是非常快速地在去成为这个世界上的，从追赶者到去原始创新的一个角色。

20 年前，大家都在说copyto China。那又过了十年，到 2010 年的时候，那时中国的 AI 论文发表已经在国际上能够数得着，已经算是崭露头角，那个时候其实大家一般就很少说 copy to China，而是说，中国好像不太善于做技术创建，善于做模式的创建。

现在又过了十年。我们会看到国际的顶级会议，国人的身影已经占了一半，所以我会认为我们现在已经有足够多的高水平青年学者。现在我们也像历史上的任何一个强国一样，能够实现技术超车，这就跟Densing Law所指向的那个趋势一定会发生。

狂奔一年后，面壁者决心“破壁”

AI创投的那些荒诞故事

沈向洋，发了一个可以识别万物的大模型

斗争升温！马斯克恶人先告状？

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

俄储蓄银行第一副董事长：正在吸纳中国人工智能发展经验

江苏省教育厅：鼓励高校在作业批阅等方面充分应用人工智能技术

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

明朝打不过满清，我们却打得过日本，教员还是强

一群俄高中生新年前被征召上前线母亲们到火车站送别

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

生活作息规律很重要，女子连续六个月没有大便，医生听了都震惊了

为什么于谦救了明朝，皇帝却杀了他？

火箭客战猛龙！伊森2度缺阵，乌度卡带领残阵出战，3替补机会来了

真以为删了数据，警察就查不出来了

狗子的睡眠作息超规律，到晚上九点就自动入睡

狂奔一年后，面壁者决心“破壁”

AI创投的那些荒诞故事

沈向洋，发了一个可以识别万物的大模型

斗争升温！马斯克恶人先告状？

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

AI大牛解析o3技术路线！大模型下一步技术路线已现端倪？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

俄储蓄银行第一副董事长：正在吸纳中国人工智能发展经验

江苏省教育厅：鼓励高校在作业批阅等方面充分应用人工智能技术

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

明朝打不过满清，我们却打得过日本，教员还是强

一群俄高中生新年前被征召上前线 母亲们到火车站送别

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

生活作息规律很重要，女子连续六个月没有大便，医生听了都震惊了

为什么于谦救了明朝，皇帝却杀了他？

火箭客战猛龙！伊森2度缺阵，乌度卡带领残阵出战，3替补机会来了

真以为删了数据，警察就查不出来了

狗子的睡眠作息超规律，到晚上九点就自动入睡

一群俄高中生新年前被征召上前线母亲们到火车站送别