智见|黄铁军：未来的大模型生态中将会只有少数赢家

2023智源大会可谓群星璀璨。中外200余位人工智能顶级专家参会，人工智能领域最关键的人物、机构悉数亮相。

全面、专业、前沿，会场上大咖们观点激荡、多元碰撞，会场下观众们兴奋异常、座无虚席。

会上，北京智源人工智能研究院院长黄铁军作报告，发布悟道3.0大模型系列，并宣布进入全面开源的新阶段。

作为智源研究院院长，中国大模型推行第一人，黄铁军的看法令人期待。他是如何看待通用人工智能发展现状与未来趋势的？开源开放创新生态如何建设？安全伦理问题和风险又将如何防范？网易科技与黄铁军进行了深入交流。

以下为采访全文：

提问：最新发布的“悟道3.0”特点是什么？其过人之处在哪？

黄铁军：首先，视觉模型目前仍处于解决问题的过程中，与语言模型相比，它的发展和应用还不如后者那么广泛。但是，我们在视觉模型方面的目标是保持领先地位，以及在算法、架构和性能等方面始终保持最前沿。我们发布的视觉模型都是为实现这个目标而设计的。

另外，我们是开源开放的，所有人都可以测试、对比我们的模型。虽然我们无法排除某些公司有更大、更好的模型的可能性，但从我们的定位来看，我们的算法背后的模型处于前沿位置，这一点是毋庸置疑的。

谈过人之处，其实不同的大型模型训练的基本思想和思路是相似的。过人之处往往体现在细节上面。比如通过避免问题陷阱，以更小的代价训练出性能更好的模型。在这方面，我们和其他视觉模型机构一样，都处于一个发展前期的阶段。

ChatGPT已经成为语言模型的一个里程碑，视觉模型的相应时刻也已经接近。但是，要真正引爆视觉模型的发展，可能需要一种杀手级应用来激发人们的热情，并展示模型背后的能力。

从现在看，未来自动驾驶可能成为这样的应用。即使在技术上有多少先进性，只有在自动驾驶汽车真正满街跑起来，驾驶员下岗下车，AI的视觉和感知能力比人更强时，所有人才会像对待语言模型一样心服口服，视觉模型也才真正能够引爆。

这个时刻的出现其实并不会太长，大概也就1-3年。达到能力是前提，但产业成熟还需要一定的时间。我相信大多数人都认为语言模型已经通过了图灵测试，无法分辨是人还是AI。如果视觉模型也能够通过类似于自动驾驶的图灵测试，明显优于人类的感知和安全能力，那个真正的时刻就到来了。

提问：从算法、算力和数据三个维度来看，目前大模型发展的制约点在哪里？我们发展大模型还应该在哪个方面发力？

黄铁军：如果从算法、算力、数据三个维度来看，目前最主要的制约点是中国训练大模型都还是太小。虽然已经出现了百亿级别的涌现能力，但仍然不到万亿级别，因此大模型的智能水平仍有差距。

太热就是制约点。当然国际上也很热，但与国际上不同的是，国际上已经有很多顶尖、领先和开源的技术和资源，而我们虽然也有很多技术和资源，但尚缺乏顶尖的。

那么业界应该在哪些方面发力呢？我认为，应该集中力量办大事，在大模型方面集中资源，致力于训练更大、更智能的模型，从而缩小与国际水平的差距。过多地重复发力反而会导致资源的分散。

提问：您刚才说中国大模型太小，什么样的大模型叫大？ChatGPT大吗？GPT4.0大吗？能够把全世界的东西都包括进来吗？

黄铁军：从技术的角度来看，目前大模型的“大”还远远没有达到天花板，也不可能把所有东西都包括进来。各家都在不断发展和探索。要实现包罗万象可能还需要三年左右的时间，因此未来三年，规模和能力肯定还会继续提升，这是基本的趋势。

大模型的发展不仅仅局限于“大”这个维度，还包括优化技术，提升训练效率，以及让其在更小的平台上也能运行等。但从基本的发展趋势来看，提升模型的智能水平和规模仍然是人工智能领域发展的主要方向。

提问：在您看来，为什么现在这个时间点出现这么多人工智能大模型？您觉得现在行业需要这么多大模型吗？未来的格局是什么样的？

黄铁军：有技术原因，也有外部原因。技术进步是基础先决条件，大数据和大算力只是必要条件，但不是最重要的条件。最重要的条件是新的学习方法和算法的出现，尤其是自监督或无监督学习。这种学习方法不再需要人来手动标注数据，而是直接从原始数据中提取规律，不断迭代学习，从而实现学习的自动化。

大模型之所以能够变得如此之大，是因为有足够的数据可以进行训练。现在的自监督学习方法使得数据不再受制于成本和人力等问题，而是可以直接从原始数据中获取，从中提取隐藏的规律，进而实现智能化的问题解决。

未来的大模型生态只会有很少的几个，数量可以用屈指可数来形容，比如只有三个。无论是几十个还是几百个大模型，这都只是技术迭代过程中的中间产物。每个企业将来都会在大模型生态中找到自己的位置，这个位置不一定是训练和销售大模型，而是在整个生态系统的某个环节上做得最出色，从而获得盈利。

大模型本身就是一个大体系，是由千千万万企业共同构建的生态系统。在互联网发展初期，人们也曾认为卖铲子的最赚钱，而大家都在做路由器，但最终只有几个企业能够做出好的路由器产品。这也提示每个企业，都需要在大模型生态系统中，找到自己的定位和优势，并在自己的领域做到最好，只有这样才能融入整个体系并获得盈利。

提问：目前有很多声音说中国创业公司更适合发展垂类大模型，通用大模型和垂类大模型是怎样一个关系？

黄铁军：基本的逻辑应该是以通用为基础，再通过专门领域的数据支持，进一步进行专门化。但如果要创业，在现有条件下，使用通用基础去做一个垂类的模型，也未尝不可。这是一个可以选择的方案。

随着通用模型逐渐变得越来越强大，未来几年内可能会出现像电网一样无处不在的服务。这时，真正利用大模型做产品和服务的企业将会大幅增加，几乎所有企业都将使用这个技术。这将是一个新的阶段，类似互联网和移动互联网发展到一定规模时，除了几家提供路由器和其他设备的企业外，大多数企业都是互联网应用型企业。这时，“基础模型+专业”将成为最典型的模式。

虽然目前我们还处于初期阶段，但选择垂类模型也是一个可以考虑的选择。

提问：如果大模型走向应用的话，您觉得在哪些领域会率先出现杀手级的应用？现在国内大模型很多，对应用开发者来讲，他怎样选择自己应用所根植的这个大模型平台？

黄铁军：其实对于一个划时代的技术来说，当前谈论这个是较为短视的看法，确实很影响技术的发展。

市场竞争和盈利等经济行为，都是自然而然的事情，不需要我们这些所谓的专家提出意见。市场人士比我们更敏感，更清楚市场的情况。我们应该关注的是，现在就是这个时代塑造的时候，只有塑造好了这个时代，才会有很多应用和机会出现。

以互联网时代和移动互联网时代为例，如果没有互联网，谈哪个应用能在互联网上赚钱都没有意义；如果移动互联网平台和手机普及性不到那种程度，打车和外卖等应用也是不可能的。我们必须有基础设施条件，才能让后面的应用和平台公司等出现。

在大模型人工智能时代，建设生态才刚刚开始。我们应该更多地关注和投入这个方向，只有这样，千行百业热闹的应用和机会才会出现。

提问：智源未来的发展战略是怎么样的？与当前互联网大厂的商业化落地目标有什么不一样？

黄铁军：作为一个非营利机构，我们的任务是为整个社会和生态系统提供更基础的贡献，更多的是以开源开放的方式实现，这也是我们的性质所决定的。例如Linux操作系统，它不是谁的操作系统，而是大家的、社区的操作系统。当然，Linux可以开发成不同的产品来应用，但同时还需要会员提供一定的经济支持，否则社区无法运行。Linux是一个开源的例子，它不是某个企业的开源，而是大家的开源。

另一个例子是安卓操作系统，它是Google的开源，也形成了一个生态系统。但是，我们认为这个生态系统与Linux开源有很大的差别，因为它是Google左右下的开源。如果你想改变它，那是不可能的。我们都知道，如果你不符合主导者的意志，是不能发行版本的。

作为一个非营利机构，我们期望并相信，在未来人工智能开源开放的方向，应该像Linux一样。

提问：AI伦理问题现在越来越受到关注，您对AI监管有哪些思考或者建议？

黄铁军：几年前，甚至更早，我们就一直在讨论人工智能的伦理问题。今天，当我们谈到伦理安全时，我们一方面感到兴奋——人工智能能力的涌现带来了新的可能性，但另一方面，这也是一个巨大的挑战。

与传统的核武器、化学武器等系统的管理挑战不同，它们的监管是可预测的。我们可以通过严格的技术措施来确定应该使用什么样的手段来管理什么样的系统。虽然这种管理方法不是绝对可靠，但方案本身在某种程度上确定了它的可靠性。

与传统的技术系统相比，人工智能带来了各种各样预料之外的可能性，这是一个巨大的挑战。但这种东西是否无法管理呢？并不是，因为人也是这样的，每个人都是不可预测的。人们可能会灵感一闪，产生各种新想法，甚至做出各种各样的行为。

既然人工智能是智能系统，人和动物也是智能系统，它们都具有类似的不可预测性。因此，我们可以将人类社会的伦理、社会归制以及法律等方式应用到人工智能系统服务的管理上。社会学、文化和历史等方面也提供了大量的经验，可以用来探索如何管理一个无穷无尽丰富的创造性系统。

提问：现在谈到AI对产业的影响，大家已经非常明确的是对于内容生成领域短期内产生的巨大影响。在您看来，未来还会对制造业这种传统行业产生哪些影响？

黄铁军：判断一个行业会不会受到影响，基本逻辑很简单，就是人工智能是否会替换掉行业中的智力要素。针对不同的行业，我们需要对其进行深入的分析和评估。

如果一个行业纯粹机械化，不涉及智力要素，那么它可能不需要治理，因为它受到的影响相对较小。但是，如果一个行业涉及到智力要素，那么它就一定会受到影响。

例如，在制造业中，如果该行业完全是黑灯工厂，仅使用自动设备和机器人，那么人工智能的应用只是为了提高效率和质量，此时人工智能并不会带来颠覆性的影响，因为机器人已经在那里了，只需要优化和升级就可以了。但是，如果制造业涉及到人类的智力要素，这个环节就可能被改变，甚至有可能成为竞争的焦点。每个企业都在做同样的事情，你使用人工智能还是人力，使用多少人力，都会成为成本效率方面的考虑因素。

提问：现在大家都在讨论人工智能怎样影响我们的生活？根据您现在的观察，这个影响以后会有多深？我们应该怎么跟人工智能相处？

黄铁军：我认为这种影响包括两个方面。首先，作为一种技术工具，它可以替代许多之前只有人才能完成的任务。未来，通过使用人工智能来替代这些任务，企业的成本更低，速度更快，质量也更好，他们会更积极地使用这些工具来提升自己的发展。

对于消费者和用户来说，这意味着更多的实惠，许多以前不是所有人都能享用的产品和服务现在都变得更加普及了。例如信息服务、图像、视频、内容生成等，之前需要专业人士完成，现在价格已经降低到许多人都可以接受的程度。

因此，对于企业和消费者来说，能够使用这些新的治理工具来推动经济社会发展和提高生活水平，在这个意义上讲都是好事。

存在蜜月期的同时，也会伴随着阵痛。人和AI相融合的蜜月期至少有10年，甚至更长时间。这个蜜月期会带来新工具带来的生产效率提升，但也会对一些人的工作产生冲击。例如许多人的工作可能会被替换掉，原来非常稳定的工作现在可以使用人工智能以更低的成本来完成。整体而言，这个过程有好的一面，也有一些负面的影响。我们不能固守旧有的思维方式，而是需要去寻找那些能够发挥我们人的能力的新事情去做。

这是人类社会发展的一个常态。我们不可能固定在一个时代的状态，我们需要适应变化。（袁宁）

智见|黄铁军：未来的大模型生态中将会只有少数赢家

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

新一代注意力机制Lightning Attention-2：无限序列长度

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

官方通报"僧人开宾利载女人":车主不熟悉路请代为驾车

一哄而上，打不赢美国高科技

香飘飘坏掉了比亚迪的大棋

俄方警告：F-16被视为核武器载机将成俄合法打击目标

巴哈马正式承认巴勒斯坦国

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

5月9日双色球第2024052期人工智能推荐（上期中蓝球，仅供娱乐）

国内智驾大赛，车友感叹：怎么也没有想到问界M7只排名第5！

开业仅一年人去楼空？上海张园被传大量撤店，记者实地探访

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

智驾6.4万！喷华为智驾的集体失声了，没想到打脸是来自特斯拉！

"武僧一龙"被日本拳手一脚KO人事不省对方磕头致歉

智见|黄铁军：未来的大模型生态中将会只有少数赢家

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

​新一代注意力机制Lightning Attention-2：无限序列长度

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

官方通报"僧人开宾利载女人":车主不熟悉路请代为驾车

一哄而上，打不赢美国高科技

香飘飘坏掉了比亚迪的大棋

俄方警告：F-16被视为核武器载机 将成俄合法打击目标

巴哈马正式承认巴勒斯坦国

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

创新者因计算而相遇，《麻省理工科技评论》中国正式发布“2023年中国智能计算创新人物”

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

5月9日双色球第2024052期人工智能推荐（上期中蓝球，仅供娱乐）

国内智驾大赛，车友感叹：怎么也没有想到问界M7只排名第5！

开业仅一年人去楼空？上海张园被传大量撤店，记者实地探访

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

智驾6.4万！喷华为智驾的集体失声了，没想到打脸是来自特斯拉！

"武僧一龙"被日本拳手一脚KO人事不省 对方磕头致歉

新一代注意力机制Lightning Attention-2：无限序列长度

俄方警告：F-16被视为核武器载机将成俄合法打击目标

"武僧一龙"被日本拳手一脚KO人事不省对方磕头致歉