北京智源人工智能研究院林咏华：大模型背后的数据与算力挑战

当下的人类正站在AI时代的开端，社会中的每一个人都在被强大的AI技术赋能。聚焦AI领域的“赋能者”与“被赋能者”，36氪“新质生产力·AI Partner大会”以“我被AI赋能了”为主题，汇聚国内AI领域重量级嘉宾，一起共探AI行业新图景。

5月24日，36氪“新质生产力·AI Partner大会”于北京环球贸易中心正式拉开帷幕。大会聚焦AI场景与应用端，分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。现场汇聚来自蚂蚁集团、联想、OPPO、百度、英特尔等企业的AI领域先锋者，以“赋能者”与“被赋能者”的不同视角，共同探讨AI技术如何“爆改”千行百业。

北京智源人工智能研究院副院长兼总工程师林咏华

2024年，AI技术走向应用落地的原野，模型参数正式迈入万亿时代，对AGI的探索从语言跨入多模态。

技术和应用的进展喜人，但发展的掣肘，从技术黑箱，转移到了资源消耗。据OpenAI测算，全球AI训练所用的计算量平均每3.43个月便会翻一倍。在乐观估计下，仅国内大模型的训练与推理，就会产生1.1-3.8万台高性能AI服务器的算力需求。

而模型训练，又是吃数据的黑洞。研究机构Epoch AI认为,对数据需求急剧增加，以至于可用于训练的高质量文本可能会在2026年耗尽。

过去一周，北京智源人工智能研究院副院长兼总工程师林咏华，被大模型降价的消息刷了屏。这位智源研究院的副院长兼总工程师、IBM中国研究院成立以来的首位女性院长认为，降价的压力，本质上是资源的压力，一方面来自模型训练，另一方面来自模型部署。

2021年，智源研究院就发布了中国首个、全球最大的万亿参数规模的模型“悟道2.0”。2022年加入智源后，林咏华对中国的AI资源和生态有了更为深刻的洞察和见解。

在主题为《大模型背后的数据与算力挑战》的演讲中，林咏华认为，AI背后最重要的资源是数据和算力，当下，中国AI行业需要解决的不仅仅是资源储备的问题，还有生态共建的问题，上下游需要以开源开放的心态建设生态。

“数据、算力，这里面有很多的问题，有很多事情需要解决，它是技术的基座，我们也希望通过开源开放跟大家一起共筑好基座。”她总结。

以下为林咏华演讲实录，经36氪编辑整理：

大家早上好，智源研究院除了应用不做，包括大模型算法、数据、评测、算力在内的各种问题，我们都探索、研究、突破，我们是实实在在的AI赋能者。

今天给大家带来的题目是《大模型背后的数据与算力挑战》。

人工智能大模型背后最重要的资源是：算法、数据、算力。近两年，各种开源算法，迭代不穷，算法资源不断涌现。相比起算法，我们看到用于训练的数据、算力已经成为大模型发展的资源瓶颈。

数据的问题有三个部分：数据的数量、数据的质量、及如何使用数据。

首先是数据的数量。现在全球的大模型背后都离不开一个数据集Common Crawl。得益于17年前一群志愿者，他们以公益的方式在全球不断爬取网页、积累数据，至今积累了超过2500多亿的网页，并以免费方式提供给全球研究和开发者使用。无论是OpenAI还是Meta，都是基于这个数据集进行语言模型训练。没有17年前开启的这个持续不断的数据集积累工作，今天的大模型不会发展这么快。除了网页文本数据，其它诸如图文、视频、书籍、代码等都是打造大模型很重要的“原材料”，但这些数据远远不够。尤其各个团队在今年纷纷开始多模态模型、文生视频模型的训练，就更需要高质量的图文对，和视频数据。此外，当前国外能够有的开源数据集，95%以上的都是英文内容，中文相关的数据非常少。

当我们考虑把通用模型落地行业，必需用该行业的大量知识来对通用模型进行持续训练。但这个行业的专业知识在哪里？行业知识的数据并不是指企业数据、业务数据，而是这个行业领域的大量书籍、文献等数据。针对行业的领域数据，当前也是十分分散和匮乏。

第二，数据质量问题。GPT-4o发布后，MIT Technology Review的文章指出，GPT-4o的分词器训练所用的中文数据大量充斥了中文垃圾网站的信息，例如该分词器模型中最长的100个中文词语中有超过90个来自垃圾网站。这在行业内引起关注，OpenAI训练GPT-4o用的中文语料质量堪忧。其实，在我们调研分析Common Crawl这一全球最大的数据集，也发现了该数据集的中文数据的类似质量问题。

除了数据集的内容质量问题，还会出现其它数据质量问题。例如，如果数据来源是一些扫描图片，OCR进行文字、尤其公式和图表转换，也存在识别质量的问题；当前用于跨模态学习的图文对、视频文字对则往往存在对图片或视频的文字描述质量低下等众多问题。若用于训练的数据集质量低，将会大大浪费算力，并且很大程度会影响模型的生成内容安全问题，因此质量是在数据里面十分重要的一点。

第三，数据使用问题。训练数据是用来让机器进行学习，而不是做内容的二次分发、给人类进行直接阅读和使用。在现有法律体系下，对于让机器进行“学习”的数据这一新型的使用方式，并没有相关的定义。大模型的开发需要使用高质量数据，如何平衡数据版权问题与高质量数据的“机器学习”使用？

面对数据的这几个问题，智源研究院一直希望能探索出一条让整个产业有更多高质量数据可使用的路。

首先，我们摸索出三种数据的共享使用方式，并实现在数据平台上。智源研究院联合全国数十家头部互联网企业、大模型企业、数据提供企业等，还有中央、北京市各方机构一起努力打造的。

这三种使用方式包括，一是完全开源下载，这对所有的开发者、科研工作者都是很重要的，对没有版权或者弱版权的数据我们做了大量的安全过滤、质量过滤，整理到开源网站上，目前有2.4T数据，这个事情我们将持续坚持做好。

二是鼓励更多的机构把数据贡献出来，在联盟内部进行共享，我们打造了积分共享机制，鼓励企业贡献数据，进行质量评定后，通过质量系数乘数据量，得到积分。贡献数据的企业可以用积分在高质量数据池中，选择另外一个企业在联盟内贡献的数据，打造“共建-共享”积分使用数据的互助模式。当前已经有近30家企业跟我们一起做这个事情。我们期待有更多企业能加入进来，跟我们一起“共建-共享”。

三是针对有版权要求的高质量数据，我们打造了“数算一体”的使用方式。高质量有版权的数据的处理、训练等都和算力平台在同一个安全域，严格保障数据的使用可控不出域。大模型团队可以在这个平台上使用这些数据，对数据进行二次加工，进行模型训练，训练完成后不能带走数据，但可以带走模型，让数据提供方减少对数据安全的担忧。

我们针对不同的数据情况，构建推广这三种不同的数据使用方式。希望帮助大模型产业尽快解决“数据难题”。没有好的高质量数据，无法做出更好的模型供用户使用。

除了数据的问题，我们这几天还被各个大模型企业的降价甚至免费的消息刷屏。这背后是算力成本的压力，一方面是部署的成本；另一方面是训练的成本。

我们今天面临的算力难题，是算力增长赶不上大模型对算力的需要。从去年到今年，英伟达，AMD、英特尔的单芯片算力增长基本达到2倍。但即便是2倍单芯片算力增长，依然赶不上模型参数量、训练数据量需要的算力增长。

而我们当前面临的挑战是AI算力建设不足，和国际相比国内单芯片算力还有差距，另外，现在国内各种AI芯片的生态是割裂的。各个芯片厂商的硬件架构、指令集、编译器、算子库等都不一样，导致上层算法的迁移成本十分高。如果算法开发团队遇到某个算子在目标芯片平台上缺失的话，或许要等待厂商开发好一段时间，将耽误整个开发周期。

我们面临AI芯片生态割裂的问题，是否可以参考已经发展了数十年的通用处理器CPU的生态构建方法？CPU有各种不同的架构和不同的指令集（包括x86、ARM、MIPS等）。GCC作为开源统一编译器，向下各个芯片厂商分别进行移植支持，上层的C/C++语言开发者只需要开发同一套C/C++语言的算法库或应用代码，而不需要考虑底层是什么芯片。通过GCC各个芯片版本的编译器，就可以编译得到目标芯片上面的二进制代码。

那我们在AI芯片领域，是否有这样的语言和开源的编译器呢？答案是有的。当前，开源领域有面向AI算子库开发的开源编程语言Triton，包括它的开源编译器。当前Triton已被英伟达、英特尔、AMD以及国内多个芯片厂商支持。

因此，以前是各个厂商需要打造自己的编译器、算子库，追赶不同的算法迭代。现在将变成另外一种生态模式，由开源社区打造统一的、各种AI算法的算子库，芯片厂商只需要移植和优化好Triton编译器。智源研究院联同多个团队、芯片厂商一起正在打造的基于Triton的通用算子库。

我们希望通过打造统一开源开放的软件生态，帮助多元AI芯片接入到各种框架、支撑各种AI应用。我们在6月2日会举行第一次Triton中国生态meetup，这对未来以更低成本使用算力有着重要意义。

今天给大家分享的是智源研究院为AI大模型赋能的两个资源，即数据、算力，我们希望通过开源开放和大家共筑技术基座，赋能AI大模型产业的发展。

北京智源人工智能研究院林咏华：大模型背后的数据与算力挑战 | 新质生产力·AI Partner大会