英伟达和微软共同合作，训练出目前世界上最强大的语言模型之一

10 月 11 日，英伟达公司和微软公司宣布了他们共同开发的全世界迄今为止所训练的最大、功能最强的单片转换器语言模型，这一语言模型是一个拥有高达 5300 亿个参数的 AI 模型，称为 Megatron-Turing 自然语言生成模型，简称为 MT-NLG（Megatron-Turing Natural Language Generation model）。

相比这两家公司之前分别各自开发训练的也是基于转换器的系统，也就是微软公司的 Turing-NLG 模型和英伟达公司的 Megatron-LM。这次两公司共同开发的 MT-NLG 模型功能强大了许多。MT-NLG 有着分布在 105 层的较之前三倍多的参数，整个系统更大更复杂。参考一下其他公司的最新的 AI 模型进行对比，可以更直观地了解 MT-NLG 的复杂度：OpenAI 的 GPT-3 模型有着 1750 亿个参数。

图 | 几个著名的自然语言模型的参数数量的对比（来源：英伟达网站）

在机器学习中，参数是从之前的历史训练数据中所学习到的模型部分。尤其是在语言处理领域，参数的数量和复杂程度之间的相关性很高。对于神经网络而言，一般来说，参数越多，系统越复杂通常意味着功能越强大，因为这样系统在训练过程中将会获得更多的训练数据，系统对于语言的理解也会随之更加丰富、细致和准确，甚至获得总结书籍以及完整编程写代码的能力。

与英伟达和微软之前各自的系统相比，MT-NLG 的优点在于更加擅长各种自然语言任务，例如自动完成句子、问答、阅读和推理、词义消岐等。更重要的是，它甚至还可以在几乎不需要事先微调的前提下就执行上面所说的这些任务，这也被称为少样本或零样本学习。

然而，语言模型变得越来越大所带来的除了更强大的功能，还给开发人员带来了难题：模型越大，训练也更困难，尤其是 MT-NLG 的模型以及数据的训练，必须同时跨多个芯片来存储和处理，因此人工智能研究员和工程师也必须想出各种技术和技巧来训练它们，并进行调整。

这次 MT-NLG 使用了英伟达的 Selene 超级计算机进行训练，该系统由 560 个 DGX A100 服务器组成，每个服务器包含 8 个 A100 GPU。

以上所有这数千个 GPU 都使用 NVLink 和 NVSwitch 相互连接，每个 GPU 都能够以每秒 113 万亿次浮点运算的速度运行，训练这些模型的成本非常高。在这里，英伟达和微软的工程师使用了微软的 DeepSpeed 深度学习库，它包含 PyTorch 代码，允许工程师在多个管道中并行填充更多数据。

通过英伟达 Megatron-LM 和微软 DeepSpeed 的合作，工程师们创建了一个不仅高效而且可扩展的 3D 并行系统，它结合了数据、管道和基于张量切片的并行性，从而能更好地应对大型模型带来的挑战。

英伟达公司加速计算产品管理和营销高级总监帕雷什·卡利亚（Paresh Kharya）和微软集团项目经理阿里·阿尔维（Ali Alvi）在博客文章中写道：“通过将张量切片和管道的并行性相结合，我们可以在最有效的情况下运行它们。具体来说，这一系统使用了英伟达 Megatron-LM 的张量切片来扩展节点内的模型，并使用了微软 DeepSpeed 的管道并行性来跨节点扩展模型。”

（来源：Pixabay）

举例来说，对于有着 5300 亿个参数的模型，每个模型副本跨越了 280 个英伟达 A100 GPU，在一个节点内具有 8 路张量切片和跨节点的 35 路管道并行性。接着，使用 DeepSpeed 的数据并行性进一步扩展到数千个 GPU。

为了训练 MT-NLG，微软和英伟达专门创建了一个训练数据集，这一数据集主要来自 The Pile，数据集中包含了来自英语网站的 2700 亿个令牌。令牌在自然语言中是一种将文本片段分成更小的单元的方法，它可以是单词、字符或单词的一部分。与所有 AI 模型一样，MG-NLP 必须通过得到一系列示例来获得“训练”，从而学习数据点之间的各种模式，例如语法和句法规则。

MT-NLG 的训练数据集的主要来源 The Pile，是一个由开源 AI 研究机构 EleutherAI 所创建的总共 835GB 大小的 22 个较小数据集的集合。The Pile 中的 835GB 文本包含互联网上的各类资源，从百科到学术期刊存储库，新闻剪报到代码存储库等等。

在为 MG-NLG 进行基准测试时，微软称当进行数学有关任务时，即使有些符号 “被严重混淆”，MG-NLG 也可以推断出基本的数学运算。而且系统不仅会完成普通的对算术的记忆的任务，还会主动完成那些题目中提示要求进行回答的任务，虽然 MT-NLG 还没有达到特别准确的程度，但这已经是自然语言处理中的一项很大的挑战。

帕雷什·卡利亚和阿里·阿尔维在博客中写道：“这次在 MT-NLG 中所达成的质量和结果，是将 AI 的最大潜力应用于自然语言中所迈出的一大步。这次开发过程中 DeepSpeed 和 Megatron-LM 的创新不仅使得 AI 模型开发更强大，更使得大型 AI 模型的训练成本更低、速度更快。我们十分期待 MT-NLG 将进一步塑造未来的产品，并与开发者共同探索扩大自然语言处理（NLP）的界限。”

-End-

英伟达和微软共同合作，训练出目前世界上最强大的语言模型之一

租户将车停自家院子要交“资源占用费”？村民打“12345”讨说法

朝鲜首次宣布“配给制崩溃”，这意味着什么？

掘金2-2森林狼进天王山约基奇35+7+7华子44分

1万亿超长期特别国债本周开始发行期限最长50年

中汽协回应特斯拉通过数据安全测试

比亚迪回应漏电脑出血事件：我们只看到了他想让你们看到的一面

贵州一景点门票9999元，景区：科考价值高，每年只允许200人入洞

新加坡总理李显龙向总统尚达曼提交辞呈

抖音官宣，禁止发布这些内容！

张维为坚定认为：中国的4亿中产阶层到美国去，也会是中产阶层，且会更富裕！

看完这份通报，才真的让我害怕

外交部：中方期待巴勒斯坦早日成为联合国正式会员国

用户称“一觉醒来突然收到滴滴天价订单”，滴滴致歉

教育部：拟同意设置河南体育学院等9所学校

俄罗斯公布新一届政府名单，经济专家任防长背后有何考量？

某上市公司董事长：退市是好事值得庆贺！再也不用提心吊胆编数据

黄岩岛航拍首次披露

乌军战报炸裂，单日毙敌1740人，刷新历史记录！

司法部清理不平等对待企业法律法规征集问题线索

成都市公安局回应“放宽购房入户”呼声：将加快推进户籍制度改革

英伟达和微软共同合作，训练出目前世界上最强大的语言模型之一

租户将车停自家院子要交“资源占用费”？村民打“12345”讨说法

朝鲜首次宣布“配给制崩溃”，这意味着什么？

掘金2-2森林狼进天王山 约基奇35+7+7华子44分

1万亿超长期特别国债本周开始发行 期限最长50年

中汽协回应特斯拉通过数据安全测试

比亚迪回应漏电脑出血事件：我们只看到了他想让你们看到的一面

贵州一景点门票9999元，景区：科考价值高，每年只允许200人入洞

新加坡总理李显龙向总统尚达曼提交辞呈

抖音官宣，禁止发布这些内容！

张维为坚定认为：中国的4亿中产阶层到美国去，也会是中产阶层，且会更富裕！

看完这份通报，才真的让我害怕

外交部：中方期待巴勒斯坦早日成为联合国正式会员国

用户称“一觉醒来突然收到滴滴天价订单”，滴滴致歉

教育部：拟同意设置河南体育学院等9所学校

俄罗斯公布新一届政府名单，经济专家任防长背后有何考量？

某上市公司董事长：退市是好事值得庆贺！再也不用提心吊胆编数据

黄岩岛航拍首次披露

乌军战报炸裂，单日毙敌1740人，刷新历史记录！

司法部清理不平等对待企业法律法规 征集问题线索

成都市公安局回应“放宽购房入户”呼声：将加快推进户籍制度改革

掘金2-2森林狼进天王山约基奇35+7+7华子44分

1万亿超长期特别国债本周开始发行期限最长50年

司法部清理不平等对待企业法律法规征集问题线索