谷歌首次展示新版语言模型BERT，参数达4810亿个

近日，机器学习开放组织 MLCommons 发布了 MLPerf 训练基准（v1.1）的结果。

MLPerf 训练是一个完整的系统基准测试，用于测试机器学习模型、软硬件等。上一轮 MLPerf 训练基准（v1.0）发布于 5 个月前，与之相比，本次最佳基准测试结果提高了 2.3 倍，在软硬件和系统规模方面都有了实质性的改进。

（来源：MLCommons）

MLPerf 训练基准的内容由封闭式和开放式两个部分组成。开放式区别于封闭式的地方是，开放式的参与者可以提交各种模型，而封闭式为确保一个相对公平的竞争环境，只允许提交相同的参考模型。

值得一提的是，谷歌在本次基准测试的开放式部分提交了之前从未公开过的新版 BERT 自然语言程序。

新的 BERT 程序规模比通行的 BERT 标准版本大了 3 个数量级，神经网络参数达到 4810 亿个，而标准版 BERT 只有 3.4 亿个参数。更多的参数通常意味着需要更多的计算能力。

据了解，为了得到更大的 BERT 模型，谷歌使用的计算机搭载了 2048 个 TPU（Tensor Processing Unit）芯片。与英伟达的 GPU 不同，TPU 是谷歌针对机器学习专门定制的芯片。此“2048-TPU 系统”目前可以通过谷歌云服务获得。

图 | MLPerf 训练基准（v1.1）开放式结果（来源：MLCommons）

谷歌表示，这一新颖的语言模型反映了 AI 规模日益增长的重要性。

谷歌还说，其能够以 63% 的效率运行庞大的 BERT 模型，这比英伟达和微软共同开发的 Megatron-Turing 语言模型 52% 的效率要好。该效率是通过相对于理论容量每秒执行的浮点运算数量来衡量的。

构建越大的 AI 深度学习程序，越需要使用更多的 GPU 芯片或新型加速器芯片。研究人员认为，程序的准确性随着 AI 规模的增加而增加。

谷歌机器学习基础设施负责人阿鲁沙·塞尔万（Aarush Selvan）说：“我们一直在确保向 MLPerf 提交的文件与自身内部需求以及机器学习行业的需求完全一致。培训 AI 大模型在谷歌内部变得越来越重要。其是我们研究和生产的一大重点，也是我们的云客户所关注的重点。”

塞尔万还说道，AI 大模型有着成百上千亿个，甚至超过万亿的参数。在 MLPerf 竞赛中有某种大型基准是非常有好处的，MLCommons 应该考虑更多的大模型来衡量大规模培训的表现，像 ResNet-50 这样较老、较小的网络“只能给我们提供一个代理”。

MLCommons 的执行董事大卫·坎特（David Kanter）对此表示，大模型的建立需要所有成员共同决定。他同时指出，使用小型神经网络作为测试，能够让更多的成员参与竞争。这有助于为整个社区生产更多有价值的工程产品，并帮助推动行业不断向前发展。

“基准的关键是要公平和有代表性，而且也得考虑到经营者的承受能力，不能让其破产。从理论上讲，我们可以把 GPT-3 作为 MLPerf 基准，但培训 GPT-3 相当昂贵，需要数千万美元。”坎特补充说。据悉，GPT-3 是 OpenAI 在 2020 年推出的有着 1750 亿参数的自然语言模型。

此外，MLPerf 标准测试的代码对每个人都是开放的，任何 AI 研究人员都可以复制测试结果进行重新验证。

谷歌今年早些时候在高度并行化神经网络方面做了一定研究，其中概述的设计与本次展示的巨型 BERT 模型类似。该公司认为，巨型 BERT 模型经过训练，可以产生更具准确性的结果。

在封闭式部分测试中，谷歌使用了较小的 BERT 模型。同时，为了达到与其他供应商在封闭式部分相同的准确性，谷歌还使用了较少的文本数据样本。封闭式部分要求一个程序训练近 5 亿个令牌序列，每个序列的长度大多为 128 个令牌。谷歌的程序只使用了大约 2000 万个令牌序列，每个序列长度为 512 个令牌。

塞尔万说，谷歌打算在未来继续提交 MLPerf 的封闭式部分基准。“明年或许将看到所有人回到封闭式赛区，虽然不能保证，但我们计划那样做。”他说。

图 | 机器学习（来源：Pixabay）

整体来看，MLPerf 训练基准（v1.1）的结果进一步推动了 MLCommons 的目标，即通过比较机器学习系统、软件和解决方案，提供基准和指标，使行业竞争环境更加公平。

“通过对体系结构、系统规模、软件、模型划分等方面的优化，”坎特说，“供应商正设法加速神经网络的性能，其速度比摩尔定律的历史轨迹快 11 倍。”

据了解，本次的基准测试共有 14 个组织参与，包括微软 Azure、百度、戴尔、富士通、技嘉、谷歌、Graphcore、HabanaLabs、HPE、浪潮、联想、英伟达、三星和超微，发布的同行评审结果数量超过 185 个。

MLCommons 与其合作伙伴，包括全球技术提供商、学者和研究人员，通过各种方式为整个机器学习行业构建工具。

“回顾 2018 年的第一轮 MLPerf 训练，我们一些基准的性能提高了 30 倍，”坎特说，“这种性能的快速增长将激发出新的机器学习创新，最终使社会受益。”

-End-

参考：
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/
https://mlcommons.org/en/news/mlperf-training-v11/

谷歌首次展示新版语言模型BERT，参数达4810亿个

官方回应社保缴满15年就坐等退休

大V断定：只要中国拿下芯片中低端产业，就可以把欧美日都饿死！

热火掀翻凯尔特人希罗24+5+14双探花空砍61分

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

很多地方把“为人民服务”变成“为大局服务”，这两者有啥区别？

“穷鬼套餐”席卷餐饮业？连米其林都下场分一杯羹了

上海这些业主操碎心：小区交房不到半年，开出50多家民宿！只因地理位置极佳？

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

19连跌！沪牌竞拍人数逐月下降，原因何在？

美国学者：无论存在何种分歧，中美之间都有必要保持沟通

被特斯拉毁约应届生发声：协议违约金是0元，对方给了一个月底薪

美太空司令：中国利用太空能力提高地面部队的杀伤力

村支书往麦田排放污水抱着手怼村民:我也想火一把

“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养？相关部门回应：2016年前确有专项招录

雷军王传福共探比亚迪展台，现场群众激动大喊：雷总干掉特斯拉

神舟十八号载人飞船发射取得圆满成功

站着死！孙铭徽20中6却造15罚15中轰27分最高难阻广厦出局

外卖小哥路边吃盒饭被三名穿马甲工作人员指责影响市容

华南师大文学院要求手抄毕业论文引学生不满，院方称考核师范生书写能力

文旅订单大增，北京领衔“五一”热门目的地

谷歌首次展示新版语言模型BERT，参数达4810亿个

官方回应社保缴满15年就坐等退休

大V断定：只要中国拿下芯片中低端产业，就可以把欧美日都饿死！

热火掀翻凯尔特人 希罗24+5+14双探花空砍61分

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

很多地方把“为人民服务”变成“为大局服务”，这两者有啥区别？

“穷鬼套餐”席卷餐饮业？连米其林都下场分一杯羹了

上海这些业主操碎心：小区交房不到半年，开出50多家民宿！只因地理位置极佳？

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

19连跌！沪牌竞拍人数逐月下降，原因何在？

美国学者：无论存在何种分歧，中美之间都有必要保持沟通

被特斯拉毁约应届生发声：协议违约金是0元，对方给了一个月底薪

美太空司令：中国利用太空能力提高地面部队的杀伤力

村支书往麦田排放污水 抱着手怼村民:我也想火一把

“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养？相关部门回应：2016年前确有专项招录

雷军王传福共探比亚迪展台，现场群众激动大喊：雷总干掉特斯拉

神舟十八号载人飞船发射取得圆满成功

站着死！孙铭徽20中6却造15罚15中 轰27分最高难阻广厦出局

外卖小哥路边吃盒饭 被三名穿马甲工作人员指责影响市容

华南师大文学院要求手抄毕业论文引学生不满，院方称考核师范生书写能力

文旅订单大增，北京领衔“五一”热门目的地

热火掀翻凯尔特人希罗24+5+14双探花空砍61分

村支书往麦田排放污水抱着手怼村民:我也想火一把

站着死！孙铭徽20中6却造15罚15中轰27分最高难阻广厦出局

外卖小哥路边吃盒饭被三名穿马甲工作人员指责影响市容