在英特尔Vision大会上,Habana Labs团队推出了两款主要的新产品:Gaudi深度学习训练处理器的第二代Gaudi2;以及Goya深度学习推理处理器的继承者Greco。英特尔表示,与前代处理器和竞争对手相比,新款处理器提供了显著的加速。Habana的客户现在可以使用Gaudi2处理器,而Greco将在今年下半年供选择。

打开网易新闻 查看更多图片

HabanaLabs成立于2016年,旨在打造世界级的人工智能处理器,仅仅三年后就被英特尔以20亿美元的天价收购。上述第一代Goya推理处理器是在2018年首次亮相,而第一代Gaudi训练处理器是在英特尔收购Gaudi之前的2019年推出。

新产品标志着现在成为英特尔团队的一个重要里程碑,在过去几年里,Gaudi和 Greco已经以各种形式出现,这是自收购Habana实验室以来发布的第一批新处理器。

Gaudi2和Greco都实现了从16nm工艺到7nm工艺的飞跃(都是台积电制造)。以Gaudi2为例,第一代Gaudi训练处理器中的10个张量处理器核心已经增加到24个,封装内的内存容量从32GB (HBM2)增加到96GB (HBM2E),板载SRAM从24MB增加到48MB,增加了一倍。Habana Labs首席运营官Eitan Medina在谈到Gaudi2的HBM2E时说:“这是第一个也是唯一一个集成了如此大容量内存的加速器。”Medina表示,该处理器的TDP(热设计功耗)为600W(Gaudi的TDP为350W),但仍采用被动冷却,不需要液体冷却。

英特尔将其前身Gaudi2与其竞争对手在一些热门任务上进行了一些比较。例如,在ResNet-50上,Gaudi2的输出是Gaudi的3.2倍,是80GB Nvidia A100的1.9倍,是Nvidia V100的4.1倍。在其他一些基准测试中,Gaudi和80GB A100之间的差距甚至更加明显:在BERT第二阶段的训练吞吐量方面,Gaudi-2比80GB A100高出2.8倍。Medina解释说:“与V100和A100进行比较是很重要的,因为两者实际上都在云计算和云端上大量使用。”

打开网易新闻 查看更多图片

——图片源自英特尔

有趣的是,Gaudi2还增加了对FP8的支持,以“为非常大的模型提供更快的训练和更好的内存利用。”今年3月,英伟达(Nvidia)的Hopper发布会上也出现了FP8,特斯拉内部的超级计算机支持CFP8。

现在Habana客户可以使用Gaudi2,它以夹层卡形式提供,并作为HLS-Gaudi2服务器的一部分,用于支持客户对Gaudi2的评估。

该服务器配备了8张Gaudi2卡和一个双插座Intel Xeon子系统。在更实质性的部署方面,Habana正与Supermicro合作,于2022年下半年将配备Gaudi2的训练服务器推向市场,并与DDN合作,开发一款配备DDN人工智能存储的Gaudi训练服务器变体。此外,1000台Gaudi2已经部署到Habana在以色列的数据中心,用于软件优化和推进Gaudi3处理器的开发。

接下来是Greco, Goya推理处理器的继承者。Medina说:“将同样高效的Greco技术应用到7nm,本质上是在做我们用Gaudi2所做的事情。我们已经将卡内存储从DDR4提升到了LPDDR5,基本上获得了5倍的带宽,同时芯片内存储也从50MB提升到了128MB。”

Greco从双槽型变为单槽型,TDP从200W降至75W。Medina说:“紧凑的外形将允许用户在同一主机系统中实际增加一倍的加速器数量。”除此之外,英特尔并没有透露Greco的很多细节,Greco预计将在今年下半年上市,而Gaudi2则透露了很多细节。

——左为双槽 Greco卡,右为单槽Greco卡。

Gaudi2和Greco是日益激烈的人工智能加速器军备竞赛中的最新成员,激烈的竞争不仅来自Nvidia的GPU,还来自其他专业加速器,如Cerebras、Graphcore和SambaNova。

当然,英特尔将其Habana产品与英伟达(Nvidia)的产品进行比较时,并不包括与英伟达(Nvidia)即将推出的H100 GPU的比较,后者承诺要比A100更快,预计将于2022年第三季度上市。Habana甚至还面临着来自英特尔(Intel)即将推出的Ponte Vecchio图形处理器(GPU)等产品的内部竞争,后者也被宣传为用于人工智能工作负载的高性能加速器。