“文生图”、写代码英特尔第五代至强让大模型“性价比”更高

作者：王昕来源：IT时报

2023年底，英特尔第五代英特尔至强可扩展处理器上市以来，已在阿里云、百度云等国内头部云计算公司得到广泛实践，并面向AI场景展现出高性能、低能耗等特性。

面向AI，性能提升提升

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰介绍，与上一代英特尔至强可扩展处理器相比，第五代英特尔至强可扩展处理器在多项性能指标上都有很大提升。

第五代至强最多拥有64个核，可以通过和AI相关的新指令集，如AMX、AVX等来提高主频和性能，而这些性能的提升，对生成式AI应用有很大帮助。

例如，第五代至强在面向数据中心级的处理器中，拥有较高内存带宽，能达到5600MT/s。同时，三级缓存容量提升了三倍，数据处理在芯片内部就可以进行。

除了硬件提升之外，在软件生态上英特尔上传了300个以上的深度学习模型到社区，支持50个以上的基于机器学习的、且基于第五代至强优化过的模型，供开发者调用。同时，英特尔加大了对主流大模型、生成式AI模型框架，如PyTorch和TensorFlow等的投入，让使用PyTorch和TensorFlow开发可以无缝拓展至英特尔至强可扩展处理器上。

“第五代至强和第四代至强相比，在AI训练、实时推理、批量推理上，基于不同的算法，都可以看到不同性能的提升，最高可提升40%。”庄秉翰说，在近来火爆的生成式AI大模型领域中，第五代至强可以很好地满足要求，如聊天机器人、内容生成、写代码或搜索等，“使用大模型时一个最基本的要求是second token在100毫秒内生成，第五代至强可以在20几毫秒，或者是60～70毫秒完成。”

“文生图”、写代码都在行

在满足AI应用的同时，云计算和互联网公司非常重视实际应用中的性价比。

庄秉翰分析，性价比的重要评估方法之一是看能够同时支持多少客户的同时访问，“我们看到基于BF16或int8，分别在1个用户、2个用户、4个用户、8个用户时，第五代至强都可以满足100ms的硬需求。如果在int8的精度下，第五代至强甚至可以满足同时8个用户访问的服务需求，这是基于四节点的第五代至强服务器展示出的性能表现。”

另据庄秉翰介绍，第五代至强已在一些实际场景中有良好表现。例如，阿里云论证了基于第五代至强能够运行Llama2 70B参数的推理。这个结果在百度云上也得到的认证，实践证明使用第五代至强，在Llama2 70B参数的模型下，通过一个四节点的服务器，可以达到87.5毫秒的推理结果。在全盘考虑部署和运维成本等因素后，一般的企业导入基于至强的生成式AI服务，如聊天机器人、知识库问答等基础大模型应用时，比基于传统云服务的初期导入成本低一半左右。

现在，百度云基于第五代至强服务器提供了可以在CPU上运行的大模型计算服务。在京东基于第五代至强的应用中可以看到，和前一代的处理器相比，在Llama2 13B的模型上，有50%的性能提升。

在一些大模型通用型应用上，如会议纪要提取、大纲总结、内容分析、内容创作，尤其是最近很火的“文生图”、机器人聊天客服、代码撰写等生产力提升类应用中，使用通用算力，尤其是基于第五代至强的服务器的结果令人满意。据介绍，第五代至强的AI推理能力比上一代提升高达42%。

为了能效比“压榨”资源

云计算时代，服务提供者的挑战到底是什么？英特尔资深技术专家表示，在云计算时代，系统需要“压榨”资源，以效率为重。对于云厂商而言，真正的核心竞争力之一在于实际应用案例的性价比，其中的关键是效率和效能的提升。

到了AI时代，数据中心的耗电量极高，一台GPU服务器可达上万瓦的功率，如果未来国内建造越来越多的数据中心，那么可持续性便是一大挑战。眼下数据中心的成本中，电费已经占据了很大一块。

如何提升能效？英特尔资深技术专家表示，一是为前端客户提供智能，二是芯片自身的底层设施智能化。例如，前端1000个并发同时访问一个指标，最简单的就是每一次访问底层算一次，如果这个指标一分钟更新一次，我们就算一次，缓存在内存里，999个请求不需要计算了，因为1000个并发只算1次，这是最简单的方式，磁盘运行得再快，也不如直接不访问，“所以可持续性和AI是结合在一起的”。

另外，从Intel 7工艺，到微架构，不管是内置加速器，还是IPU、TPU等，都称之为“软件定义硬件加速”。在硬件的基础上，英特尔还有很多函数库等，能够将硬件能力极大地发挥出来。英特尔在云计算时代在虚拟化技术上投入了“重兵”，提升了虚拟化效率同时，也减少了对底层硬件的损耗。

2024将陆续发布丰富产品组合

庄秉翰透露，2024年，英特尔将继续发布新一代英特尔至强可扩展处理器，而且有非常丰富的产品组合，同时满足性能的要求和社会对能耗的要求。基于现在的第五代至强，英特尔也会发布下一代的性能核，就是高主频、高性能的CPU核架构，为主流和复杂的数据中心的应用进行性能优化。同时，对新兴的，尤其是基于云原生的设计，英特尔提供能效核，每瓦性能可以做到相对极致，而且因为它的核比较精简，可以放更多高密度的核数到每一款的CPU和服务器，支持面向云的高密度超高能效的运算进行能效的优化。

“在近期对于产品淘汰换新的要求中，有一个重要考量因素就是能效比，而我们在今年推出的能效核，也是符合国家对设备淘汰换新的要求。这几款产品在今年都会陆续发布，请大家拭目以待。”庄秉翰说。

“文生图”、写代码英特尔第五代至强让大模型“性价比”更高

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

“离谱的AI扩图”火了！张张那叫一个出其不意

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Mamba架构第一次做大！混合Transformer，打败Transformer

从高耗到高效，未来算力的绿色进化论

《哈迪斯2》最低配置要求：GTX 950即可运行

《地狱之刃2》PC版超宽屏截图最低配置1070

心酸！网传太原一父亲为女儿买不起苹果手机下跪，这世界怎么了？

特朗普暗示台湾，民进党慌了，解放军要给赖清德就职“送大礼”？

侄女问我要一万块的苹果电脑，我不同意，嫂子让我以后别回娘家了

直播粉丝福利价？这样的PC装机骗局别上当！

高盛预测2075年世界格局，意图很明显，就指望给印度戴高帽了

出乎意料！美大选提前结束，下任总统已定？特朗普彻底没戏了

AI芯片、晶圆代工双战线反击，英特尔能否王者归来？

外交发言频繁使用“甩锅”，真的合适吗？

华子43+7森林狼掀翻掘金1-0 约基奇32+8+9

这个扭秧歌的华人大叔，干了家10万亿公司

Unity 6 预览版发布，引入支持 Windows on ARM

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

“文生图”、写代码 英特尔第五代至强让大模型“性价比”更高

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

“离谱的AI扩图”火了！张张那叫一个出其不意

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Mamba架构第一次做大！混合Transformer，打败Transformer

从高耗到高效，未来算力的绿色进化论

《哈迪斯2》最低配置要求：GTX 950即可运行

《地狱之刃2》PC版超宽屏截图 最低配置1070

心酸！网传太原一父亲为女儿买不起苹果手机下跪，这世界怎么了？

特朗普暗示台湾，民进党慌了，解放军要给赖清德就职“送大礼”？

侄女问我要一万块的苹果电脑，我不同意，嫂子让我以后别回娘家了

直播粉丝福利价？这样的PC装机骗局别上当！

高盛预测2075年世界格局，意图很明显，就指望给印度戴高帽了

出乎意料！美大选提前结束，下任总统已定？特朗普彻底没戏了

AI芯片、晶圆代工双战线反击，英特尔能否王者归来？

外交发言频繁使用“甩锅”，真的合适吗？

华子43+7森林狼掀翻掘金1-0 约基奇32+8+9

这个扭秧歌的华人大叔，干了家10万亿公司

Unity 6 预览版发布，引入支持 Windows on ARM

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

“文生图”、写代码英特尔第五代至强让大模型“性价比”更高

《地狱之刃2》PC版超宽屏截图最低配置1070

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了