作者:王昕 来源:IT时报

2023年底,英特尔第五代英特尔至强可扩展处理器上市以来,已在阿里云、百度云等国内头部云计算公司得到广泛实践,并面向AI场景展现出高性能、低能耗等特性。

打开网易新闻 查看更多图片

面向AI,性能提升提升

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰介绍,与上一代英特尔至强可扩展处理器相比,第五代英特尔至强可扩展处理器在多项性能指标上都有很大提升。

第五代至强最多拥有64个核,可以通过和AI相关的新指令集,如AMX、AVX等来提高主频和性能,而这些性能的提升,对生成式AI应用有很大帮助。

例如,第五代至强在面向数据中心级的处理器中,拥有较高内存带宽,能达到5600MT/s。同时,三级缓存容量提升了三倍,数据处理在芯片内部就可以进行。

除了硬件提升之外,在软件生态上英特尔上传了300个以上的深度学习模型到社区,支持50个以上的基于机器学习的、且基于第五代至强优化过的模型,供开发者调用。同时,英特尔加大了对主流大模型、生成式AI模型框架,如PyTorch和TensorFlow等的投入,让使用PyTorch和TensorFlow开发可以无缝拓展至英特尔至强可扩展处理器上。

“第五代至强和第四代至强相比,在AI训练、实时推理、批量推理上,基于不同的算法,都可以看到不同性能的提升,最高可提升40%。”庄秉翰说,在近来火爆的生成式AI大模型领域中,第五代至强可以很好地满足要求,如聊天机器人、内容生成、写代码或搜索等,“使用大模型时一个最基本的要求是second token在100毫秒内生成,第五代至强可以在20几毫秒,或者是60~70毫秒完成。”

“文生图”、写代码都在行

在满足AI应用的同时,云计算和互联网公司非常重视实际应用中的性价比。

庄秉翰分析,性价比的重要评估方法之一是看能够同时支持多少客户的同时访问,“我们看到基于BF16或int8,分别在1个用户、2个用户、4个用户、8个用户时,第五代至强都可以满足100ms的硬需求。如果在int8的精度下,第五代至强甚至可以满足同时8个用户访问的服务需求,这是基于四节点的第五代至强服务器展示出的性能表现。”

另据庄秉翰介绍,第五代至强已在一些实际场景中有良好表现。例如,阿里云论证了基于第五代至强能够运行Llama2 70B参数的推理。这个结果在百度云上也得到的认证,实践证明使用第五代至强,在Llama2 70B参数的模型下,通过一个四节点的服务器,可以达到87.5毫秒的推理结果。在全盘考虑部署和运维成本等因素后,一般的企业导入基于至强的生成式AI服务,如聊天机器人、知识库问答等基础大模型应用时,比基于传统云服务的初期导入成本低一半左右。

现在,百度云基于第五代至强服务器提供了可以在CPU上运行的大模型计算服务。在京东基于第五代至强的应用中可以看到,和前一代的处理器相比,在Llama2 13B的模型上,有50%的性能提升。

在一些大模型通用型应用上,如会议纪要提取、大纲总结、内容分析、内容创作,尤其是最近很火的“文生图”、机器人聊天客服、代码撰写等生产力提升类应用中,使用通用算力,尤其是基于第五代至强的服务器的结果令人满意。据介绍,第五代至强的AI推理能力比上一代提升高达42%。

为了能效比“压榨”资源

云计算时代,服务提供者的挑战到底是什么?英特尔资深技术专家表示,在云计算时代,系统需要“压榨”资源,以效率为重。对于云厂商而言,真正的核心竞争力之一在于实际应用案例的性价比,其中的关键是效率和效能的提升。

到了AI时代,数据中心的耗电量极高,一台GPU服务器可达上万瓦的功率,如果未来国内建造越来越多的数据中心,那么可持续性便是一大挑战。眼下数据中心的成本中,电费已经占据了很大一块。

如何提升能效?英特尔资深技术专家表示,一是为前端客户提供智能,二是芯片自身的底层设施智能化。例如,前端1000个并发同时访问一个指标,最简单的就是每一次访问底层算一次,如果这个指标一分钟更新一次,我们就算一次,缓存在内存里,999个请求不需要计算了,因为1000个并发只算1次,这是最简单的方式,磁盘运行得再快,也不如直接不访问,“所以可持续性和AI是结合在一起的”。

另外,从Intel 7工艺,到微架构,不管是内置加速器,还是IPU、TPU等,都称之为“软件定义硬件加速”。在硬件的基础上,英特尔还有很多函数库等,能够将硬件能力极大地发挥出来。英特尔在云计算时代在虚拟化技术上投入了“重兵”,提升了虚拟化效率同时,也减少了对底层硬件的损耗。

2024将陆续发布丰富产品组合

庄秉翰透露,2024年,英特尔将继续发布新一代英特尔至强可扩展处理器,而且有非常丰富的产品组合,同时满足性能的要求和社会对能耗的要求。基于现在的第五代至强,英特尔也会发布下一代的性能核,就是高主频、高性能的CPU核架构,为主流和复杂的数据中心的应用进行性能优化。同时,对新兴的,尤其是基于云原生的设计,英特尔提供能效核,每瓦性能可以做到相对极致,而且因为它的核比较精简,可以放更多高密度的核数到每一款的CPU和服务器,支持面向云的高密度超高能效的运算进行能效的优化。

“在近期对于产品淘汰换新的要求中,有一个重要考量因素就是能效比,而我们在今年推出的能效核,也是符合国家对设备淘汰换新的要求。这几款产品在今年都会陆续发布,请大家拭目以待。”庄秉翰说。