我们正在进入AI(人工智能)时代,以大语言模型为代表的AI技术的加速普及,使得训练和推理的算力需求大增。

国内市场,智算中心的建设如火如荼。知名研究机构IDC预测,到2027年,中国生成式AI的投资规模将超过130亿美元,五年复合增长率高达86.2%。

不过,就在智算中心迅猛发展的同时,一些突出的矛盾也正在凸显出来。根据老冀的观察,主要有以下两大矛盾:

1.算力需求高速增长与投资硬约束的矛盾。如今,AIGC(生成式人工智能)仍在大发展,对于AI算力的需求还在高速增长,这就使得智算中心的算力规模要比传统数据中心至少高出一个数量级,这也意味着芯片、服务器以及各种配套成本都会显著上升。另一方面,客户用于建设智算中心的资金、场地、人工往往都存在预算硬约束。如何在满足现实预算硬约束的条件下,建设面向未来的智算中心,这是一个“既要又要”的大难题。

2.高能耗与绿色低碳之间的矛盾。智算中心算力规模的急剧膨胀,使得其对电力、水等诸多资源的消耗也出现了高速增长;而资源的消耗,也会增加碳排放。 随着“双碳”可持续发展目标的提出,客户在建设智算中心的同时,还要遵循绿色低碳的诸多要求。如何平衡巨量能源消耗与绿色发展的矛盾,同样也是一大难题。

如何才能破解这两大矛盾?作为算力基础设施供应商的浪潮信息,适时推出了42kW智算风冷算力仓解决方案,并成功在西南某智算中心投入运营,从而提供了解决两大矛盾的钥匙。下面,老冀就给大家具体分析一下浪潮信息的这套解决方案。

打开网易新闻 查看更多图片

省钱省地背后的秘密

如何解决算力需求高速增长与投资硬约束的矛盾?42kW智算风冷算力仓给出的答案,就是“高密度部署”

在很多人的印象中,风冷数据中心的单机柜功率只有3~7kW,不可能满足客户对超大规模算力的需求。难不成,漫山遍野全都建成智算中心?

实际上,业界已经在尝试高密度部署的风冷智算中心,一般能做到单机柜功率20kW左右。而如今,浪潮信息创新发布的42kW智算风冷算力仓,功率密度在现有高密方案的基础上直接翻倍,单机柜可部署AI服务器的数量是传统风冷机柜的8-10倍以上,这也意味着同样的占地面积,可以部署的算力规模是原来的8-10倍以上。

由此,42kW智算风冷算力仓在输出超高密度算力、挑战风冷极限的同时,相比传统数据中心,大幅减少了机柜数量和空调数量,减少了40%的模块部署量和60%的建设用地,从而大大节约了智算中心的建设成本。

下面,咱们具体可以通过计算实例,把采用42kW智算风冷算力仓的智算中心,与现阶段高密度风冷数据中心的投资成本做个对比:

以某小型智算中心为例。为了满足AI算力的需求,需要部署32台AI服务器,目前单台AI风冷服务器的功耗约为10.5kW。如果采用与现阶段高密度风冷数据中心一致的规格进行部署,单机柜一般能支持20kW左右,这样就需要16台机柜、4台配电柜、8台空调。而采用42kW智算风冷算力仓呢?仅需部署8台机柜、8台空调,节省了50%的柜位。

与此同时,机柜的减少,也减少了IB线缆之间的互联距离,预计能够节约50% IB线缆成本。

综合算下来,如果采用42kW智算风冷算力仓建设智算中心,基础设施初期投资可节省将近100万元;智算中心投入运营之后,每年还能够节约超过120万元的电费,大幅降低了智算中心的总体投资成本。

此外,节约下来的还有时间成本。由于42kW智算风冷算力仓采用了模块化设计与预制化安装,例如出厂集成冷热通道门,无需施工搭建传统风冷通道件等,从而将智算中心的建设工期从14天缩减至5天,同时还采用了AIStation管理软件节省调试时间,做到上电即上线,使智算中心尽快具备业务使用要求,实现快速部署上线。

当客户对高密部署和快速投运有广泛需求,而又受到场地、设备、成本等限制,并不具备液冷的部署条件时,42kW智算风冷算力仓就是最佳的、且经过大规模实践验证的高密风冷智算中心解决方案。

创新技术打造绿色低碳

紧接着,智算中心的高能耗与绿色低碳之间的矛盾,又如何解决?浪潮信息的42kW智算风冷算力仓同样拿出了一整套创新的解决方案:

一、创新散热及供电设计

为解决高密部署带来的散热难题,同时降低能耗,浪潮信息对智算中心散热及供电进行创新设计。一方面,采用封闭冷热通道,从而缩短了送风距离,避免传统大空间弥漫式送风导致的风量处理不集中及冷量散失问题,实现冷量100%利用。与此同时,还采用了机柜内外缝隙全密封式设计,可避免冷、热气流短路及热风倒灌问题,实现算力仓外“0”噪音。

另一方面,由于高密机柜与列间空调采用配比接近1:1的间隔布局,假如端部空调故障会导致风量分配不均,超高功率密度部署风冷散热不均衡,极易出现局部热点。为解决相关问题,算力仓专门针对空调的布局做了全新的设计和优化,以使气流组织达到最佳状态。在这里,浪潮信息设计了一套独创的空调双群控策略,它能够根据冷热通道布局的温湿度传感器数据变化,嵌套两组轮巡调控算法,实时调节空调送风模式,可完全避免因单台空调设备故障或轮巡休眠出现的局部热点问题,在提升系统的可靠性的同时提升能效水平。

此外,42kW智算风冷算力仓的列间空调还采用了高温进水模式,与冷热通道全密封结合起来,相比传统风冷数据中心,制冷系统能效比有效提升10%以上。

同时,为实现高效供电,浪潮信息还对智算中心的供配电系统进行了创新设计,采用了中压配电+变压器+滤波补偿+高效UPS+末端智能母线的全供电链路一体设计,实现兆瓦级一体解决方案,供电效率大幅提升,降低电能损耗30%以上。

打开网易新闻 查看更多图片

由于采用了这一系列的创新设计,42kW智算风冷算力仓可将智算中心风冷散热的PUE降到1.25以下,远低于传统风冷数据中心。

而这正契合了当前绿色低碳的要求。2024年7月,国家发改委等四部委印发了《数据中心绿色低碳发展专项行动计划》,对数据中心PUE进行了严格限制要求:2025年底,新建/改扩建大型及超大型数据中心PUE不超过1.25,国家枢纽节点PUE不超过1.2。

二、智能运营

对于智算中心来说,绿色低碳必然会体现在其生命周期的全过程,这也意味着除了项目的建设阶段之外,建成之后的运营同样也很重要。如果能够实现更加智能的管理和运维,势必将大大减少智算中心的人员和资源配置,同样也是为绿色低碳做了贡献。

对此,浪潮信息InManage管理平台下足了功夫,它首先解决了传统数据中心IT和动力环境割裂的问题,实现了一套系统同时采集智算中心的IT基础设施和动力环境两种数据,解决数据不互通问题,并对数据进行了5大功能创新,包括高密单排微模块2D/3D可视化、供配电系统链路展示、数据中心实时图像监控及视频回放、数据中心门禁安全管理、核心制冷部件远程调控。

举个例子。过去,为了保证核心制冷部件的安全可靠,运维人员只能进入机房,对其进行现场操作。如今有了核心制冷部件远程调控这个创新的功能,运维人员只需要坐在控制室内,就能够完成全套调整动作。

有了如此智能的管理平台作为基础,老冀有理由相信,未来客户还能够开发出更多实用、好用的运维功能和服务,并提供更加灵活的AI服务,例如在资源上纳管裸金属和容器、以卡时的形式出售GPU和算力资源、通过拖拽方式即可直接租用成熟大模型框架和应用等等。

因此,对于客户来说,采用42kW智算风冷算力仓只是个开始,后续还有很多文章可以做。

正当其时

从以上分析大家应该不难看出,对于当前渴望拥有智算中心的大多数主流客户来说,42kW智算风冷算力仓是一套“刚刚好”的解决方案,它能够有效解决算力需求高速增长与投资硬约束、高能耗与绿色低碳这两大矛盾,满足这些客户的现实需求。相对液冷,它的建设周期更快,能够在传统机房做高密化快速部署;相对传统风冷,则有更高的部署密度和接近于液冷的 PUE,实现更好的节能降耗。

不过,客户往往也有个不小的顾虑:随着AI服务器功耗及单机柜功率密度持续攀升,未来高密风冷智算中心是否还能继续满足算力需求?老冀认为大可不必担心,原因有两点:

第一点,据老冀了解,浪潮信息还会对智算风冷算力仓技术进行持续升级,未来我们还会看到更高单机柜功率密度的智算风冷解决方案,足以满足目前主流客户对智算中心扩容和进一步拓展算力的需求。

同时,浪潮信息也在持续推动液冷技术创新与应用,未来还会推出单机柜功率超过100kW的液冷算力仓产品,以满足客户更高密度、更高能效、更低PUE的需求。

第二点,新技术的发展和普及,需要遵循行业基本规律,老冀举个汽车行业的例子。

大家都知道,咱们国家新能源汽车发展很快,目前的渗透率已经超过了50%。但是,新能源汽车大发展,并不意味着汽车市场马上就进入纯电时代。相反,由于很多消费者都存在续航焦虑和对于补能便利性的担心,在当前这个阶段,他们往往会选择购买兼容燃油的混合动力汽车。

中国汽车工业协会的数据显示,今年前5个月,混合动力汽车的销量仍然占到了中国新能源汽车销量的38%,而且销量占比还有进一步提升的趋势,这也倒逼中国几乎所有的汽车厂商,无论是老牌燃油车厂还是造车新势力,都在加紧推出更多的混合动力新车。

回到算力市场。超大规模、超强算力、超低能耗是下一代智算中心的演进方向,智算中心由风冷走向液冷是大势所趋,同时也有一个逐步发展的过程。而从以上两点可以看出,正在加紧规划建设智算中心的客户,会根据自身的需求场景和成本约束,理性地做出选择。在未来很长的时间里,风冷和液冷都会继续发展,满足客户的多样化需求,并带给客户更多的价值。