打开网易新闻 查看更多图片

液冷在数据中心行业属于热点技术,但并不是新技术。液冷技术在数据中心应用较晚,2018年才被收录到《计算机科学技术名词》(第三版)中,其定义为“使用流动液体将计算机内部元器件产生的热量传递到计算机外,以保证计算机工作在安全温度范围内的一种冷却方法。”数据中心冷却系统分为一次冷却(IT设备冷却)和二次冷却(热量散热过程),通常提到的液冷都用于一次冷却过程,而二次冷却过程多采用传统风冷模式。

数据中心传统的风冷模式,通过封闭冷热通道,利用末端空调、列间空调等设施把IT设备产生的热量通过风带走,确保IT设备处于最优的工作环境。随着AI、大模型等科技和产业技术不断升级,以及IT设备计算能力和运算需求不断提升,风冷模式的弊端日益凸显。液体导热能力是空气的25倍,液体代替空气直接对IT设备进行冷却,可以极大地提高散热效率。

公开数据表明,液冷在冷却效率方面要比风冷至少提高15%~20%。液冷技术由于具有高效散热等优势,在近几年得到了快速发展,同时也将有力推动数据中心实现“双碳”目标。

液冷技术在数据中心应用的机遇

积极的政策导向

1.正向倾斜

近两年国家出台的数据中心液冷相关政策如表1所示。

表1 2021年以来国家出台的数据中心液冷相关政策(部分)

打开网易新闻 查看更多图片

从2021年开始,国家一直持续鼓励数据中心在研发、测试和应用中,采用液冷相关技术,并将液冷等高效方案作为政府采购的优先选项。

2.反向约束

国家出台的相关政策表明,数据中心虽然是数字经济的基座,但电力资源的紧张、“双碳”目标的要求,以及整体用电量的快速提升,都使得数据中心运营难度越来越大,同时还要面临节能审查和“碳能双考”等多重压力。以PUE为例,按照国家一体化数据中心建设要求,东部数据中心集群的PUE要小于1.25,西部要小于1.2。在2022年北京地区通过节能审查的13个数据中心项目中,PUE全部小于1.2,超过60%的项目小于1.15。如此低的PUE,采用传统的风冷技术很难实现,液冷技术已成为公认的最佳实现路径。

行业技术提升的必然

1.液冷服务器正快速迭代

作为数据中心上游企业,IT设备的发展与数据中心息息相关。比如浸没式液冷需要密封舱体存储冷却液,IT设备为满足对冷却液的兼容,通常需要定制化。因此,液冷技术在数据中心的规模化落地,必然需要IT厂商的深度配合。公开数据显示,我国过去3年液冷服务器出厂量不到服务器总量的5%。2022年至今,主流IT设备厂商均已公开表明将加大研发力度并加快产品迭代速度,这也将加速液冷在数据中心的规模化落地。

2.液冷比风冷更适合IT设备

以浸没式液冷为例,与风冷技术相比,其不但可以大幅减小湿度、振动、尘埃粒子等对IT设备的影响,而且产生的噪声比风冷降低20~35分贝,生产环境将变得更加稳定和更加舒适,IT设备的使用效率与稳定性将得到有效提升。

大模型等业务需求驱动

CDCC发布的《2022年中国数据中心运营质量分析发展报告》显示,新一轮AI和大模型正处于史上最高速的发展期,我国数据中心在业务需求的加持下,继续向高功率密度方向发展。相应的芯片热功率密度也在急剧上升,CPU已达到单芯片300W以上,GPU更是达到单芯片700W以上。如此高的功率,传统的风冷散热已无法支撑。研究表明,采用风冷方式的数据中心单机柜功率密度如果超过15kW,制冷效率将大幅下降,而AI和大模型的功率需求通常都在20kW以上,因此采用液冷将成为必然。

今年7月6日,在第六届世界人工智能大会上,互联网头部企业和运营商合计发布了30多款大模型和10多款高算力智能芯片,其背后都有液冷数据中心的影子。随着大模型时代的到来,能够实现超高密度IT设备散热的液冷技术必将在数据中心领域得到高速发展。

企业持续发展的推动力

1.液冷助力实现碳中和

数据中心实质上是将能源转换为算力的载体,转换效率越高,意味着数据中心实现相同算力付出的能源成本越低。CDCC发布的《2022年中国数据中心运营质量分析发展报告》指出,能源成本在数据中心整体运营成本中占比最高,达到41%。液冷技术将有效提升转换效率,不仅可以提高数据中心整体利润,还可以降低碳排放,加快实现碳中和。

2.液冷助力实现余热回收

在数据中心IT设备散热的过程中,大量的热能被带走,在传统风冷技术的实现路径中,产生的热量过于分散且温度不高,不利于集中回收与利用。液冷技术应用后回收的液体的温度和热量密度比风冷高很多,不仅便于收集,也便于进行二次交换,进而用于集中供暖、供热水等场景中。在实际项目中,大量数据中心均将液冷系统与余热回收系统结合在一起建设。如果将IT设备余热的二次利用考虑到PUE的计算当中,利用液冷技术实现余热回收的系统,其等效PUE比常规算法下的PUE更低。

数据中心采用的主要液冷技术

数据中心液冷技术主要分为冷板式、浸没式和喷淋式三种,主要区别体现在散热方式的不同,国内主要采用冷板式液冷、单相浸没式液冷。

其一,冷板式液冷研发初衷是为了避免冷却液与IT设备直接接触,同时还可对高热源进行精确冷却,实现方式更像是风冷和液冷的混合。该技术在机柜内对CPU、GPU等高能耗部件采用液冷冷板散热,通过冷板内的流动液体将部件的热量带走,而对主板、存储等其他部件依旧采用风冷散热。

由于传统风冷技术已经非常成熟,冷板式液冷技术一般不会改变数据中心机房和机柜整体结构,通常情况下不需要调整承重,IT设备也不需要做出相应改变,仍然工作在空气中。

其二,喷淋式液冷是将冷却液通过喷淋的方式,带走IT设备散热元件上的热量,这项技术在国内应用较少。

其三,浸没式液冷是指将IT设备完全浸没在冷却液中,通过冷却液的流动或相变带走热量,根据冷却液散热过程中形态的不同,分为单相液冷和相变液冷两类。浸没式液冷需要将IT设备的生产环境由空气改为液体,因此在机房架构上需要重新设计和优化,IT设备也要与之匹配。

浸没式液冷的冷却液与IT设备直接接触,具有较低的对流热阻和超强的散热效果,在大模型时代具有广阔的应用前景。传统风冷、冷板式液冷和浸没式液冷的多维度对比如表2所示。

表2 数据中心传统风冷、冷板式液冷和浸没式液冷对比

液冷技术在数据中心应用面临的挑战

在政策、技术与市场的多重推动下,液冷技术在数据中心的应用前景虽然被普遍看好,但实现规模化落地还需解决以下4个核心问题。

行业标准亟需完善

任何一个行业的高质量发展,都离不开标准规范的引导,只有标准统一才能开展更多专业化服务。数据中心液冷系统的逻辑要比风冷复杂,在各阶段需要考虑的问题也更多,不仅要做好管道、冷却液、密封件、阀门、线材、电气等组件的浸泡测试、适配测试和可靠性测试,还要做好小分子材料长期的溶解性测试、兼容性测试,相关标准和规范缺失可能产生隐患甚至引发事故。

截至目前,我国尚未出台液冷数据中心的相关国家标准,只有中国通信标准化协会出台了8个行业标准,如表3所示。而已有行业标准更多是关于技术要求和测试方法的,无法覆盖数据中心全生命周期中的设计、建设以及运维管理。此外,部分行业协会也在积极制定团体标准,但由于权威性等问题,在实际应用中尚未被普遍认同和实施。

表3 数据中心液冷相关行业标准汇总

多领域、多专业间仍需协同

液冷是一项跨专业的创新技术,基础设施、IT设备需要多领域的协同,要具备整体思维模式。以PUE为例,液冷能将PUE做到极致的部分原因是其能够将原有风冷机柜中IT设备的风扇能耗转移到液冷机柜中的基础设施上。

现阶段,真正实现从土建到机电全部采用液冷的数据中心并不多,大部分是在原有基础架构上进行改造,或者在土建完工的框架上新建液冷设施,这不可避免地会遇到基础设施和IT设备在液冷方面的协同问题。比如,楼板承重情况、消防系统改造、电气系统兼容等。

IT设备的生命周期相对较短,而电气和暖通系统的生命周期通常在10年以上。因此在规划时,基础设施如何匹配未来IT设备的需求,如何实现风冷向液冷的混合过渡,是需要深入思考的问题。

运维模式需要转变

液冷并不只是单一的技术,随之而来的数据中心整体架构的重构,也为运维带来了更大的挑战。在风冷模式下,冷冻、冷却或末端系统出现问题时,影响到机房内IT设备通常会有延时,也就是不会立刻对业务系统产生影响。而在液冷模式下,由于芯片和IT设备都是高功率运行,当系统出现泄压、漏液、气阻等情况会立刻影响业务系统,因此需要将基础设施和IT设备进行联动控制以免引发故障。这就要求运维人员在运维方式、运维习惯、运维工具等方面都要做出相应的调整。

安全风险需做好把控

液冷架构下整体散热模式与风冷也有一定差别,在风冷模式下,维护的颗粒度较大,容错性也较强。在液冷架构下,任何一个部件发生损坏或者需要维修更换,都将对系统整体产生影响,因此液冷对各部件、IT设备的可靠性要求通常也更高。

同时,由于液冷数据中心的运行项目相对较少,运行时间相对较短,依靠现有运行数据无法全面评估存在和潜在的各种安全隐患以及风险点,从安全的角度来看,暂时不足以支撑液冷规模化落地。

进入2023年以来,随着大模型系统、高算力芯片、超高功率密度机柜等快速发展,液冷技术对于现有数据中心来说,是巨大的机遇,也是巨大的挑战。相信在标准、协同、安全等方面逐步完善后,液冷技术必将在数据中心占据更为重要的地位,为行业发展作出更大的贡献。

作者:联通数字科技有限公司 车凯

责编/版式:王鹤迦

审核:舒文琼

监制:刘启诚