今年科技界最引人注目的大事之一,便是马斯克旗下xAI公司推出的全球最强大的超级计算中心——“Supercluster”。
值得一提的是,在这个全球新晋的最大超级计算中心背后依然有着戴尔科技的身影:为“Supercluster”提供服务器的供应商正是戴尔科技。
该集群由10万张液冷GPU组成,在单个远程直接数据存取(RDMA)结构上运行,从GPU规模上来看,这一“超级计算工厂”已经全面超越了Top500榜单上的任何一台超级计算机。
巨量算力需求
带来严峻的制冷挑战
“Supercluster”的算力规模确实令人震撼,但在液冷技术仍在发展,且价格昂贵的现在,为何Supercluster要全面投入液冷呢?
一方面是出于能耗和成本的考量。据了解,该集群的每张GPU至少消耗700瓦电力,这就意味着仅为GPU进行供电就需要超过70兆瓦的电力,这还不包括其他服务器、网络和冷却设备的耗电量。
而采用液体冷却技术则能够显著降低能源消耗,据美国国家可再生能源实验室(NREL)的最新研究显示,液冷技术能够实现低至1.05的PUE值(电源使用效率),这一效率远高于空气冷却系统通常的1.5至2.0 PUE值,总体能源节省约为40%。
另一方面,超大规模数据中心采用液冷技术也是大势所趋。
随着数据中心能耗的增长,能源效率变得至关重要,在大型数据中心,机架的功率密度普遍超过了30千瓦,加之现代CPU和GPU的热设计功率(TDP)不断上升,这进一步加重了冷却系统的负担。在这样的背景下,液冷服务器的优势就更加明显了。
那么,问题来了:既然液冷服务器这么香,但这是否意味着未来的数据中心都将转向液冷技术呢?
数据中心“有大有小”
何时从风冷转向液冷?
尽管液冷技术正成为数据中心发展的关键趋势,但这并不意味着所有企业都应立即采纳液冷解决方案。目前,风冷技术因其便利性和成本效益仍然会在可预见的未来继续被广泛使用,而业界实践表明,从风冷向液冷的转变存在一个关键的临界点。
根据施耐德电气的成本研究,对于10kW的机架来说,基于机箱的浸入式液冷技术的资本支出与传统的热通道封闭机架空气冷却相当。当机架的功率密度超过15-20kW时,液冷服务器的优势开始显现,此时采用液冷技术更为适宜。
因此,对于新建的超大型数据中心来说,全面采用液冷服务器无疑是一个明智的选择;而对于大多数企业而言,其数据中心的规模和功率密度尚未达到必须全面采用液冷的程度,无论是从业务需求还是成本投入的角度考虑,短时间内全面转向液冷技术都不现实。
因此,在这种情况下,许多数据中心都选择采取逐步过渡的策略,以适应业务发展和成本控制的需求。
例如液-气冷却(LAC)技术,通过使用空气作为传热介质,无需将水管直接连接到数据中心,避免了对数据中心整体进行改造,这种方法不仅提供了操作的灵活性还降低了成本,允许数据中心根据需求变化灵活调整其冷却策略。
另一种混合解决方案是使用后门换热器(RDHx)改造风冷装置,它通过改造传统的风冷系统,将服务器机箱内的风扇集中在机柜后门,从而将流经服务器的热空气排出,企业可以继续利用风冷系统,同时通过RDHx补充液体冷却,以此提升冷却效率和效果的上限。
我们可以看到,从空气冷却转换为液体冷却并不一定是一项非此即彼的举措,关键在于如何判断适合自己企业发展的冷却技术。
戴尔科技集团
助力企业直面冷却挑战
当企业准备迈向更高效、更可靠的冷却解决方案时,戴尔科技集团是您理想的合作伙伴。我们的专家团队有能力协助规划、设计和实施量身定制的冷却策略,以确保企业数据中心冷却系统改造和升级过程顺利、无压力并满足未来发展的需求。
在戴尔科技集团,我们将全面的冷却方案高效整合,融入到服务器设计和机架设计当中,无论是在数据中心改造的哪个阶段,企业都能从开放且灵活的冷却策略找到适合自己的选择。
#01、戴尔智能冷却技术
满足低密度场景需求
面对功率密度较低的中小型企业数据中心场景,戴尔科技集团通过气流管理和高效风扇方面的创新,突破了空气冷却环境的界限,使成本保持在合理的范围内以满足企业需求。
为了在最佳性能和最佳功耗之间取得最佳的平衡,戴尔推出了基于智能风扇控制算法的Smart Flow技术。Smart Flow通过嵌入在iDRAC(集成戴尔远程访问控制器)中的风扇和电源控制以及广泛的传感器集成,可在不牺牲冷却或服务器性能的情况下保持尽可能低的风扇功率状态。
Dell PowerEdge服务器通过采用智能流量配置获取更大的进气容量,让其他只能通过液体冷却的高端CPU也可以实现高效的空气冷却,并且Dell Smart Flow机箱的选择可根据系统硬件配置自动进行,这为缺乏物理空间和资金的小型企业带来了更高的便利性和成本效益。
#02、戴尔多样化液冷
满足高密度计算需求
面对功率密度超过15-20kW的高密度环境场景,Dell PowerEdge XE系列服务器也能为企业提供空气冷却、LAAC液体辅助冷却和DLC直接液体冷却等多种液冷解决方案,通过强大而丰富的GPU和冷却选项帮助企业加速数据价值的实现。
例如专为高性能计算而生的PowerEdge XE8640服务器,采用液体辅助空气冷却 (LAAC)技术,通过冷管收集CPU和GPU的热量,这使得XE8640可支持的环境温度最高可达35℃。
而作为戴尔迄今为止功能最丰富的高性能基础架构平台,Dell PowerEdge XE9680服务器针对GPU供电和散热进行了单独的优化,并提供了包括多矢量散热技术,动态调节冷却风强度等全新功能。
此外,其机箱设计上也有许多优化配置,例如高速网卡槽位布置于前面板,可有效强化服务器的散热性能。
#03、戴尔集成式机架
应对数据中心扩展挑战
当企业在业务扩展过程中希望增强数据中心的能力,却受限于物理空间时,提升功率密度往往成为企业的首选。在这种情况下,戴尔科技的集成机架可扩展系统(IRSS)提供了一个出色的解决方案,不仅能够提高数据中心的功率密度,还能够帮助企业灵活地扩展其IT基础设施。
IRSS可处理高达264 kW以上的功率密度,无论您的企业希望使用风冷还是液冷技术,IRSS都能通过前瞻性的基础架构和散热管理方案提升整个基础架构的能源效率。
以Dell Integrated Rack 5000系列(IR5000)为例,通过先进的散热管理功能和能源效率保障,IR5000可为要求严苛的高性能计算工作负载提供支持,并提供风冷和液冷双选项,进一步扩大用户在各类处理器上的选择范围。
结 语
对于旨在平衡性能、可扩展性和成本的数据中心而言,液体冷却为高密度、高性能环境的挑战提供了令人信服的解决方案。戴尔科技集团凭借领先的冷却策略和全面的解决方案,帮助组织无缝过渡到液体冷却,并为数据中心的未来运营做好准备。