作者丨 Patrick Kennedy

译者丨明知山

策划丨褚杏娟

打开网易新闻 查看更多图片

xAI Colossus 数据中心计算大厅

今天,我们将分享 xAI Colossus 超级计算机集群的参观之旅。应该有人听说过马斯克的 xAI 公司在孟菲斯建造了一个巨大的人工智能超级计算机集群,而这就是那个集群。拥有 10 万块 NVIDIA H100 GPU,这个价值数十亿美元的人工智能集群不仅因其庞大的规模而闻名,更因其惊人的建设速度而备受瞩目。建造团队仅用 122 天就建成了这个巨大的集群。今天,我们将带着大家一睹其内部的风采。

当然,我们也为此制作了一个视频,大家可以在推特或 YouTube 上找到:https://www.youtube.com/embed/Jf8EPSBZU7Y

我们通常会独立地开展活动,但这次不同,超微电脑(Supermicro)赞助了这次活动,因为这是今年我们涉及的最昂贵项目之一。此外,考虑到构建全球最大人工智能集群的敏感性,部分内容将进行模糊处理,或者我会故意保持一定的模糊性。我们在马斯克及其团队的特殊授权下才能展示这些内容。

超微液冷机架

Colossus 的基本构建模块是超微液冷机架,每个机架配备八台 4U 服务器,每台服务器搭载八块 NVIDIA H100 GPU,这样每个机架总共有 64 块 GPU。八台这样的 GPU 服务器与一个超微冷却剂分配单元(CDU)及其相关硬件构成了一个 GPU 机架。

打开网易新闻 查看更多图片

xAI Colossus 数据中心超微液冷节点

这些机架按每八个机架一组,每组 512 块 GPU,并配备网络设施,以便在更大规模的系统中实现小型集群的部署。

打开网易新闻 查看更多图片

xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器

xAI 采用的是超微 4U 通用 GPU 系统,这些系统代表了市场上最先进的人工智能服务器。之所以领先,有几个关键因素。首先是它们的液冷技术,其次是其出众的可维护性。

打开网易新闻 查看更多图片

xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器近景

大约一年前,在丹佛举行的 2023 年超级计算大会(SC23)上,我们首次目睹了这些系统的原型。然而,在孟菲斯,我们未能亲自操作这些系统,因为当时它们正忙于执行训练任务。其中一个特性是系统安装在无需从机架中移除即可进行维护的托盘上。1U 机架的歧管设计有助于引入冷却液和排出热液。快速断开装置使得液冷系统可以迅速移除,我们去年展示了这些部件可以单手轻松拆卸和安装。在这些部件被移除后,托盘便可以轻松拉出进行维护。

打开网易新闻 查看更多图片

超微 4U 通用 GPU 系统,适用于液冷 NVIDIA HGX H100 和 HGX 200

幸运的是,我们有这台服务器原型的图片,可以展示这些系统的内部构造。除了配备定制的超微液冷块的 8 个 GPU NVIDIA HGX 托盘外,CPU 托盘更是彰显了这些系统为何能成为行业领先的下一代设计。

打开网易新闻 查看更多图片

超微 4U 通用 GPU 系统,适用于液冷 NVIDIA HGX H100 和 HGX 200

在 SC23 展示的原型中,有两个 x86 CPU 液冷块的设计相当常见,真正独特的地方在右侧部分:超微的主板集成了几乎所有 HGX AI 服务器目前使用的四个 Broadcom PCIe 交换机,而不是将它们单独放在单独的板上。此外,超微还定制了一个液冷块,专门用于冷却这四个 PCIe 交换机。行业内的其他 AI 服务器通常是在建造完成后才将液冷系统添加到原有的空气冷却设计中,而超微从一开始就考虑到了液冷设计,并且全部组件均来自一个供应商。

打开网易新闻 查看更多图片

超微 SYS-821GE-TNHR NVIDIA H100 和 NVSwitch 液冷模块

就像汽车一样,有些车型最初是为汽油动力设计的,后来才在底盘上加装了电动动力系统,而另一些则从设计之初就以电动为出发点。这个超微系统属于后者,而其他 HGX H100 系统则属于前者。自这些系统发布以来,我们已经亲自体验了大多数公开的 HGX H100/H200 平台,以及一些超大规模的设计。这个超微系统与其他系统之间存在显著差异,包括我们之前评测过的超微的一些既可以液冷也可以空气冷却的系统。

在机架的背面,我们看到了用于 GPU 和 CPU 复合体的 400GbE 连接光纤,以及用于管理网络的铜缆。这些网络接口卡(NIC)安装在它们自己的托盘上,可以轻松更换而不需要移除机架,尽管它们位于机架的后部。每个服务器配备了四个电源,这些电源支持热插拔,并通过三相 PDU 进行供电。

打开网易新闻 查看更多图片

xAI Colossus 数据中心超微 4U 通用 GPU 液冷服务器后视图 1

机架底部有 CDU,即冷却剂分配单元。这些 CDU 就像是大型的热交换器。每个机架内都设有一个流体循环系统,为所有 GPU 服务器提供冷却服务。这里提到的是专门的冷却液,而非普通水,因为这些循环系统通常需要使用针对液冷块、管道、歧管等材料进行特殊调整的冷却液。