如果将整个AI产业比作交响乐团,那么大模型就相当于呼风唤雨的指挥棒,而底层基础设施则是随需应变的旋转舞台,纷繁的AI应用即在这样的环境中演绎华章。
当大模型训练与推理不断迈向纵深,智算集群会在“指挥棒”的引导下从万卡向十万卡乃至几十万卡持续跃迁。作为智算集群纲举目张的核心角色,网络无疑发挥着举足轻重的作用,其基本架构和主要职能也伴随集群的进化加速蜕变。
在相当长一段时间里,基于电交换机的Spine-Leaf两层组网模式赢得广泛认可,堪称大型集群平稳运行的中流砥柱。然而,当大模型训练对算卡的需求攀升至十万卡的关口时,集群组网必须从两层向三层扩展,即在Leaf、Spine层的基础上增加Core层,为大模型施展身手奠定坚实底座。
值得关注的是,由于Spine层和Core层之间需要借助光模块进行互联,电交换机和光模块数量的增加不可避免地会带来整体能耗的上升。对新型智算中心和转型中的数据中心而言,既要完成节能减碳的长远目标,又面临用电指标的短期约束,自然想在“第三层”网络上图新求变。
与“电”相比,“光”先天带有绿色“Buff”,且具备带宽无上限的想象空间。于是,“在第三层网络用光取代电”、“光电融合组网”的论调一时甚嚣尘上,曾经小众的OXC技术也乘势而起,被业界寄予厚望。那么,智算集群组网真的“一光就灵”?“光进电退”会成为新的潮流吗?
正所谓“不畏浮云遮望眼,自缘身在最高层”——站在更开阔的视角,审视AI智算场景对网络的深层需求,有助于我们穿越喧嚣的迷雾,找到破解难题的良方。
祛魅OXC:“光交换”只是看上去很美
在基础网络演进过程中,“光进铜退”的故事令人印象深刻,以致于“光”被赋予特殊的光环,似乎可以始终扮演变革者的角色。
这也许是“光交换”拥趸众多的重要原因,很多人一看这个提法就心生好感。不过,倘若剥开“光交换”旗手——OXC的神秘外壳,不难发现其并非“硬核”科技。
事实上,OXC的全称为“Optical Cross-Connect”,即指光交叉连接设备。以最典型的MEMS OXC为例:其内置两个微镜阵列,阵列A通过调整转角将入射信号偏转到阵列B对应的微镜单元,将光从入端口映射到出端口,从而实现两条路径之间的光信号交换。
做个简单的类比:最早打电话的时候,离不开电路交换机的支撑和接线员的服务——接线员根据来电者的要求,人工转换线头插口,完成两端的对接;OXC的工作原理与之相似,只不过用两面镜子替代了接线员,其本质还是电路层面点对点的交换。
显而易见,OXC并不参与流量全局选路、优先级调度等复杂环节,其价值体现在灵活配线领域,与自动配线架的作用并无明显差别。根据权威机构发布的研究报告,自动配线架在规模、插损、功耗、成本等指标上均优于OXC技术,祛魅后的“光交换”只是看上去很美。
AI智算的“三重门”:“光交换”尚未掌握通关密码
从技术创新的进化史来看,确实有些技术在原理上并无新奇之处,但在实际应用中大行其道,云计算即是其中的典型代表。在AI新时代,OXC也会有“反转”的戏份吗?
透视AI智算场景下大模型训练对网络架构及其功能的核心诉求,会发现OXC尚未掌握“三重门”的通关密码,依靠“光交换”很难抵达数智新世界的彼岸。
第一重门:在大规模、高并发流量的冲击下,缺乏调度策略的“光交换”寸步难行。
Meta公司发布的数据显示:在Llama 3.1模型为期54天的预训练中,共出现466次任务中断。其中,仅有47次为计划内中断,而高达419次的中断则属于意外情况。
不难看出,因“意外情况”导致大模型训练中断,已成为智算场景的最大痛点。从集群组网的角度看,在大规模、高并发流量的冲击下,避免“意外中断”的最佳路径是“策略调度”,即基于逻辑拓扑进行动态适配。
令人遗憾的是,由于OXC采用机械控制方式,同一时间只能完成一组端口间点对点转发,无法支撑智算场景多组流量并行转发的需求;假如用OXC替换电交换机,还会导致原来标准的组网架构发生变化,路由协议、拥塞调度、负载均衡等策略均需重新调整,由此可能衍生诸多不确定性因素,造成大模型训练难以承受之“意外”。
第二重门:在算子、算法构造的复杂环境中,时延问题让“光交换”深陷困境。
伴随生成式AI落地进程的加快,大模型也呈现出多元化发展的态势。除通用大模型外,垂直行业大模型、单一场景大模型纷纷涌现,复杂多样的算子、算法亦如雨后春笋。
以智算场景集合通信的视角看,不同的算子、算法会催生迥异的关系模式,这就要求整个网络通信链路必须具备快速应变、互联互通的超强能力,且尽量降低时延。
受限于物理机械控制方式,OXC的交换时延通常在10毫秒以上,与电交换机的百纳秒时延相比,高出五个量级;再加上整网存在端口断开和重新连接,光模块、电交换机侧需重新协商和路由收敛,单纯缩短OXC路径切换时延的效果也大打折扣,难以满足AI大规模训练对稳定性和低时延的要求。
第三重门:绿色节能的美好愿景,可能因“光交换”的高插损问题而无法兑现
根据中国信通院发布的报告,截至2023年底,我国算力中心耗电量已达1500亿千瓦时,预计到2030年将超过4000亿千瓦时。当集群规模跨过十万卡大关,三层网络渐成主流,节能减碳的压力会继续增加。
正是基于上述背景,第三层网络上“光交换”的呼声日益兴起。在新建的“光高速公路”上,可以实现低能耗和带宽平滑演进的双重目标,何乐而不为?
考虑到光传输损耗会带来光模块等综合成本的显著提升,就难以对OXC的替代前景保持乐观。以万卡集群为例:在跨机房走线的情况下,电交换机间互联一般使用2km FR光模块即可;而OXC为弥补高插损弊端需使用更长距的光模块,按目前业界最低1.5dB的差损计算,设备间互联也要使用10km LR定制光模块,叠加前期引入新技术的成本投入,OXC带来的功耗改善和成本降低都非常有限。
网络交换未来图景:“电”与“光”期待顶峰相见
综合而言,以OXC为代表的“光交换”技术看似光鲜靓丽,但实际上存在不少缺陷,“光电融合”的道路上也有诸多待解难题。例如:OXC内光链路的切换依赖控制面的任务信息输入,怎样获取任务信息,又由谁来给出指令?把“光”引入到智算场景后,如何与“电”协同进化,推动整体系统迈上更高台阶?
这些问题很难在短时间内给出答案,避免盲目追捧新技术,基于现状合理选择集群组网方案才是正途。据LightCounting预测,到2029年OXC的全球市场空间约为5亿美元,且其中大部分是Google自建,产业规模仅为电交换的1/20。
尤值一提的是,处于市场优势地位的电交换机仍在进化中,让客户更有信心将其作为智算集群三层组网方案的首选。在硬件层面,电交换机芯片加速迭代,Tomahawk5速率高达51.2T,单芯片支持64端口800G或128端口400G,能确保三层组网支撑50万卡集群,预计Tomahawk6发布后可触及百万卡集群门槛;在软件层面,国内外厂商积极应对智算场景数据高吞吐的挑战,在两层组网的负载均衡路径方面已拥有成熟经验,适应三层组网的负载均衡算法有望在一两年内取得重大突破。
眺望网络交换的未来图景,“电”与“光”很可能在各自的进化过程中催生“新物种”——二者顶峰相见之时,将胜却人间无数。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。