网络不牢,地动山摇。无论是IT基础设施建设早期,还是云计算大行其道阶段,网络和服务器、存储“三大件”都扮演着举足轻重的角色,推动数据中心不断迈向更高台阶。
当数字经济“新基建”如火如荼地展开,人工智能通用化浪潮席卷而来,传统数据中心逐步向智算中心加速进化。如何让运力与算力、存力协调发展,打造适应AI时代的网络新基座,是“上位”后的智算中心亟待解决的难题。
根据国家信息中心发布的报告,“十四五”期间,在智算中心达成80%应用水平的情况下,各地对智算中心的投资可带动人工智能核心产业增长2.9倍至3.4倍,促进相关产业增长36倍至42倍。智算中心对整个AI产业链的带动作用可见一斑,最大限度释放潜能迫在眉睫。
在一波又一波的AI算力与存力建设热潮之后,越来越多转型中的数据中心与新建智算中心发现,一度被忽视的网络正成为提升集群系统综合效能的最佳突破口。面对AI大模型训练在大规模、高吞吐、高可靠等方面前所未有的诉求,单纯依靠芯片叠加无法化解症结,构建新一代网络基座正当其时。
然而,以网强算、以智赋网的道路并不平坦,需要探路先锋勇闯“无人区”。在近日上海举办的华为全联接大会2024期间,华为星河AI数据中心网络全新升级,其中,在智算场景取得重大突破的星河AI智算数据中心网络方案尤为引人注目,同步发布的业界首款100T数据中心盒式以太交换机和51.2T数据中心盒式液冷交换机亦颇为吸睛。
正所谓“天接云涛连晓雾,星河欲转千帆舞”——AI已冲破迷雾成为新主角,而地位擢升的网络也将迎来新气象。从这个意义上讲,星河AI智算数据中心网络开创了数据中心网络“软件及算法优化×硬科技创新”的突围路径,树立起AI时代网络基座新标杆。
AI狂飙对数据中心网络带来严峻考验
事实上,人工智能技术自上世纪50年代诞生以来,就对IT基础设施的演进产生过一定程度的影响。但生成式AI的来势显然更猛,很可能颠覆包括网络在内的整个技术底座。
与过往的“预测推断”模式不同,AI创新最近两三年已向“内容生成”模式延展,万千小模型正被百模千态的大模型替代。由此带来的最大变化就是AI算力需求呈爆发式增长,权威研究机构预测到2030年AI算力将增长500倍,远超通用算力的增速。
作为承载AI算力的中流砥柱,智算中心无疑面临巨大压力,网络遭遇的挑战更是首当其冲。典型的AI训练场景对数据中心网络的各项指标都提出高要求,但既有网络架构及支撑能力难以满足需求。
首先,规模不足是数据中心网络的主要瓶颈,万亿参数万卡起步的AI训练亟需更大规模网络护航。据了解,GPT-4参数量和训练数据集较GPT-3增长10倍,训练集群需2.5万张算卡互联,组网规模有限,无法进行规模跃迁。
其次,数据中心网络吞吐能力欠缺,导致训练时长增加、效率降低。AI训练跨节点间数据流数量少而单流数据量大,采用传统Hash算法容易产生链路负载不均,致使整网吞吐效率仅为50%。通常情况下,每个训练周期最慢的流到达后,才能进行下一轮通信,训练性能取决于“最短的木板”。
最后,可靠性不高是数据中心网络亟待克服的障碍,普通运维手段亦捉襟见肘。相关统计显示,AI训练过程服务器负载高,易出错,业界平均训练任务稳定运行时长不超过2.8天。由于AI训练场景流数据量大,常规采流和运维手段很可能失效,网络黑盒也无法辅助排查。
探索智算场景数据中心网络的突围路径
不难看出,在经历了虚拟化和云化时代的洗礼后,迈向AI新时代的数据中心正在调整自身的角色定位——从传统的业务中心升级为价值中心,增强数据流动效率、充分释放数据潜能变得尤为重要。
站在时代转换的关键节点,只有大带宽、高性能、高吞吐、高可靠的数据中心网络,才能为智算场景提供鼎力支撑;同时,必须摆脱对人工的过度依赖,以智能化部署和运维提升网络运行效率。
正是在这样的背景下,华为星河AI数据中心网络脱颖而出,以智慧运维“1”张图、多元算力“1”张网、智简部署“1”平台赢得行业客户高度认可。其中,星河AI智算数据中心网络解决方案颇受青睐,从算力效率和算力可用率双管齐下,探索出AI时代以网强算的崭新路径。
算力效率是促进AI加速、优化训练进程的核心指标,也是星河AI智算数据中心网络解决方案重点发力的方向。为了规避传统Hash算法的弊端,华为独创网络级负载均衡(NSLB)算法,通过5维建模对整网交换机节点流拥塞状态和全网拓扑进行全局算路,识别出最优路径,实现全网链路秒级调整,网络吞吐可提升至95%,帮助众多行业客户解决了传统以太网络有效吞吐偏低的问题。
尤值一提的是,星河AI智算数据中心网络解决方案还在持续进化,今年将NSLB从静态网络级负载均衡升级为动态网络级负载均衡,实现在三层组网超大规模集群下保持95%的高吞吐能力,在模型训练从单任务演进到更复杂的多任务场景下驱动训练效率显著改善。此外,在业界主流的二层组网架构下,实测动态NSLB大规模模型训练性能对比静态NSLB算法可提升10%+。
算力可用率是确保AI训练月级不中断的综合指标,更是星河AI智算数据中心网络解决方案构筑的强大护城河。借助计算网络一体化部署和全自动调参,超大规模集群可1周交付,开局效率提高10倍;基于光模块通道抗损技术,在单激光器发生故障时,计算网络能协同降速,保证训练不中断;通过端网CCAE 一体化运维,端到端训前65项全量自检,训中跨域问题分钟级定界定位,促使排障效率提升90%。
软硬协同是AI网络基础设施的进化方向
纵观单机及云计算时代IT基础设施的演进轨迹,会发现软硬协同进化是一条清晰可见的发展脉络。在AI新时代,算法与软件的价值毋庸置疑,而硬件的创新突破同样至关重要。
根据IDC咨询最新发布的报告,生成式AI对数据中心网络提出的变革要求,远超传统网络变更和线性的流量增长,软件、算法、硬件等多维度的创新有助于网络新基座的成型。
显而易见,在智算场景,重构数据中心网络除了算法等“软实力”的助力,还离不开“硬科技”的加持。在华为全联接大会2024上,面向超大智算集群的业界首款100T数据中心盒式以太交换机CloudEngine XH9330和51.2T数据中心盒式液冷交换机CloudEngine XH9230重磅亮相,为构建新一代智算中心奠定了网络基石,也为千行万业的数智化转型铺平了道路。
迟迟钟鼓初长夜,耿耿星河欲曙天。如果说AI基础设施的重塑刚刚拉开帷幕,那么星河AI网络就是夜空中指引方向的星辰,数智新世界的黎明即将破晓。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。