多年以后,当我们坐在智能新世界的AIGC咖啡馆里回首往事,也许会想起二十届三中全会发出的最强音:推进高水平科技自立自强,为实现中国式现代化提供有力支撑。
那是属于自主创新的黄金时代,也是面临极限压力的难忘岁月。围绕主角AI衍生的算力、存力与运力故事不断演绎新的版本——没有风雨躲得过,但也没有翻不过去的火焰山。
最猛烈的疾风骤雨源自对算力“卡脖子”的恐慌。当GPU的抢购、囤货风潮逐渐退去,人们发现对单卡性能的执念其实是个认知陷阱,重复投资造成的浪费值得反思,而系统创新带来的综合算力改善更为重要,千卡乃至万卡集群日益成为大模型时代的主角。
集群算力的提升是一个系统工程,借助存储、网络能力优化弥补计算短板的创新路径备受青睐。由于大模型以集群分布式训练为基础,带来大量节点间通信消耗,组网规模、网络性能和可靠性对集群有效算力产生重大影响,因此“以网强算”被寄予厚望,依靠运力实现“弯道超车”似乎并不遥远。
然而,这条路并不平坦,尚需克服诸多障碍。一方面,关于高性能网络协议的标准竞争与利益博弈颇为激烈,践行开放以太网的技术路线殊非易事;另一方面,以太网交换芯片领域巨头当道,尤其是高端数据中心交换芯片具有较高的资金、技术、客户及应用壁垒,目前产业链以海外供应商为主,国产化程度偏低。
显而易见,以网强算必须与自主创新相结合,才能真正绕过险滩,抵达数字化、智能化跃迁的彼岸。在充满不确定性因素的内外部环境下,“网络当自强”不仅关乎AI发展的主动权,而且与关键基础设施的安全密切相关。前路迢迢,行则必至。
以网强算×自主创新的必要性与紧迫性
无论在信息化建设阶段还是数字化转型时期,计算与网络都是IT基础设施的重要组成部分。二者相辅相成,共同打造数字经济的坚实底座。
伴随AI算力需求激增,计算与网络也在不断进化。从某种意义上讲,智算中心即是由以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施组成的综合体——如果说计算堪称中流砥柱,那么网络就是强大根基。
大模型的演进轨迹也证明其并非依赖计算的单边突进。相关统计显示,Transformer模型从2017年诞生至今,制程改进促成的芯片性能提升约8倍,而通过系统创新带来的算力综合性能改善高达1000倍。
在系统创新的路径选择中,建设超大规模、超高带宽、超低时延、超高稳定性的高性能网络无疑占据着C位。特别是在GPU单卡算力受限的背景下,获得同等算力的难度持续增加,以网强算成为突破AI算力瓶颈的不二之选。
值得关注的是,以网强算必须找到适宜的突破口,把握新技术路线的主动权尤为重要——围绕高性能网络协议的创新已如火如荼,这是国内厂商赢得话语权的难得契机。
目前,在AI集群网络中通常采用RDMA技术,包括IB和RoCE两条路线。IB网络技术体系相对封闭,而RoCE的生态较为丰富,很多国内厂商均发布了RoCE无损网络方案,基于开放以太网的技术路线逐渐成为业界共识,国内厂商在标准制定与市场实践中亦拥有一席之地。但不容忽视的是,类似超以太网联盟(UEC)这样以国外巨头为核心的国际组织,也在基于以太网技术路线构建新的生态体系,未来的走向尚需观察。
在网络“芯”制高点谋求突围
在网络自主创新的征途上,选择适宜的“登山”路线固然重要,但要找到高海拔地区的“雪莲花”,进而攀上顶峰,则必须直面“芯”挑战,决胜制高点。
AIGC的迅猛发展对网络基础设施提出前所未有的高要求,GPU的互连接口和带宽即是亟待解决的焦点问题。当下,主流AI大模型集群已采用单GPU卡400G接入,预计到2025年800G会超过400G成为主要发货端口速率。
这相当于对交换机设备和芯片的进化提出了明确的时间表。很长一段时间以来,以太网交换芯片的更新迭代由海外供应商主导:博通在2020~2022年先后发布25.6T带宽的Tomakak4芯片和51.2T带宽的Tomahawk5芯片,其他主流芯片厂商也相继跟进。伴随下一代芯片端口迈向400G、800G,对应的交换芯片能力有望“快进”至102.4T。
为了缩小和海外厂商的差距,满足国内人工智能大规模建设对高端交换芯片的需求,国内厂商不断加大投入力度,在25.6T带宽芯片上已取得突破性进展。不过,受限于制程工艺以及外部干扰等因素的影响,更大带宽芯片的可获得性存在风险,国内厂商的自主创新任重而道远。
需要指出的是,与GPU得到的超高关注度相比,以太网交换芯片有点被“冷落”,以其对整个AI产业发展乃至千行万业智能化升级的深远影响,理应获得更多的关注与支持。
从AI产业演进的角度看,交换芯片能否有效供给,关系到算力底座的建设进程与应用成果——倘若智算中心、AI大模型等关键基础设施的顺畅运行不能得到保障,就很难在人工智能、大数据分析等前沿领域占得先机,与国际先进水平的差距可能进一步拉大,以创新谋求高质量发展的战略也将举步维艰。
站在更宽阔的视角,千行万业的数字化转型已进入深水区,同时面临被AI“重做一遍”的机遇与挑战。此时,以太网交换芯片技术的自主创新与供应链的安全可控显得尤为重要——传统行业的脱胎换骨、新兴场景的精耕细作、关基领域的守正出奇,都离不开网络之“芯”的鼎力支撑,新质生产力的健康发展也需要“芯”动力的保驾护航。
开创“存算运一体”的AI全栈自主创新路径
以终为始,是解决疑难杂症的必由之路。当我们从网络“芯”制高点上重新审视来时路,就更容易发现那些若隐若现的林中幽径,通过“大胆想象、小心求证”,甚至能将它们连缀成通往山顶的大道。
首先,从源头支持AI全栈自主创新。在集群建设阶段不应只关注GPU的国产化替代,而要将存储、网络、软件等环节统筹兼顾。只有以“存算运一体”的思路驱动自主创新产品及方案真正落地,才能为高性能自主网络技术的成长创造必要条件。
其次,多管齐下推动核心技术攻关。一方面需加大政策支持力度,鼓励关键技术自主研发,促进成果转化;另一方面,国内厂商也要积极参与打造标准开放的技术生态和评测体系,持续提升智算中心网络等场景的应用成熟度。
最后,以行业应用带动全产业链各环节协同共进。从传导机制来看,下游应用的遍地开花,将驱动中游整机的快速发展,进而刺激上游创新技术的研发投入,整个产业链有望形成正反馈效应,网络之“芯”将不再高不可攀。
逻辑推演无法替代躬身实践,自主创新网络的未来之路还需要整个产业链的各方力量共同探索,在不确定性中找到最具确定性的解决方案。运力与算力、存力和谐共舞的美好图景就在前方,执着赶路的同行者永不孤单。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。