打开网易新闻 查看更多图片

如果说生成式AI开启了新纪元,那么这个大时代也许可以分为两个阶段:百花齐放、百家争鸣的“春秋”与诸侯博弈、众神归位的“战国”。

打开网易新闻 查看更多图片

当下,正处于从“春秋”过渡到“战国”的关键节点。经历了百舸争流的喧嚣之后,AI大模型在“Scaling law”的驱动下持续进化,参数规模和复杂性不断攀升,训练与推理数据量呈现几何级数增长,这对算力底座提出前所未有的新要求,整个产业生态需要借助“纵横捭阖”完成重塑。

从纵向看, 单系统算力性能提升(Scale up)的紧迫性尤为突出,增加单个设备或节点的计算能力离不开更强大的AI加速卡及处理器,而多芯片互连间存在的隔阂乃至樊篱无疑阻碍了算力潜能的充分释放;从横向看,集群规模扩展(Scale out)亦颇为重要,从千卡到万卡、十万卡甚至百万卡,构建大规模集群不是简单的算力堆叠,对网络搭建、高效供电与制冷、算力资源管理带来空前挑战。

历史上,合纵连横是战国时代走出混沌的重要基石。当AI产业的“战国”时代来临,能否打破过往各自为战的“紧耦合”状态,借助新兴的标准体系和开放组织再造算力基础设施,演绎全新版本的“合纵连横”?

打开网易新闻 查看更多图片

在近日举办的2024开放计算中国峰会上,通过构建全球化的开放协作平台,合力解决大模型重构AI基础设施的全向Scale难题,成为社区领袖、技术大咖、行业专家以及千余名IT工程师和数据中心从业者的共识。尤值一提的是,开放加速规范(OAM)已得到产业链广泛认可,开放算力模组规范(OCM)也正式启动,兼容并包、活力尽显的崭新算力生态崭露头角。

种种迹象表明,注入开放基因的AI算力产业生态,将为AI大模型的真正落地创造必要条件,多元共生的AI产业图景并不遥远。

开放加速规范OAM迭代升级:打通AI算力普惠的底层逻辑

事实上,开源开放既是加快AI大模型向千行百业渗透进程的最优选择,也是实现AI算力普惠的终极路径。

打开网易新闻 查看更多图片

从算法演进的角度看, 尽管一些闭源大模型取得了不错的进展,但以Llama为代表的开源大模型在整体性能和进化速度上并不逊于顶级的闭源大模型。更为重要的是,开源大模型显著降低了企业应用AI解决实际问题的门槛,其产业层面的贡献度非常突出。

就算力普惠的维度而言, 开放同样是驱动AI算力“下沉”的最强动力。浪潮信息服务器产品线总经理赵帅认为,IT产品的不断解耦化是开放计算的重要成果,而过去的主要受益者是大型互联网公司——伴随标准体系参与者的壮大和应用生态的完善,各个细分行业有望“雨露均沾”。

当然,开放标准体系的建立不可能一蹴而就,必须深入底层逻辑,谋求业界共识。倘若将千卡以上AI芯片构成的集群比作类似“人体”的系统工程,那么要保障其高效协同工作,则要从最基础的“细胞”入手,解决单个服务器内多元AI加速卡形态和接口不统一、高速互连效率低、研发周期长等问题。

正是在这样的背景下,开放加速规范OAM应运而生。作为开放计算社区的引领者,OCP特别成立了OAI小组,对更适合超大规模深度学习训练的AI加速卡形态进行定义,并发布开放加速规范OAM,得到英伟达、英特尔、AMD、微软、阿里巴巴、谷歌、浪潮信息等AI芯片企业、互联网公司、系统厂商的支持和参与。

打开网易新闻 查看更多图片

值得关注的是,新规范的落地需要行业领头羊在最艰难的投入期更多付出,且以成熟的产品与解决方案率先垂范。 据浪潮信息AI&HPC产品线高级产品经理张政透露:OAM规范中有很多理念是比较超前的,例如提前布局超大规模的深度学习神经网络需要的互联拓扑等。虽然浪潮信息在2019年定义OAM规范的时候,初始阶段合作伙伴很少,客户接受度也不高,但在开放社区持续投入多年之后,国内外主流芯片厂商都采用了OAM的开放标准,整个产业链受益良多。

作为开放加速规范标准的倡导者和推动者,浪潮信息定义了业界第一个符合OAM规范的8卡互连硬件系统,首次达到OAM规范下芯片互连的最高速率56Gbps,且仍在研发更高速率的开放加速规范;浪潮信息最新一代基于OAM规范的AI服务器NF5698G7支持多种基于OAM标准的开放加速芯片,并为用户构建千卡液冷集群,支持超千亿参数量的AI大模型训练。

站在更开阔的视角,开放加速规范OAM已成为全球最多高端AI加速芯片遵循的统一设计标准,为AI芯片企业缩短研发时间6个月以上,为整体产业研发投入节省数十亿元,极大降低了AI算力产业创新的难度,有助于高质量AI算力达成普惠。未来,基于OAM2.0规范的AI加速卡将支持8k+加速卡的Scale up,从而突破大模型互联瓶颈。

开放算力模组 (OCM) 规范突破坚冰:以CPU统一底座推动通用算力加速进化

在过去一两年的时间里,生成式AI每隔几天就会爆出热点事件,大模型在政府、金融、通信、公共事业等传统行业的落地速度更是一日千里。当“AI重新定义一切”的趋势不可逆转,通用算力与AI算力之间的界线正变得逐渐模糊。

浪潮信息服务器产品部产品规划经理罗剑认为,算力平台的多样化与通用算力迭代加速,是最引人注目的两大变化。其一,AI大模型应用与云、大数据、数据库等通用场景的结合更为紧密,促使算力平台不断细分,再叠加不同厂商的产品也存在差异,算力走向多样化是大势所趋;其二,算力平台的迭代速度从原来的3到5年变为1年左右,只有通过标准化的算力模组,才能让算力快速抵达用户。

显而易见,为了高效应对纷繁复杂的场景,缩短从芯片到计算系统的转化时间,给用户提供更快、更好的算力支撑,CPU端也亟需构建统一标准,以兼容不同芯片厂商及多代产品,进而增强通用算力的AI能力。

然而,这件事知易行难。目前,x86、ARM、RISC-V等架构的CPU处理器可谓争奇斗艳,仅国内就有10多种CPU处理器被各个行业使用。由于不同CPU协议标准不统一,随着系统功耗、总线速率、电流密度不断提升,难免导致硬件开发、固件适配、部件测试资源等投入激增,给算力系统设计带来巨大挑战。

打开网易新闻 查看更多图片

这是整个产业链必须共同面对的难题,破冰之旅势在必行。在2024开放计算中国峰会上,开放算力模组 (OCM) 规范正式启动,这是国内首个服务器计算模组设计规范,首批成员包括中国电子技术标准化研究院、百度、小红书、浪潮信息、联想、超聚变、英特尔、AMD等,旨在建立基于处理器、内存为核心的标准化算力模组单元,为通用算力在AI时代加速进化扫除了障碍。

基于CPU的统一算力底座创建新型产业生态,是OCM标准立项的核心目标。 开放算力模组规范通过统一不同处理器算力单元对外高速互连、管理协议、供电接口等,实现不同架构处理器芯片兼容,方便客户根据人工智能、云计算、大数据等多样化应用场景,灵活、快速匹配最适合的算力平台,促进产业生态健康发展。

奔赴全向Scale创新:以开放基因应对AI时代新挑战

从某种意义上讲,算力底座的标准统一与升级换代只是冰山一角,AI大模型对基础设施的全面再造才刚刚拉开帷幕。据预测,未来10年,算力性能将再提升100万倍,数据中心将在算力、网络、存储等维度完成全新蜕变。

打开网易新闻 查看更多图片

除了纵向的Scale up演进,横向的Scale out进程也需要开放计算的鼎力支撑。 在开放网络领域,已实现网络的软硬解耦,并能创建灵活、敏捷和可编程的网络架构;在节能减碳领域,开放的液冷规范有助于加快液冷技术产业化速度和行业渗透力度;在系统管理领域,开放的BMC管理规范将更好地满足数据中心大规模设备管理需求。

当全向Scale创新成为业界潮流,开放生态带来的产业繁荣固然值得期待,但标准化、模块化程度的提高是否也可能造成各个厂商产品愈发同质化?赵帅认为,与上述挑战相比,开放对整个产业链带来的益处显然更多,如促进新技术快速迭代、与客户更紧密接触、加快产业化落地进程等。对具体厂商而言,在恪守标准的基础上提升工程化能力和产品创新速度,才能“永远比别人领先半拍”。

战国时代的纵横家“鬼谷子”在其著作《捭阖篇》中指出,“达人心之理,见变化之朕焉”,而“达人心”才是正途。AI“战国”时代的算力“合纵连横”岂非如此?赢得产业链上下游的合作,赢得最终用户的信赖,开放计算的新篇才更有味道。

作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。

关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。

打开网易新闻 查看更多图片

—— 越看越精彩 ——

【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。