在计算架构发展的进程中,开放与封闭的竞争从未停歇。但历史的长卷告诉我们,开放的力量总是能够打破封闭的束缚,引领行业走向更大的繁荣。
在信息化早期,大型机凭借强大的计算力和稳定性,坐上计算架构的王座。但因其封闭性,被 RISC系统以简洁的指令集和开放的架构,一举打破了大型机的垄断,为计算机技术的进一步发展开辟了新的道路。
同样在服务器操作系统领域,起初都是 Windows等商业操作系统作为市场的主导,但 Linux出现之后,以其开源、开放和可定制的特性,迅速激发了创新活力,随着越来越多的企业和开发者加入 Linux社区, Linux也逐渐建立了自己的统治地位。
当我们走进智算时代,大模型的发展要匹配异构算力架构,而异构就代表了复杂多元的生态,唯有开放才是发挥智算效率的最佳路径。这也是浪潮信息在发布元脑 ®服务器第八代算力平台时,始终强调开放路线的主要原因。
1
异构算力的体系构建
“开放”是最核心的话题
对社会文明来说,人工智能已经不仅仅是一项简单的技术革命,它是一个新时代的更迭。就如同工业时代之于农业时代一样,会带来天翻地覆的变革,影响人类社会未来百年的进程。
浪潮信息高级副总裁刘军说,“如果把AI产业看做一座浮在海面的冰山,当前的技术创新只是1/10的水上部分,产业应用是9/10的水下部分还没有完全显现。中国则是AI应用发展的天然沃土,会为AI提供最丰富的应用场景和最广大的应用空间。”
确如此言,我们已经看到,在街头巷口,智能交通系统以精准的算法控制着车辆的流动,减少拥堵;在田间地头,实时监测农田的土壤湿度、温度等数据,让农民不再靠天吃饭;在校园课堂,人工智能技术正为学生提供个性化的学习方案,帮助老师更有效的传递知识 ……
在千行百业,无数个场景都在探索智能化应用的背景下, AI的应用领域逐渐增多,市场规模的不断扩大,当然也同时带来了对 AI算力的巨大需求。
可惜的是,当前传统企业的算力部署存在明显的错位现象,大模型所需要的算力是异构算力架构,是融合了通用算力、高性能算力和 AI算力的混合算力架构,这与企业传统 ICT架构严重不符。传统 ICT架构尽管成熟,但体系生态封闭,并不利于算力效能的发挥。
而根据 IDC数据预测, 2027年中国智能算力规模将达到 117EFlops,是 2024年 2.3倍,增速将达通用算力 2倍及以上, AI算力的需求缺口仍将持续扩大。这意味着在大模型时代,要发挥算力的最大价值,迈向多元异构计算体系是必由之路。
因此,刘军指出,异构算力的体系构建, “开放 ”是一个最核心的话题。“异构算力体系的核心优势就在于能够充分发挥各种计算设备的优势,提高智算效率。如果体系不够开放,企业会面对更多的兼容性和集成性问题,不仅会增加开发的成本和难度,还会导致不同计算硬件的性能无法充分发挥,从而降低了应用的性能和效率。同时在安全性上,不够开放也意味着信息交互的复杂性和不确定性增加,增加系统安全和稳定性的风险。”
浪潮信息、信通院、Intel、AMD、阿里云、国家新能源汽车技术创新中心、金山云代表共同发布
唯有 “开放 ”,才能发挥异构算力最大的效能!
2
算力不仅来源于芯片,更来源于系统
钱学森的《系统论》认为:系统是由一些相互关联、相互作用、相互影响的组织部分构成并具有某些功能的整体。从系统的角度来看,如果把系统分解为部分,单独研究一个部分,就算把每个部分都研究清楚了,也回答不了系统整体性问题。
显然,《系统论》的理念很好的表达了计算机架构的运行逻辑:整个计算机生态是一个完整的系统,它的每一个组成部分都应该协同发展,单独某一项技术如芯片技术的飞跃,并不能带来整个计算机系统的提升。
浪潮信息服务器产品线总经理赵帅的理念与《系统论》不谋而合,他认为,“算力不仅来源于芯片,更来源于系统。”
而算力效率则代表了系统能力的一部分,“浪潮信息在持续升级融合架构技术,打破以芯片为核心的单机系统设计思路,构建大规模可扩展的 AI算力系统为出发点、可全面实现资源池化弹性调度的全新架构,各类异构资源按需在线扩展。”
落实到在产品策略上,发挥算力效率的关键,就在于拥抱硬件开放和软件开源。在此基础上,浪潮信息则以“平台化 +模块化”的产品设计,持续完善一机多芯产品架构,全面支持 OAM/OCM算力的开放标准,让不同算力共享统一平台,降低算力产业创新试错成本和适配成本,也让多元化的应用场景都能方便快捷的适配到贴合的方案。
对开放生态最早的探索,源自 2019年 OAM生态的建立,浪潮信息通过开放的设计理念推动 OAM的生态繁荣。截至 2024年, AI加速算力单元中 90%高端加速卡都采用 OAM形态, OAM显然已经成为了事实上标准。
这时候赵帅发现,“如同 OAM构建了统一的加速芯片底座,促进了加速算力生态的完善,我们同样需要构建 CPU的统一的算力底座,以解决 CPU计算的平台效率问题。因此我们在今年也提出了 OCM( Open Compute Model)开放算力模组的概念”。
而元脑服务器第八代产品,让浪潮信息首次将这个构想变成了现实。
最新一代元脑服务器 NF3290G8,就是全球首个基于开放 CPU架构设计的服务器,是浪潮信息对于 CPU开放算力模组的最佳实践,以 CPU、内存为核心构建最小算力单元,通过标准化它向前的高速 /低速互联接口,实现处理器算力模组部件化。
关键的是,它可以同时支持 Intel、 AMD处理器,全场景算力适配,实现统一算力架构和一机多芯。
浪潮信息服务器产品线规划经理罗剑说,“ OCM的核心理念是,原来服务器系统都是以 CPU为核心,有了处理器才有系统,但智算时代的场景非常多,不同的业务场景选择的芯片类型也不尽相同,对芯片算力的要求也不一样,这就要一个解耦的架构,把 CPU当做一个部件,而算力则以整个系统为核心,根据用户不同的应用场景来自由组合这些关键部件来满足业务要求。”
不难发现, OCM架构的颠覆之处,就在于它不再以 CPU为核心来设计产品,而是由场景需求为核心来设计产品,这个系统性的变革首次让需求真正站在了产品之前,是“需求至上”的最大胜利。
3
开放多元的产品理念
为客户创造最大价值
真金不怕火炼,好产品始终是赢得客户的“金刚钻”。
而秉承着开源开放,多元发展的理念,元脑服务器第八代新品实现了全栈的开源开放,从部件、节点、整机柜到固件,实现了各样产品的快速落地。并在各种算力场景下,给予用户最佳的体验。
如前文提到的基于 OCM架构的 NF3290G8,整机全面解耦,以 CPU、内存为核心构建最小算力单元,标准化高速 /低速互联接口,实现处理器算力模组部件化,灵活支持多类型 CPU,让不同算力共享统一平台,以用户的场景需求为牵引,提供高效的算力输出。
而在 AI算力方面, NF5898G8具有强大的兼容性和卓越的性能,不仅支持 Intel Granite Rapids( SP和 AP)与 Turin的双 CPU平台,还可以兼容符合 OCP开放加速规范的多款 OAM2.0模组,通过全模块化的设计及极致的系统能效满足算力快速迭代需求,进一步加速算力融合创新,为人工智能领域的发展注入新的动力。
特别要提旗舰机型 NF5280G8,它作为一款双路全能高端旗舰机架式服务器可全面兼容 Intel和 AMD最新的计算平台,以及各种加速卡,在不同业务场景下可以提供最合适的配置平台。同时,还可以采用风冷、液冷两种散热方式,真正做到一款机器,上百种配置搭配,覆盖从通用计算到异构计算,从存储型到 IO型,从风冷到液冷等全场景需求。
客观的说,智算时代不仅需要强大的算力,更需要多元的算力以满足复杂、多样的计算场景。以芯片为切入点的传统产品设计思路,势必会被以系统为核心的产品理念所取代。
因而,唯有开源、开放,才能发挥算力最大的价值,唯有开源和开放,才能定义智算时代。
在此意义上,“浪潮信息会一直坚持以应用为导向、以系统为核心的整体战略,解决在 AI的算力、算法、数据、生态等各方面遇到的挑战。”赵帅说。