这是AI重新定义一切的时代,所有终端设备和基础设施都值得再做一遍。眼看着手机、PC都“AI”了,服务器还会远吗?
事实上,多年以前,在GPU和各种加速器的催化下,AI服务器就已扬名立万——只不过彼时的“AI”与当下相比,外延和内涵都尚待成熟。
中国信通院发布的报告显示:截至2023年底,全球算力总规模约为910EFLOPS,同比增长40%,智能算力规模达到335EFLOPS,同比增长136%,远超算力整体规模增速,且这一趋势在未来5年仍将延续。
值得关注的是,这并不意味着狭义上的“AI服务器”会独占其美,而是表明通用与AI之间的界线将被彻底打破,适应AI时代需求的服务器“新物种”会大行其道。可以预见,通用服务器的AI化与AI服务器的通用化有望形成彼此交织的上升双螺旋,服务器由此将进入“下一个Level”。
然而,进化的过程总是充满艰险,横亘其间的诸多挑战不容忽视。面对纷繁的应用场景和参差的技术生态,新一代服务器如何重整江湖?当海量数据迅速飙升、算法复杂度急剧增加,服务器自身的智能化程度能否应付裕如?伴随AI算力密集部署与高能耗之间的矛盾愈发突出,服务器怎样找到最优的突围路径?
近日,浪潮信息重磅发布元脑服务器第八代算力平台,基于开放架构设计,业界率先实现“一机多芯”,在促进多元生态发展的同时,具备更全面的智能和更高能效,树立起AI时代服务器进化的新标杆。只有每一台服务器都嵌入AI基因,数智新世界才能巍然屹立。
通用算力全面拥抱AI:打造OCM开放新生态
最近两年,生成式AI经历了概念炒作、算力大规模建设和应用场景落地等不同发展阶段,各个时期发挥重要作用的主角也不尽相同。
在大模型训练为主导的阶段,GPU无疑是最耀眼的明星,以“加速”见长的AI服务器亦备受青睐。当大模型推理和应用落地渐入佳境,AI与云计算、大数据结合的速度明显加快,数字化和智能化之间更需要协同发力——多元场景下综合计算能力出众的CPU重焕生机,通用服务器必须承担起托举AI负载的重任。
不过,由于x86、ARM、RISC-V等不同架构的CPU种类繁多,且很多芯片为了适应细分场景进一步朝专用化方向演进,统一协议标准、兼容多元生态殊为不易;与此同时,AI推理依赖高并行计算,这对服务器的硬件开发、固件适配、部件测试带来巨大挑战,重塑算力系统迫在眉睫。
其实,发轫于2019年的OAM生态已经给出了解题思路。浪潮信息服务器产品线总经理赵帅表示,当时国内大概有20余款AI芯片,能快速转化成算力系统上市,主要得益于OAM模组规范与生态建设。在浪潮信息等多方力量的驱动下,开放的OAM生态大幅缩减国内外加速芯片和服务器的适配周期,为激流勇进的AI产业保驾护航。
在通用算力全面拥抱AI的背景下,浪潮信息继续扮演引领者的角色,积极参与构建开放计算模组规范(OCM),推动形成基于处理器的标准化算力模组单元,以统一算力底座解决生态难题。浪潮信息服务器产品线规划经理罗剑表示,OCM是拉通整个产业链上下游打造的标准体系,芯片供应商、系统厂商、行业客户都有所贡献,新一代服务器有望沿着硬件开放、软件开源的方向不断迈进。
尤值一提的是,为了推动开放多元算力标准快速渗透,元脑服务器第八代算力平台率先垂范。在发布会上,首款基于OCM的NF3290G8惊艳亮相,以CPU、内存为核心构建最小算力单元,实现处理器算力模组部件化,让不同算力共享统一平台;同时,OAM也再上台阶,基于OAM UBB2.0规范开发的元脑服务器NF5898G8可兼容符合OCP开放加速规范的多款OAM 2.0模组,堪称算力融合创新的里程碑。
服务器“先拿自己下手”:刀锋向内的智能化变革
纵观由IT技术驱动的每一轮波澜壮阔的革新浪潮,不难发现存在这样的共同特征:在新技术赋能千行百业之前,往往要先进行刀锋向内的变革——重塑底层基础设施,并让自己成为最早的体验者。
云计算就是典型例证。大型互联网企业先在企业内部尝试基于开放硬件和开源软件搭建全新的平台体系,支撑业务的规模化扩展。通过实践证明这条路能走通之后,再向外输出,为各个行业的数字化转型构筑坚实的云底座。
AI也会依循类似的路径。人工智能最先改变的是高科技企业,IT基础设施的智能化更是AI大展身手的必要条件。从这个意义上讲,服务器的智能化变革不仅关乎自身的生存空间,而且对智算中心的演进乃至AI产业的发展都会产生深远影响。
令人欣喜的是,元脑服务器第八代算力平台通过搭载自研服务器操作系统KOS、AIOps智能运维管理平台以及AI软件堆栈,开启了服务器智能化变革的新篇章。从快速构建AI开发环境,到作业调度和资源统一纳管,再到智算中心智能运维,服务器智能化已进入全面落地的新纪元。
在通用算力与AI算力加速融合的过程中,会产生不少新的不确定性因素,这对底层基础设施的智能化水平提出更高要求。在智能预警方面,第八代元脑服务器基于对上万台服务器故障数据的建模分析和算法训练,实现内存故障提前预警、内存错误实时隔离、内存故障智能修复,降低内存导致宕机故障率80%;在智能管理方面,借助RTOS实时操作系统,达成开机3秒内智能调控风扇转速,降低30%的噪音,确保散热安全。
此外,AI大模型开发和部署效率低下也会导致算力难以充分释放。第八代元脑服务器直面行业痛点,与服务器云孪操作系统KOS实现软硬协同优化,自研KOS AI定制版简单2步即可完成大模型训练环境搭建,让更多行业客户能享受AI普惠的红利。
创建“绿色算力工厂”:节能减碳迈向崭新境界
据国网能源研究院测算:到2030年,我国数据中心用电量将突破4000亿千瓦时,占用电总量比重约为3.7%。伴随AI训练与推理需求的持续攀升,智算中心的能耗问题愈发凸显,在AI时代面临无法承受之“重”。
显而易见,作为AI基础设施的核心基石,服务器既要借助技术创新完成自身的绿色化,又要改善智算中心的整体能耗水平。基于“All in 液冷”战略,浪潮信息的全线元脑服务器产品均支持冷板式液冷, 并面向数据中心实现从核心部件到整体方案的全方位覆盖。
在活动展区,最新发布的两相液冷130kW液冷整机柜颇为吸睛。它采用两相冷板和负压液冷技术,能提供更高效的解热能力、更灵活的节点支持、更安全的漏液防护以及标准化液冷部件,解热水平高达每平方厘米200W以上,以先进原生液冷技术创新助力智算中心节能减碳。
针对液冷数据中心全生命周期可能遇到的难题,浪潮信息还开创性地推出“绿色算力工厂”解决方案,实现电力到绿色算力的高效转换。该解决方案实现从室外一次侧冷源到室内二次侧CDU、液冷连接系统、液冷服务器等全线布局,以“交钥匙工程”解除客户的后顾之忧。
展望未来,在通用算力与AI算力交汇的开阔海面上,必将呈现出千帆竞渡、百舸争流的景象。拥有23款新品、打破多项SPEC国际性能测试纪录的元脑服务器第八代算力平台已扬帆启航,智能化的灯塔在远方召唤。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
—— 越看越精彩 ——
【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享,记得在公众号留言告诉我们。