在当下的语境中,需要发展AI算力可谓业界共识。但对于具体的路径选择,却莫衷一是——到底应该“大力”发展还是“高质量”发展?

打开网易新闻 查看更多图片

笔者认为,仅靠“大力”是远远不够的,倘若发力方式不得当,甚至可能造成负面影响。以多个维度观察,AI算力“高质量”发展才是正途。

从宏大叙事的视角看,“高质量”是不二之选。国内经济正处于由高速成长向高质量发展转换的关键阶段,数字经济堪称提供新动能的核心引擎,而高质量AI算力则是新质生产力的重要构成。这样的角色定位颇为难得,也不容有失。

就算力产业演进规律而言,“高质量”是必然方向。目前,国内算力产业面临由量变到质变的时间窗,从规模速度型粗放增长转向质量效率型集约增长,从重资产、重硬件模式升级为软硬协同、服务驱动模式,都离不开“高质量”算力的鼎力支撑。

再结合纷繁复杂的外部环境,“高质量”几乎是唯一可行的路径。由于众所周知的原因,依托高性能GPU累积的“大力出奇迹”模式显然无法走通,注重系统创新和潜能挖掘的“高质量”发展模式才是国内AI算力突围的可选项。

笃定选择“高质量”发展的方向只是起点,我们还需要勾勒出它的大模样。2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,如今相关政策的落地有了标准参考和实践指引。

打开网易新闻 查看更多图片

在2024中国算力大会上,浪潮信息联合信通院发布《人工智能算力高质量发展评估体系报告》,首次完整地构建了人工智能时代高质量算力的理论体系,并探索性提出业界首个“五位一体”的高质量算力评估体系。

打开网易新闻 查看更多图片

根据这份报告的定义,高质量算力具备高算效、高智效、高碳效、可持续、可获得、可评估六大特征。在AI算力从野蛮生长过渡到健康发展的新时期,高质量算力犹如全面出击的“六边形战士”——每条“边”均独具特色,每场战役都精彩纷呈。

第一战:有效算力供给不足,供需匹配失衡

作战攻略:以系统设计为核心全方位提升算效

相关统计显示,过去几年,大模型参数量以年均400%复合增长,AI算力需求增幅超过15万倍。AIGC带动算力需求量暴增,供给缺口非常明显。

打开网易新闻 查看更多图片

除了总量缺口外,中国信通院云计算与大数据研究所总工程师郭亮认为,算力供求的结构性矛盾也比较突出。一是众多芯片和模型之间不适配,且大多数智算服务仍采用“裸金属租赁”的粗放经营方式,难以精准满足多元化需求;二是资源利用率不足,部分数据中心的GPU算力利用率偏低,造成资源浪费。

“高算效”即在这样的背景下应运而生,其在提高算力理论算效的同时考虑更高的实测性能和资源利用率。这是兼顾设计维度和短期、长期运行维度的综合指标,有助于破解算效水平不高、算力资源利用率低等难题。

从具体实践来看,以系统设计为核心,围绕生产、聚合、调度、释放算力四大环节提升算效已成大势所趋。在生产算力方面,整合高性能部件,打造多元异构的强大算力机组;在聚合算力方面,运用系统工程方法,构建高效的算力中心集群;在调度算力方面,通过硬件重构和软件定义对AI芯片进行聚合池化;在释放算力方面,聚焦于模型算法、框架、工具的优化完善。

第二战:算力不够智能,无法适应多元场景

作战攻略:构建兼备高效和智能的AI支撑能力

伴随人工智能、大数据、物联网等新兴技术的不断发展,多元应用场景对算力的智能水平提出更高诉求,由此催生“高智效”这个崭新的评估指标。

一方面,数据量和算法复杂度急剧增加,要求算力具备更高的灵活处理乃至分析大规模数据集的能力;另一方面,传统芯片架构存在“存储墙”和“功耗墙”,亟需先进的计算架构将更多算力单元高密度、高效率、低功耗地连接在一起,形成更智能的底座。

从这个意义上讲,“高智效”体现的是算力面向人工智能业务的高效处理能力,模算效率就是重要的参考指标。模型本身精度越高、在对应软件上对硬件性能利用率越高、推理及训练所需算力越小,模算效率越高。

浪潮云海首席科学家张东认为,在算力供需矛盾凸显的当下,提升模算效率,以更低算力实现更高智能是智效水平提升的核心目标。在2024中国算力大会上,浪潮信息重磅发布元脑企智EPAI一体机,通过软硬件高度协同的一体化设计,为客户提供多元多模、简单易用、本地部署、安全可靠的大模型开发平台,堪称改善模算效率、提高算力智能化水平的新标杆。

第三战:算力面临能耗考验,节能降碳任重道远

作战攻略:以全生命周期管理提升碳效

根据中国信通院发布的报告,截至2023年底,我国算力中心耗电量达1500亿千瓦时,预计到2030年将超过4000亿千瓦时,若不加大可再生能源利用比例,2030年国内算力中心二氧化碳排放或将超2亿吨。

在AI通用化进程提速的背景下,节能减碳任务尤为繁重,亟需量化指标的牵引。“高碳效”指的是算力在最低碳排放前提下实现最大化算力输出,其不仅关注算力单纯的能源消耗、算力输出水平,而且注重算力的全生命周期碳足迹管理,通过绿色采购、绿色设计、清洁生产、绿色包装、回收处理等环节降低算力系统的碳排放。

中国信通院云计算与大数据研究所总工程师郭亮最近走访了宁夏、新疆等地新建的智算中心,他认为电力成本优势有助于其形成较强的竞争力。值得关注的是,在靠近绿电的地方建立数据中心,把电力变成算力,再把算力转化成智力,最终赋能应用,这种闭环模式有望成为新的趋势。

打开网易新闻 查看更多图片

第四战:算力呈现多样化发展,但普惠水平偏低

作战攻略:强化智算普适普惠,提升可获得性

当大模型已进入万卡、十万卡的时代,一家企业若想拥有自己的大模型,至少需要几十亿投资,这让大多数中小企业望而却步。与此同时,大模型训练与推理驱动多样化算力需求提升,改善多元算力匹配能力迫在眉睫。

不难看出,“可获得”的重要性日益凸显,其指算力普适普惠,能够适用各种应用场景,同时算力使用成本显著降低。从国内AI产业发展的角度看,在建设大规模智算集群的同时,可在区域建设符合需求的小规模算力中心,并积极构建算力平台,促进供需对接,这样才能推动算力普适普惠迈上更高台阶。

第五战:供应链完备性不足,生态体系需完善

作战攻略:以开放和标准化促进“可持续”发展

事实上,AI算力供应链的风险不只是一般理解中的高端核心部件断供造成的影响。在多元异构算力潮流的冲击下,不同平台和生态系统之间的互不兼容也带来诸多挑战,应用与硬件紧耦合、难迁移的问题更是屡见不鲜。

针对上述痛点,“可持续”意味着算力具备技术兼容、供应链完备、生态开放等特性,能够保证算力持续供给和升级迭代。浪潮云海首席科学家张东表示,浪潮信息作为整机厂商,天然和上下游有很好的合作关系,多年来一直推动开放计算持续演进,并借助相关行业组织加强产业链各环节之间的协作,未来愿与更多同路人共建开放、健康的AI产业生态。

第六战:评估指标简单,实测性能缺位

作战攻略:以“五位一体”评估体系提升算力“可评估”水平

毋庸讳言,过往的算力评估体系通常场景简单,无法全面、深入地反映算力应用的实际效果。特别是在万亿参数模型的训练过程中,软硬件需精密配合,一旦出现问题,其定界与定位过程极为复杂,只有构建全方位、能落地的算力评估体系,才能化解AI新场景的挑战。

令人欣喜的是,《人工智能算力高质量发展评估体系报告》开创性地推出面向AI时代的“五位一体”高质量算力评估体系——基于系统性、全面性原则,从算效、智效、碳效、可获得、可持续5个维度入手,涉及理论算效、实测性能、模算效率等12项指标。

作为业界首开先河者,“五位一体”高质量算力评估体系弥补了现有体系评估场景简单、维度单一、难以反映算力应用的实际效能与发展潜力等不足,可帮助行业客户识别和优化资源配置,提高算力资源使用效率,并激励技术创新,推动整个AI产业持续跃迁。

尤值一提的是,国内智算中心的建设热潮方兴未艾,各地在建、待建的新项目层出不穷。“五位一体”高质量算力评估体系能根据智算中心规划期、建设期、运营期等不同阶段的特点,引导AI算力实现全生命周期可持续发展。

站在更长远的视角,AI高质量算力的外延与内涵都将持续演进,“六边形战士”会拥有更多开疆扩土的新任务。未来的道路既有荆棘,也有繁花,期待跨界的探路者们能在远方再次相逢。