近年来,人工智能技术飞速发展,全球掀起了人工智能大模型热潮。2024年政府工作报告首次提出开展“人工智能+”行动,为大模型深度嵌入千行百业作出了指引。据工信部介绍,我国人工智能企业数量超过4500家,完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个,注册用户超过6亿。
大模型训练和推理过程离不开强大的算力支持,智算中心作为关键的基础设施,迎来了前所未有的建设热潮。特别是随着模型参数量从千亿迈向万亿,算力需求爆发式增长,分散的小规模算力资源已不足以应对,在算力焦虑的驱使下,算力中心也朝着万卡规模迈进。
此前工信部等六部门发布的《算力基础设施高质量发展行动计划》明确了顶层算力在未来三年的建设节奏。其中提及,2023-2024年智算建设缺口为23EFLOPS;2025年全国算力目标中智算比例达到35%,智算算力目标为105EFLOPS。
作为数字信息基础设施建设的国家队和主力军,三大运营商近年来积极布局智算中心,尤其在今年以来,运营商在万卡集群的部署也取得了阶段性成果。
所谓万卡集群,是指由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,用以训练基础大模型。这种集群可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。
目前中国移动在呼和浩特和哈尔滨的智算中心已先后投入运营,中国电信和中国联通也分别在上海、青岛等地建设了万卡智算集群和新一代智算中心。
其中,中国移动智算中心(呼和浩特)是全球运营商最大单体智算中心,今年4月宣布正式投产。该智算中心项目入选“2023年度央企十大超级工程”,部署约2万张AI加速卡,AI芯片国产化率超85%,智能算力规模高达6.7EFLOPS。
中国移动智算中心(哈尔滨)是全球运营商最大单集群智算中心,今年8月正式上线投产。该单集群拥有超过1.8万张AI加速卡,AI芯片国产化率100%,可提供6.9EFLOPS智能算力。目前,中国移动九天千亿参数模型已在集群上实现高效、长期稳定训练。
从中国移动智算中心(呼和浩特)AI芯片国产化率超85%,到中国移动智算中心(哈尔滨)的100%,我国万卡集群智算中心国产化已经迈入从有到优的状态,与国外的差距也在不断缩小。
不过,运营商切忌被“热闹”冲昏头脑,时刻不能忘记“冷”思考。虽然我国智算技术一直在进步,但还面临技术迭代快、运营管理等多方面的挑战。按需建设、适当超前才能避免设备闲置和资源浪费,更为关键的是要想办法提升智算中心的使用率,防止算力空置、空转,才能保持投资的良性循环。