从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

从2023年初ChatGPT横空出世，到后来的百模大战如火如荼，再到如今AI落地换挡提速，围绕算力的“全民焦虑”始终贯穿其间。

供求关系紧张是产生算力焦虑的根源所在。一方面，大模型训练与推理需求呈几何级数爆发——自2022年以来，人工智能算力需求每3~4个月就翻一番，每年训练AI模型所需算力增幅高达10倍，而生成式AI使上升曲线进一步陡峭，未来大模型算力需求每两年会以750倍的速度飙涨；另一方面，硬件算力供给预计每两年仅增长3倍，再加上GPU供应存在“看不见的手”在干扰，算力芯片的供求缺口相当巨大。

焦虑泛滥处，怪象频生时。“N卡难求”引发抢购、囤货风潮，而市场中也很难找到直接对标国际巨头单卡性能的产品。其实，对于单卡性能的执念，很可能是个认知陷阱。相关统计显示，Transformer模型从2017年诞生至今，制程改进促成的芯片性能提升约8倍，而通过系统创新带来的算力综合性能改善则高达1000倍。这意味着单一芯片作用的递减效应渐趋明显，整个系统的价值挖掘愈发重要。透过OpenAI的演进轨迹，就会发现AI算力的重心已从单机向集群蜕变：伴随大模型的参数规模从百亿、千亿到万亿，所需的数据量也从几百B跃升到P级，千卡、万卡集群正日益成为大模型训练的标配。

显而易见，要想走出多重因素叠加造成的国内算力紧缺困境，通过集群互联弥补单卡性能不足，也许是当下最值得探索的路径。考虑到外部环境的制约，以及与国产大模型共同打造AI产业商业闭环的需求，构建自主创新的国产化集群更是迫在眉睫。

值此关键节点，国内GPU头部创企摩尔线程推出的夸娥（KUAE）智算中心解决方案以全功能GPU为底座，包含以夸娥（KUAE）智算集群为核心的基础设施、KUAE Platform集群管理平台以及KUAE ModelStudio模型服务，旨在以一体化交付方式解决大规模GPU算力的建设和运营管理难题。

这是打造国产化智算集群的一小步，更是掌握AI算力主动权的一大步。

从痛点入手寻求集群的突破口

“如果买不到A100，我们到底该怎么办？”这是国内诸多用户在相当一段时间里感到无解的问题。当时，很难找到直接对标且能满足需求的替代产品，搭建集群的崭新路径是一条可行之路。

用户的痛点就是变革的动力。作为国内GPU领域的开路先锋，摩尔线程始终认为应该做“难而正确的事”，构建集群亦是如此。早在2022年，公司成立两周年之际，摩尔线程就组建了云计算团队，确立了建设集群的大方向与具体的实施策略。

随着AI大模型参数越来越大，对算力集群的高度依赖和渴求，让摩尔线程更加坚定了构建大规模集群的决心。如果说百卡或更小规模的集群主要是实验性的尝试，那么千卡集群则是满足大模型训练的基本单元，可以此为突破口不断扩展算力。因此，攻下千卡集群这个桥头堡，支持千亿参数大模型训练，成为摩尔线程的首要任务。

事实上，从0到1的质变过程，对摩尔线程来说并不陌生。摩尔线程短时间内已在全功能GPU产品上取得重大突破，涉足的领域从游戏显卡到物理仿真再到AI训练与推理，能在功能上对标英伟达。从其广泛的布局可以看出，摩尔线程的野心是要打造独特的系统级/平台企业，而不是成为一家单一的芯片厂。

如今，摩尔线程已经具备了云的全栈能力，通过打造国产千卡智算集群，摩尔线程又成为国内第一批“吃螃蟹的人”。

多管齐下探索国产千卡集群的进化路径

关于集群构建的路径探索，业界存在不少误区。有人认为“集群就是一堆服务器叠在一起”，也有人觉得“集群的算力越大越好”，这些观点都低估了复杂系统的运行难度，以及多要素协同突围的重要性。

早在超级计算机流行时期，就曾出现过几千张处理器并行处理的盛况，而要连续运转10～12个小时且保持高度的稳定性殊为不易；对大模型训练而言，通常需要3000～4000P的算力支撑，并预期达成7×24小时不间断的正常运行，这对千卡乃至万卡集群构成了异常严峻的挑战。

以整体来看，集群建设无疑是一个系统性复杂工程，从GPU到服务器再到组成集群，涵盖计算、存储、网络、软件以及大模型调度等多个环节，对算力利用率、稳定性、可靠性、可扩展性、兼容性等指标都有颇高的要求。市场期待出现能满足智算中心全栈式需求的交钥匙解决方案，摩尔线程夸娥（KUAE）正是在这样的背景下脱颖而出。

摩尔线程夸娥智算中心全栈解决方案架构

就解决方案的整个结构而言，夸娥主要有三大支柱：一是以KUAE计算集群、RDMA网络与分布式存储为主体的基础设施，支持从单卡到千卡集群的无缝扩展；二是KUAE Platform 集群管理平台，用户可灵活管理多数据中心、多集群算力资源，并实现运维自动化；三是KUAE ModelStudio模型服务，覆盖大模型预训练、微调和推理全流程，大幅降低大模型的使用门槛。基于三大支柱形成的合力，摩尔线程夸娥（KUAE）解决方案构筑起强大的“护城河”。

首先，显著提升算力利用率（MFU）是集群安身立命的根基。有数据显示，OpenAI在GPT4训练过程中的算力利用率约为35%，还有相当多大模型训练的实际算力利用率不足20%。摩尔线程采用软硬协同设计及端到端并行策略，基于集群通讯库算法、网络拓扑、硬件规格合理配置等方式，综合利用MTLink和PCIe，使通讯性能提升一倍，综合调优下MFU提升幅度超过50%。

其次，稳定性和可靠性是集群行稳致远的保障。在分布式训练中，一张卡坏了就会影响整个训练的进展，而对于千卡乃至更大规模的集群来说，卡坏的概率及破坏性会更高，因此对整个集群的稳定性与可靠性提出前所未有的要求。

摩尔线程夸娥千卡集群支持长时间连续稳定运行，可达到7天连续无故障训练和分钟级的故障恢复，并支持大规模AI分布式训练下全栈稳定性诊断与性能分析，结合断点续训以及高性能网络和存储，异步检查点（Checkpoint）读写少于2分钟，大幅提升集群算力利用率和有效训练时长。

摩尔线程还从多维度确保夸娥能达到客户预期：一是保证卡的质量，从出厂起即做好严格测试；二是开发集群系统监控和诊断工具，辅助筛选和快速定位有问题的卡和服务器，可自动恢复和硬件替换；三是通过checkpoint加速使写的时间从10分钟降到秒级，读的速度从40分钟降到2分钟；四是若判断训练异常，系统自动重新拉起。

摩尔线程夸娥智算集群八大核心能力

再次，改善可扩展性是集群实现全局突破的必由之路。只有以软硬一体的方式进行系统级优化，才能达成可扩展性的全面突围。据了解，夸娥支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等业界主流分布式框架，融合数据并行、张量并行、流水线并行和ZeRO等多种并行算法策略，且针对高效通信计算并行和Flash Attention做了额外优化。基于摩尔线程夸娥千卡集群，70B到130B参数的大模型训练，线性加速比均可达到91%，算力利用率基本保持不变。以200B训练数据量为例，智源研究院70B参数Aquila2可在33天完成训练；1300亿参数规模的模型可在56天完成训练。

最后，强大的兼容性是集群持续进化的动力。基于摩尔线程自研的代码移植Musify工具，客户可快速将现有的主流迁移至MUSA，零成本完成在CUDA上的代码自动移植，明显缩短迁移优化的周期。目前，摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等几十个主流大模型的训练和微调。此外，摩尔线程开源的MT Pytorch支持多种模型的推理，覆盖CV、NLP、语音等多个领域，能运行典型的大模型分布式多卡推理，也支持单机多卡与多机多卡的分布式训练。MT PyTorch还可完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。

奔赴国产AI算力生态的星辰大海

根据GIV的统计，到2030年，通用算力将增长10倍，达到3.3 ZFLOPS，而智能算力将增长500倍，达到105 ZFLOPS。作为人工智能产业的算力底座，智算中心未来3～5年有望保持30%+的高速成长，千卡、万卡集群将是其完成跃迁的重要跳板。

在特定的外部环境因素制约下，国内智算中心未来搭建集群主要有两个选择：一是采用国内外芯片“混搭”的集群模式，这对系统优化的要求很高，“最短的木板”可能影响算力整体效率的充分释放，预计需要较长时间的磨合方能找出最优路径；二是采用国产化的集群模式，在“能用”的基础上向“好用”不断迈进，以扎实的实践成果开辟自主创新的广阔天地。

从这个意义上讲，摩尔线程夸娥（KUAE）智算中心解决方案颇具示范效应，为国产化智算集群树立起新的标杆：一个月内即可帮助用户搭建用作大模型训练平台的千卡集群，交钥匙工程、一体化交付、开箱即用成为其赢得客户信赖的最佳标签。目前，摩尔线程已完成南京、北京亦庄和北京密云3个千卡智算中心的落地，这一模式的渗透进程有望全面提速。

令人欣喜的是，国产化智算集群的探路者并不孤单，摩尔线程等厂商领衔的国产AI算力生态正在形成。当行业应用场景更丰富的国产大模型，得到国产化千卡、万卡集群的加持，才能有望催生富有活力的国产AI应用——这个世界不应该只有一种选择，我们也不应该把主动权让渡给别人。

作者关健，《IT创事记》合伙人、主笔：曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编，媒体从业时间超过10年。

关健长期关注科技产业动态及趋势，与逾百位高科技公司领导者进行过对话，亦在众多科技会议与论坛中担任嘉宾主持。

—— 越看越精彩 ——

【IT创事记】聚焦于企业级科技生态、策略及商业知识。你可以在各主流媒体平台看到IT创事记的同名文字专栏和【IT创事记·短视频】专栏。如果你有相应的内容希望分享，记得在公众号留言告诉我们。

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

上山下海的数据中心，背得动AI能耗的锅吗？

纯太阳能电车何时能实现，马斯克怎么看？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

没有什么能拦住生成式AI落地了

特朗普入驻TikTok，旨在吸引年轻选民

一个智能助手搞定软件开发全流程，从设计到运维统统交给AI

AI算力提高，高能耗和难散热问题如何突破？

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

大疆前高管带6人创业，做出了类目Top1的割草机器人

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大模型不需要眼前的共识

国产机器人也会空翻了！打破限制，世界首款！

OpenAI把GPT-4原始版给了他们：研究不微调只靠提示词能走多远

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

何小鹏：智能驾驶的事故率是人工驾驶的十分之一以内

布鲁金斯学会高级研究员唐睿思：人工智能本质上是美国主导的算力霸权

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

上山下海的数据中心，背得动AI能耗的锅吗？

纯太阳能电车何时能实现，马斯克怎么看？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

没有什么能拦住生成式AI落地了

特朗普入驻TikTok，旨在吸引年轻选民

一个智能助手搞定软件开发全流程，从设计到运维统统交给AI

AI算力提高，高能耗和难散热问题如何突破？

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

大疆前高管带6人创业，做出了类目Top1的割草机器人

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

大模型不需要眼前的共识

国产机器人也会空翻了！打破限制，世界首款！

OpenAI把GPT-4原始版给了他们：研究不微调只靠提示词能走多远

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

何小鹏：智能驾驶的事故率是人工驾驶的十分之一以内

布鲁金斯学会高级研究员唐睿思：人工智能本质上是美国主导的算力霸权

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪