「炼」大模型，要撞破几堵墙？

作者 | 葛覃

自从“达特茅斯会议”之后，人工智能技术和产业发展三起三落，骤然爆火的大模型让产业看到了一种新的可能，人工智能的价值从分散走向集中，All in one的大模型拓展了商业化的海量空间。

过去几个月，科技圈企业的焦虑可以分为两种，一种是还没做大模型的，一种是开始着手做大模型的，前者担心未来被大模型颠覆，后者担心在做大模型的过程中，自己就先扛不住被淘汰了。

现阶段企业无论是想要从头训练一个基础模型，还是基于已有基础模型精调出自己的专属模型，面临的首要问题就是——训练。

确切地说，是大规模、高性能、异构算力的集群训练。大模型训练需要「熔炼」算力、算法和数据等要素，才能产生生成式AI智能涌现的效果，这是一个复杂的系统工程，覆盖底层软硬件到上层应用的全流程。

笔者观察到，云厂商正在成为大模型训练市场的主导力量，云服务能够屏蔽底层的复杂性，直接将服务提供给客户，大模型训练集群的构建愈是复杂，云服务的价值就愈凸显。

一次体现云厂商综合实力，且可能影响云计算未来格局的新战事，就这样发生了，天翼云的智能计算平台“云骁”，是其中的代表之一。

大模型训练的三堵墙

大家最近的普遍感受就是，能满足大模型训练平台的提供商不多，高性能算力供应整体比较紧张，成本高暂且不表，砸钱还买不到合适的算力，让企业陷入窘境。

企业对大模型训练算力的需求，从囤卡、囤服务器，迅速过渡到寻找算力平台，按照以往的AI任务或者AI模型训练思路，通常单机单卡、或者单机多卡就可以满足，训练周期在小时到数天之间，但大模型显然不是简单的算力堆砌。

如今大模型动辄十亿级、甚至百亿级、千亿级参数，从经济和性能的角度来讲，大多数厂商都不想或不能构建这样的训练平台。天翼云资深专家陈希表示，横亘在企业面前的至少有三堵墙：算力墙、存储墙和通信墙。

首先是算力墙，完成一个千亿参数级别大模型的训练，例如GPT-3，需要314 ZFLOPs，而单卡只有 312 TFLOPS 算力时，一张卡训练一个模型耗时 32 年，所以需要引入分布式训练的方法，使用多机多卡的方式来加速模型的训练，包括比较常见的数据并行和张量并行。

其次是存储墙，单显卡的显存已经无法加载千亿级参数，千亿级参数完全加载到显存大概需要几个TB，如果再考虑梯度、优化器状态等训练过程产生的一些中间结果，占用的显存量就更大了。

往往需要上百张卡才可以支持千亿级参数，一般会引入流水线并行策略，将模型不同的层放到不同节点的显卡内进行计算，一组节点只需要加载某一些层的参数，减少显存压力。

最后是通信墙，由于算力墙和存储墙的存在，大模型并行切分到集群后，模型切片间会产生大量通信，包括节点内多卡通信、节点间通信。不论哪种并行方式，都会涉及到大量的网络通信成本，对总线和总带宽都有很高的要求，要达到几百G的吞吐量。

此外，大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显，随着transformer架构的引入，平均每2年模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm，单卡算力增长不超过4倍，芯片工艺发展落后于大模型的需求。

云骁智算平台，大模型训练的系统性思考

钱学森的《系统论》提出，要从整体上考虑并解决问题，对于系统研究来说，一个核心是认识系统，另一个是在认识系统的基础上去运用和改造系统。

如果我们以同样的视角，观测大模型训练算力平台，其本身就是一个复杂系统，大模型训练需要的不单单是算力，对存储、安全、训练框架都有一定要求，需要一套比较完整的平台或服务来提供支持。

天翼云智能计算平台“云骁”，是运营商首个云、智、超一体化的算力平台，提供智算、超算、通算等多种算力服务，可以满足用户多样化算力需求。

云骁平台基于天翼云TeleCloud OS4.0分布式云操作系统，整合了下一代GPU主机，单卡算力最大可以达到1979TFlops，单机吞吐量可达1.6Tb，支持IB、RoCE等多种RDMA网络，实现us级时延。文件存储可提供百万IOPS、单文件40亿文件能力。同时云骁智算平台针对大模型训练场景还将提供一系列加速能力。

陈希介绍，在ChatGPT尚未火爆之前，云骁智算平台就已经在筹划建设，随着大模型的火热，客户的需求逐渐明确，在AI基础设施层，云骁所要解决的工作也就更加清晰。

“比如大家谈模型训练往往更关注的是GPU算力，但训练之前数据预处理环节，怎么能最短时间把数据加载、发挥CPU算力完成相关处理，让大模型训练任务高效进行。如果这个问题不能有效解决，整个模型训练效率会受到很大影响。这只是其中一个例子，大模型训练过程中的诸多环节涉及大量软硬件协同、调优问题都需要考虑，这些也都是智算平台聚焦解决的。”他说。

过去天翼云售卖的是一台机器，和机器上的GPU卡，大模型来了之后，云骁平台一方面可以整合计算、存储、网络以高性能集群的形态提供算力，同时通过适配各种主流训练框架为用户提供开箱即用的使用体验，另一方面平台重点聚焦软硬件加速包括数据缓存加速、通信库加速、算子优化等能力，让智算算力发挥极致性能；这些功能部分已经实现，部分在规划之中。

只有通过系统思考和精细调优，才能获得最优的训练结果，企业客户所使用的云骁智算平台，即是天翼云技术和认知的系统性输出。

大模型开启的算力新生态

相较于云计算对传统IT的重塑，大模型让云的存在感更突出，细数人工智能的三要素，算力、算法和数据，云厂商天然具备优势，这也是天翼云等厂商的机会窗口。

参照云骁智算平台，云平台可以提供弹性和可扩展的计算资源，以及高可靠性和安全性的数据存储和处理服务，使得大模型的训练和推理任务可以高效地完成。同时，大模型训练和推理需要使用深度学习框架等，可以大大简化大模型的开发和部署过程，云骁已经支持主流的深度学习框架。

云厂商还具备丰富的数据服务和应用接口，可以使得大模型的应用场景更加广泛和灵活。在未来大模型泛化使用阶段，大模型需要持续的数据更新和优化，云平台可以提供持续集成和持续交付（CI/CD）的服务，可以自动化地完成模型的训练和优化过程，使得模型的更新变得更加快速和高效。

可以预见的是，云厂商的智算平台在很大程度上将承接大量的算力需求，在逐渐成型的大模型算力生态中，云厂商居中起到承转合的重要作用。

陈希表示，从最上游的芯片厂商，到算力服务提供商，大模型服务提供商，数据提供商，大模型调优厂商，以及基于大模型的SaaS厂商。在整个产业链条上有非常多的机会。

“大模型未来的发展一定离不开云。云厂商和大模型提供商一定是紧密结合的关系，可能是一体，也可能是合作。”他表示。

天翼云作为云厂商，为大模型服务支撑上也具备一定的优势。例如在多级训练/推理算力布局方面，天翼云提供了中心一级训练池和区域二级训练池；在数据安全层面，天翼云在数据专线、传输全链路安全、数据存储加密、数据备份、数据隔离都提供了完整体系化的能力。

值得一提的是自主创新趋势，在大模型领域，国内很多企业、科研机构对自主创新的需求越来越多，天翼云在国产化AI算力具备完善的软硬件体系，从芯片、异构计算架构、训练框架到平台，能够为客户提供了很好的支持。

作为智算、超算的一体化算力平台，云骁已经在众多客户场景落地，在能源领域，天翼云为客户建设了高性能计算集群，实现了勘探新技术的常规化应用，可缩短地震资料出站时间60%以上；在汽车行业，天翼云为客户打造超算中心，为其工业设计仿真、数字建模等提供高性能、稳定的算力及网络服务。同时，云骁还为智能语音服务、人工智能研究机构等客户，训练和微调大模型。

大模型呼啸而来，在这一次浪潮中不可或缺的智算平台，已经成为云市场的新变量。

The End

「炼」大模型，要撞破几堵墙？

寻求大模型时代算力最优解，虚拟化之外还另一条路径

Ilya离职后第一个动作：点赞了这篇论文，网友抢着传看

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

中美AI新局势：中国大模型加速洗牌，美国要建AI人才的“楚河汉界”｜钛媒体AGI

新一代注意力机制Lightning Attention-2：无限序列长度

“离谱的AI扩图”火了！张张那叫一个出其不意

AI算力提高，高能耗和难散热问题如何突破？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

李彦宏，西二旗新卷王

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

牛弹琴：越南政坛最近经历一次大洗牌让人眼花缭乱

iOS/iPadOS 17.5 “照片复活门”升级：二手设备可显示原机主照片

一哄而上，打不赢美国高科技

欧文不败定律14次赛点战全胜下半场18分连中关键三分拥抱东契奇

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

「炼」大模型，要撞破几堵墙？

寻求大模型时代算力最优解，虚拟化之外还另一条路径

Ilya离职后第一个动作：点赞了这篇论文，网友抢着传看

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

中美AI新局势：中国大模型加速洗牌，美国要建AI人才的“楚河汉界”｜钛媒体AGI

​新一代注意力机制Lightning Attention-2：无限序列长度

“离谱的AI扩图”火了！张张那叫一个出其不意

AI算力提高，高能耗和难散热问题如何突破？

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

李彦宏，西二旗新卷王

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

牛弹琴：越南政坛最近经历一次大洗牌 让人眼花缭乱

iOS/iPadOS 17.5 “照片复活门”升级：二手设备可显示原机主照片

一哄而上，打不赢美国高科技

欧文不败定律14次赛点战全胜 下半场18分连中关键三分 拥抱东契奇

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

字节员工自曝入职两天公司为其花了5万 “土鳖开眼了”

新一代注意力机制Lightning Attention-2：无限序列长度

牛弹琴：越南政坛最近经历一次大洗牌让人眼花缭乱

欧文不败定律14次赛点战全胜下半场18分连中关键三分拥抱东契奇