作者 | 曾响铃
文 | 响铃说
热潮涌动了一年多,大模型赛道发展走深向实。
现在,越来越多的业界人士,开始回过头来审视大模型快速发展的过程,思考在已有产业进展的基础上,中国大模型发展的未来究竟要如何才能进一步突破。
一方面,AIGC带动算力需求总量不断增长,要有效应对资源支撑的不确定性,在算力供给的稳定性上进一步提升;
另一方面,在算力外,大模型创新也面临从“量的扩张”转向“质的提高”的关键转变,正如业内存在的一种观点所说,要把更多资源放在去探索大模型与各行各业的结合上,而如何结合、实现“质的提高”,目前也需要进一步探索出一套体系化的实践方法论,降低实际落地中的各种不确定性。
不确定性叠加不确定性,是当前本土大模型创新所面临的现实,亟待破局。
大模型创新“靠天吃饭”,如何在充满不确定性的时代稳定持续发展
不确定性本质是什么?答案是,失去对“资源”与“能力”的主动性,无法掌控自己的命运。
“资源”上,只有强大的算力,才能满足更大参数量模型的训练需求,不断提升模型的自主学习和泛化能力。但正如前文所言,目前我们的算力有较为广泛的来源,但供给仍然不算稳定,需要在已有产业链生态建设的成绩上,进一步提升稳定性、确定性。
而这只是业界普遍看到的层面,实际上,“能力”方面丧失主动性隐藏得更深。
在静态视角下,当AI创新技术体系从硬件到软件都由他人设计,作为单纯的“使用者”而非“体系建造者”,就很难再在体系的理解与运用等方面赶超别人。别人设计的规则、体系,是否能够满足开发者、企业特定的开发需要,也存在极大的疑问。
在动态视角下,大模型发展日新月异,各技术环节都需要进行适配,但别人设计的规则体系何时进化、按什么方式去进化都没有可控的持续性。
最终,大模型创新“靠天吃饭”,充满不确定性。
其最终后果,要回到产业竞争的视角来看。
国外AI计算的优势不仅仅在于底层硬件,按其业界领军人士的最新说法,更在于其十年间构建的软硬件一体化生态系统,该系统的显著特点,是能够快速构建起机器学习的“飞轮效应”,即在数据、硬件、算法、训练、推理全过程不断精进,快速从最终应用中反馈结果,持续反哺、强化数据和模型参数,从而形成闭环,不断自我强化。
最近,马斯克团队在短短19天内建成的十万个GPU的孟菲斯超级集群,就是为了快速提升AI推理与训练的能力,实际上也是在加速这个“飞轮效应”。
原本,本土大模型创新,在庞大的市场和数据支撑方面已经有独特的优势,但从机器学习的“飞轮效应”看,只有被动、零散、不成体系的“借用”,我们还缺乏的,就是这样一套加速“飞轮效应”的软硬件生态系统,因此难以取得竞争话语权。
另外,香港中文大学教授、前海国际事务研究院院长郑永年曾表示,中国大模型创新与OpenAI的发展方向不同,不应该是差距,而是差异化。这个差异化,就是指我们要建设好自己的体系、路径,快速做好大模型应用落地,而不是纠结于PK算法能力。
由此,做好自己的软硬件生态体系,坚持和壮大原生创新,变得尤为重要。
积极的消息是,国内一些计算产业生态的发展,正在朝这方面努力——不只是对标,在生态开放上还要更进一步,例如2018年面世的昇腾在一开始就致力于AI算力底座建设,今年3月份以来,围绕算子、模型和应用的开发,昇腾AI基础软硬件得到了全面升级,昇腾原生创新开始新一轮加速。
在华为全联接大会期间,昇腾产业峰会成功举行,除了发布众多与行业领军企业共同推出的行业解决方案,来自伙伴的原生证言、演讲嘉宾的昇腾原生开发实践分享,都向业界展示了过去一段时间昇腾AI原生创新的技术与产业成果。
这套原生开发体系,以更加开放的姿态,正在全方位解决本土大模型创新面临的“不确定性”难题,而其过程,从技术角度看可能十分复杂,有很多逻辑与体系需要拆解、展现,但从开发者、伙伴如何一步步解决痛点问题、做好大模型创新的角度看,却十分清晰明了。
昇腾原生,技术+商业双生态拥抱大模型时代确定性
大模型创新是十分艰深、高门槛的领域,其过程会经历无数的难题。对一个开发者或者创新企业来说,做大模型创新,就如同一个打怪升级的故事,要“关关难过关关过”,任何一个环节出了问题,都到不了目的地。
而当下本土大模型创新在每一关都面临各自的痛点与挑战,原生创新是出现了,但是行不行,是不是能够建设获取产业竞争话语权的软硬件生态,要看是否切实解决了开发者的问题——这些关卡,实际就是对昇腾原生各个维度的考验。
第一关,技术资源准备
开发者面临的问题,不仅仅是在开发环节。找算力,找各种OS、固件、整机、硬件平台……大模型创新的第一步,是准备各种技术资源。
如果说算力资源供给的不稳定性(尤其是高性能算力资源受限)是产业环境的“先天不足”,那么目前软硬件体系存在的兼容性问题则是“后天畸形”,共同让开发者在一开始的资源准阶段就遭遇了一个“下马威”。
具体来看,目前多元异构算力发展,不同OS、固件、整机、硬件平台兼容性问题突出,其中一些算力服务商资源采购受各厂商硬件生态影响,存在应用与硬件紧耦合、难迁移问题,比如一些硬件厂商为了维护自身利益,会构建相对封闭的生态系统,限制其他厂商或第三方开发者的接入。
这种封闭性导致应用开发者只能针对特定厂商的硬件进行优化和定制,加剧了应用与硬件之间的“紧耦合关系”,ISV只能按照制定好的规则进行游戏,这不仅限制了开发灵活性和高效性,也限制了AI应用最终的场景落地效果。
于是,检验我们的原生创新的第一个标准也来了,它是否能解决这个痛点?
异构计算架构CANN、全场景AI框架昇思MindSpore、分布式加速套件MindSpeed、推理引擎MindIE、全流程开发工具链MindStudio、CCAE集群自智引擎……昇腾AI不断推进分层开放、生态兼容,在工具层面进行兼容性开发支撑,真正打破游戏规则,让高效灵活开发成为可能。
“原生创新”是站在开发者视角,解决开发者的关切。昇腾首先让开发者规避了采购过程存在各种不确定因素(买不到、买不足、不匹配等),还以算力供应链完备的特殊优势,以开放的生态实现了软硬件协同的解耦,从而保证了应用开发过程的灵活性与高效性。
这份答卷,昇腾应该说做到了达标。
第二关,技术深度获取
即便是,企业已经做好了技术资源的准备,但对于大模型创新还是不够的。
有业内人士曾经把国内一款知名大模型产品与GPT-4做过对比,发现在技术层面存在大量相似之处,例如都使用了多阶段训练策略——大模型“没有纯粹的技术壁垒”已获得更多共识,尤其是MoE模型出现后,竞争的重心转移到了工程实现上,比如,大规模分布式训练。对开发者而言,这也意味着,获取足够深度的“算子、训练、推理”等一系列技术资源,才是决定最终商业竞争成败的关键。
由此,考验原生创新的第二个标准也就出来了,是否能够“降低技术资源的获取壁垒”?
可以看得见的是,最近一段时间,昇腾在对各层级能力进行高速迭代、深化。
例如,CANN今年5月进一步开放,HC 2024期间还新增NB 2.0等十几类通算融合算子,基本完成了开发者需求的覆盖;MindSpore2.4已进化为原生亲和超节点架构,能进一步提升模型训练效率。
在训练环节方面,今年昇腾推出MindSpeed分布式加速套件,面向大模型训练加速业务流,提供100+预置模型、60+加速算法及算子、10余种微调算法,降低从预训练到增量训练的分布式开发成本,训练性能提升30%以上。
此外,在越来越重要的推理环节,今年3月发布的昇腾推理引擎MindIE支持自适应PD分离部署,大幅提升了推理效率和体验,按照规划,其未来还将面向万亿MoE推理、百万超长序列等场景演进。
原生创新,不仅仅要走出“跟随者”身份,还在主动突破各种技术难关,打开产业发展天花板。
在这份答卷上,昇腾可以说过关了,但未来要获得更高的分数,还要持续深入。
第三关,企业成长、商业成功
搞定技术从来不意味着成功,从现实看,无数的企业还在为生存发展、市场落地奔波,能不能有持续的资金支撑,能力能不能跟上,应用成果能不能转化……这是开发者面临的最后一道关卡,大模型创新不是纯技术理想,有无数的经营发展难题在等待。
对原生创新而言,第三个检验标准也十分清晰——能不能在技术支撑之外,建设一套广泛而立体的商业生态体系,帮助开发者、伙伴成功?
在这方面,昇腾多年来通过一系列动作不断帮助产业伙伴成长。
要人才发展?与高校、科研机构展开合作,产教融合、产研融合培养大量卓越原生人才。
要技能提升?不断丰富社区生态,建设技术布道师辅导、辐射更广泛人群,还提供多层次培训,从普适培养到定向赋能,让开发者更全面地掌握原生技能。而华为方面还要每年投入10亿元培育生态支持鲲鹏和昇腾原生开发,覆盖80%以上算力场景。
要商业成功?一方面商业模式不断创新,积极引入产业生态资源对接,一方面提供算力、NRE、MDF及社区贡献等权益激励,促进商业共赢。
人才有保障,业务技能不再是障碍,产业转化全程有支撑,开发者迈过最后一道关卡不再困难,而昇腾也交出自己一份优秀的答卷,而显然,商业生态的复杂性意味着这份考验将一直持续下去。
原生创新,走入千行百业
计算生态存在着典型的“阈值”现象,只有度过产业应用的参与度阈值,进入不需要巨额投入就能够自我强化的阶段,才能最终走向成功。
对受益于昇腾原生创新的开发者而言,显然也必须期待其迈过这样的“阈值”。
好消息是,越来越多的实践与数据表明,原生创新这条路子,正在跑通。
目前为止,昇腾AI已累计培养3万多名原生开发贡献者,有50多家生态伙伴发布了基于昇腾的原生开发成果。
而且,实践案例还分布在广泛的赛道中。
在基础大模型创新这里,科大讯飞基于昇腾AI平台构建的飞星一号平台,高效支撑讯飞星火大模型训练,训练推理性能已超越了市场上大多数竞争对手。
在企业数智化整合服务商这里,钉钉与昇腾合作推出的AI一体机,帮助研发生产、产品销售等业务场景实现智能化,目前已孵化智能问答、智能差旅等多种AI应用。
在一线生产操作场景,精英数智基于昇腾原生打造矿山大模型应用——“煤矿大脑”安全管控平台方案,正在全国2000多个煤矿守护30余万矿工安全。
层层递进,层层强化,在爬坡的过程中,原生创新的产业落地也变得色彩丰富,可行性正在一步步坐实,走入千行百业的征程,已经开了一个好头。
*本文图片均来源于网络