打开网易新闻 查看更多图片

每年的云栖大会,是阿里云对外展示其技术进展和市场洞察的窗口。

今年当然也不例外。首先是在模型端,阿里云带来了通义千问开源模型Qwen2.5, 仅仅以72B的参数量就在性能上完胜Meta 405B参数的的Lama3.1,毫无疑问成为当前全球最强的开源大模型。

紧接着,基础层的升级也开始对外展示。通过全棧优化,全新升级后的AIInfra系列产品构建起阿里云稳定高效的AI基础设施产品,使得连续训练有效时长大于99%,模型算力利用率整整提升了20%。

而除了新技术的发布,阿里云这次还完整分享了他们在过去一年在大模型商业落地的市场探索经验,尤其是在政企市场的价值创造。从阿里云在政企市场的这些经验和市场洞察中,可以窥探中国AI走向成熟的一些关键因子。

打开网易新闻 查看更多图片

生成式AI的出现,首先带来的是计算范式的变化。

在云栖大会上,阿里巴巴CEO阿里云董事长吴泳铭将这种趋势阐述为,**“过去几十年,CPU主导的计算体系,正在加速向GPU主导的AI计算体系转移。”**

事实上,这种变化也反应在当前的政企市场上。大模型的出现,尤如一股激流突然冲向了这个市场,对AI算力的储备,成为了各个层面首当其冲考虑的事。

最直观明显的是,以政府或政府所辖国资主体主导的城市智算集群,几乎每一周都会有非常大的订单标的发公告招标。

紧接着,大模型驱动科学研究的浪潮兴起。来自科研机构的需求也开始涌现,尤其是生物、环境、材料、地理、医学等学科的科研智算需求。

此外,大量的企业也开始摸索大模型与业务场景的试点结合应用,企业对智算的需求开始多点开花,出现广泛多样化的需求。

基于这样的市场趋势,吴妈从宏观层面给出了预判,未来所有的软硬件都会具备推理能力,计算内核将变成以GPU,AI算力为主,CPU传统算力为辅的计算模式。

打开网易新闻 查看更多图片

在具体业务落地过程中,则需要考虑的会更为细致。过去行业的认知都集中在,万卡是训练模型的门槛。但是,到了过程中,会发现真正门槛远不止于此。

阿里云智能集团副总裁、产品解决方案总经理霍嘉则表示,“行业对于GPU计算集群的认知还不太一致,这不是简单的加法,拥有了万卡并不代表就拥有了万卡的算力。“阿里云创始人王坚博士也曾针对市场上算力焦虑有过类似的表态,如果数中国的算力其实不少的,更关键的能力在于如何提升算力利用率。

首当其冲的挑战是,在规模化算力能否达到较好的性能;其次,在规模化算力下,是否有良好的系统稳定性,因为GPU服务器坏卡率和BM的故障率都挺高;

同时还得考虑,针对多种芯片的兼容,尤其是在政企市场对数据安全性都有一定要求。"现在中国政企客户最关心的是安全和成本。"阿里云智能集团研究员、阿里云智能集团副总裁、专有云总经理刘国华在拜访了包括很多客户后得出的市场结论。

他进一步阐述到,基于此,政企客户更加期望云平台是满足云+AI协同发展的要求,而不是单一各自去做各自的事情,来最大化提升整体的成本效率。

政企客户这样的视角,对阿里云而言是机遇也是挑战。要知道,阿里云已经服务了超过1000家的政企客户,其中不乏国家医保、12306、海关总署、国家电网、南方电网等大型机关和央企,AI的赋能显然是明显的业绩预期提振。挑战也不容小觑,阿里云怎么选择和构建AI时代的云技术技术体系与发展路径。

眼下的技术语境是,模型的参数规模从百亿到千亿甚至数万亿级别的增长,融合语言、图像、语音、视频的多模态模型需求开始层出不穷,图像模型和视频模型方兴未艾,对以AI计算为核心的基础设施的需求,也显著提升。

在这次云栖大会上,阿里云向外届展示了一系列AI基础设施的升级。

不仅有可以支持单机16卡、显存1.5T的磐久AI服务器,同时提供AI算法预测GPU故障,准确率到92%;

还有可以支持10万个GPU稳定互连的全新高性能网络架构HPN7.0,使得模型端到端训练性能提升10%以上;

此外,CPFS文件存储的数据吞吐20TB/s,为AI智算提供指数级扩展存储能力;

同时还有,可以实现万卡级别训练推理一体化弹性调度的人工智能平台PAI,AI算力有效利用率超90%

这些底层技术能力的演进,支撑了当前大模型技术发展过程中从算力、网络、存储、模型训练、数据处理等各个环节的设施升级需求,而对于政企客户而言就会明显感受到飞天企业版智算升级。

首先是更强的兼容性。整个智算平台支持多芯的GPU融合管理,通过和多家GPU厂商的合伙,实现共计23款GPU都能被支持接入和管理,同时还将国产卡的性能提升10%;

其次是更大的融合技术,基于公专一体的网络架构,支持单一集群1.5万卡的建设,同构体系下在单一模型训练场景下,轻松达到了行业大模型训练的条件;

此外,算力统一运营调度下带来了更高的利用效率。GPU虚拟化和容器调度算力切分粒度达到1%,资源利用率提升100%;

而且,还针对推理场景进行单独的性能优化。基于训推资源调度一体化平台,通过训推任务和资源调度策略结合,将算力资源碎片减少30%,通信带宽提升100%以上,模型的吞吐量提升23%,通过对GPU深度调优,飞天企业版GPU性能较社区版提升10%。

同时,端到端系统稳定性也大幅提升。飞天企业版提供从训练任务到底层基础设施的一体化监控和分析诊断能力,针对故障节点和受影响的作业路径可实现分钟级定位和诊断,整体故障监控覆盖率达到 80%。

打开网易新闻 查看更多图片

值得关注的是,智能升级后的飞天企业版还增加了AIStudio平台和运维大模型板块。AIStudio在兼容国产底层硬件的基础上,可实现模型训练、微调、测评等,内置丰富的行业应用插件,用户可快捷、高效地完成大模型的构建和发布;运维大模型以通义千问为基模,结合超百万运维专业问题、方案等数据训练而成,这将使得政企客户对于云的自主运维能力不断加强,可将日常运维效率提升50%。

也就是说,飞天企业版智算升级让云实现了AI化,而集成在飞天企业版上的一站式 AI 大模型开发平台----百炼专属版也迎来了版本迭代,使得模型服务与云融为一体。该平台不仅集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,还简化了底层算力部署、模型预训练、工具开发等复杂工作,方便政企客户更加高效地开发自主大模型。

打开网易新闻 查看更多图片

百炼专属版2.0,不仅从在底层算力上,兼容了「公共云 VPC」和「专有云」环境,进一步匹配政企市场开发环境需求;支持多芯异构的算力调度,支持多租户模式下的算力、模型、数据隔离与共享。

在大型模型的训练和推理方面,百炼专属版2.0实现了显著的性能提升。它采用高效的分布式训练技术,使得训练速度提高了20%。此外,通过软硬件的协同优化,它在保持精度的同时,将量化误差降低到0.5%,并且推理速度提高了3倍以上。

在模型资源方面,百炼专属版2.0提供了从7B到72B不同规模的大语言模型,以及多模态大模型,以满足不同需求。它还兼容主流模型框架,并支持用户自定义接入第三方大模型。

在模型服务方面,百炼专属版2.0能够处理包括图表、公式、图片、音视频在内的各种内容,以及大文件和巨量文件的解析。利用平台提供的丰富工具和插件,开发者可以通过简单的拖放操作,快速构建智能体。

通过飞天企业版智算升级和百炼专属版迭代,从底层算力到上层模型服务被进一步勾连,云和AI两者协同向前,进一步融合,构建起了智能时代的云技术架构体系。

AI算力的强劲需求,本质是应该是由模型应用来驱动,而非单纯算力数据的军备竞赛来推动。

这也是当前政企市场核心竞争点,客户最关注的还是价值的创造,大模型技术到底能给客户带来什么样的业务价值。但是在当前的市场状况下,似乎每一个客户,甚至于每一个人对于大模型的认知都不太一样。这种差异造成来不少客户对大模型拥有过高的期望,甚至于说有的客户直接期望加上大模型后,业务能发生翻天覆地的变化,拉动业绩甚至于说产品销量的增长。

这种现象从某种层面印证了,吴妈在云栖大会演讲中对当前行业认知阶段的描述,"人们对于新技术革命,往往对短期高估,又对长期低估。"

打开网易新闻 查看更多图片

目前,市场中对模型应用的落地场景主要可以归纳为三类:

首先是,生产效率的提升。除了可以通过各种生产软件上的copilot,帮助提高文档、文案的创作效率。此外,还可以基于Rag搜索增强做知识库的再造,尤其是在知识密集型的领域,带来了显著的价值。

一个典型的案例是,知名药企阿斯利康,基于通义模型搭建的药品不良反应自动分析和总结平台,使得药物安全把控效率提升了300%,准确率从90%提升到95%。产生这个结果背后原因,是对药品不良反应研究工作流场景的深度洞察。

以往专家往往需要阅读大量与之药物不良反应可能有关的论文,再来筛选判断真正有关的文章以及相关片段进行汇总整理,进而产出药品的不良反应报告。你会发现整个工作流中大量的时间和精力花费在搜索阅读和整理,而这部分工作却非常适合依靠大模型来做,专家可以把精力用在真正运用专业知识来进行核心判断和决策的环节,节省了80%的工作量,报告产出效率和准确率也会随之提升。

其次是,营销手段的丰富。基于大模型生产的推广文案、营销海报、产品视频都开始被大量企业所采用,颗粒度和丰富度越来越高。

同时,企业数据价值再挖掘的场景也颇具想象力。大型客户内部都有一个岗位叫BI数据分析师,主要的工作就是基于企业大量的业务数据,进行不同维度数据分析,使得管理层和决策者能够迅速获取业务状态,并且基于BI数据快速制定计划。

针对这种"取数"场景,阿里云通过ChatBI的方式,帮助电力行业的BI数据分析师能通过自然语言的方式,提升复杂电力调控场景下数据查询的效率,进而提高生产率。"取数"场景的另一个典型案例是,中国一汽基于通义千问打造了大模型应用GPT-BI实现了在财务和质保领域的智能报表生成,5秒就可以生成多变量报表,同时还覆盖了汽车产供销等9大决策场景,展现出数据预测和泛化能力,模型准确率高达92.5%。

其实可以发现,在具体大模型落地应用上还算不上是规模性的爆发,但在政企市场的一些细分场景中已经开始呈现出不可比拟的价值。

阿里云智能集团副总裁、解决方案研发部总经理曾震宇则认为,不要把大模型当成一个目的,要严肃认真的去想想业务场景,到底用模型解决一个什么问题,对它有一个合理恰当的预期,保持更多耐心,大模型也确实能在业务中发挥很大的作用。

而从更大的视角来看,落地场景零零星星分布在各行各业,内部却有统一的逻辑,都由AI时代的云驱动,都要通向AGI,正犹如一颗颗分布在草原上火星,会慢慢的连点成片,燃起熊熊大火。"站在AI时代浪潮的开端,我感到无比兴奋。"