在人工智能 (AI) 时代,AI 芯片大厂英伟达的 GPU 成为了最强抢手的芯片,也让英伟达一跃成为了全球市值最高的企业。英伟达 CEO 黄仁勋曾多次公开表示,全球公司正在从基于 CPU 的通用计算向基于 GPU 的加速计算和生成式 AI 过渡。然而,不管计算领域的潮流如何更迭,不可否认的是,CPU 依然是这个 AI 加速计算时代的发展基石。
在 2024 年 11 月 21 日于深圳召开的“Arm Tech Symposia 年度技术大会”上,Arm 终端事业部产品管理副总裁 James McNiven 也指出,“无论是现在还是未来,Arm CPU 都将是 AI 运行的基石,同时结合 Arm 面向基础设施、汽车、终端等多个市场推出的 Arm 计算子系统 (CSS),以及强大的 Arm 生态优势,Arm 已成功转型为面向未来的应用广泛且至关重要的计算平台技术提供商。”
AI 时代,CPU 为何依然是基石?
虽然目前在云端 AI 市场,以英伟达为代表的 GPU 厂商占据了很大的市场份额,黄仁勋也多次强调,“英伟达将可以利用 GPU 完全取代传统的基于 CPU 的数据中心”。但事实上,GPU 所能够取代的只是被用于 AI 计算的 CPU,或者说将 AI 计算负载从 CPU 上部分卸载下来。
因为对于任何 AI 基础设施或者 AI 设备来说,CPU 都是最为关键的“大脑”,它具有非常灵活地负责各种类型的通用计算与控制的能力,相比之下 GPU 更多的还是面向图形计算和 AI 加速计算,无法替代 CPU 的通用计算能力。所以,不管是英伟达还是 AMD 的八张 GPU 加速卡的服务器,其中都必须搭载 2 个 CPU。即便是的英伟达目前最强的 AI 芯片 GB200 当中,也依然集成了其自研的基于 Arm 架构的 Grace CPU。
而目前云端的主流 AI 加速计算方案也都是基于“CPU+”的模式,比如 CPU+FPGA、CPU+GPU、CPU+TPU、CPU+ASIC(包括各类 NPU)等。正如前面所说的,CPU是通用计算内核,在负责通用计算与控制的任务的同时,也能够灵活地应对各种类型的 AI 计算需求,但是效率偏低,因此需要配合其他类型的芯片来提升 AI 计算的效率。
比如,AISC、TPU 针对特定的 AI 算法计算效率最高,但是也仅仅针对特定的 AI 算法,灵活性较低;FPGA 可编程特性带来了更高的灵活性和计算效率,但是却有着芯片面积、功耗、成本等方面的缺点;相比较而言 GPU 在 AI 计算效率、灵活性等方面的比较均衡,但随着云端 GPU 的成本的越来越高昂;此外,AI 加速计算的需求也开始更多地从训练转向推理,也推动了对于 CPU+ASIC 或者其他混合式 AI 加速计算方案的需求增长。但不管怎样,CPU 依然是各类 AI 加速计算方案的核心。
特别是随着生成式 AI 开始进入到边缘侧的趋势之下,也推动了 AI 加速计算从云端转向对于成本、功耗、能效、隐私保护更为敏感的边缘侧,CPU 对于 AI 的重要性也更为“凸显”。
比如目前常见智能手机 SoC,其内部的 AI 计算基本都采用的是异构计算的架构,即在利用 NPU 进行专用 AI 加速的同时,还将利用 CPU、GPU、DSP 来协同进行 AI 计算,因为这样的计算架构能够利用最适合的内核来运行对应的 AI 算法,可以极大的提升 AI 计算的能效。
再比如对于一些成本和功耗敏感的物联网设备来说,其内部甚至都没有 GPU、NPU 等内核,其所有的计算任务可能都将是基于 CPU 来做的,同样对于 AI 的计算也需要依托于 CPU 来完成。
虽然目前在云端 AI 计算市场主要由英特尔、AMD 的 CPU,以及英伟达 GPU 所统治,但是 Arm 也早已经向云端 AI 计算市场发起挑战,并已经取得了一些成绩。而在边缘侧的 AI 计算领域,Arm 更无疑是最大的“赢家”。
James McNiven 透露,截至 2025 年底,全球将有超过 1,000 亿台基于 Arm 架构的设备可具备 AI 功能,囊括了手机、PC、穿戴设备、汽车、服务器等几乎所有主要类型的 AI 设备。
面向 AI 时代,Arm 已成为 AI 计算的基石
早在 2021 年 3 月底,Arm 就发布了全新的 64 位指令集 Armv9,这是Arm架构十年来最大的一次版本升级,带来了AI和安全等方面的全面升级。
具体来说,Armv9升级了SVE2指令集,可以支持从128位扩展至2048位的矢量计算,显著增强了处理器对矢量计算的支持,这对于需要大量矩阵运算的AI和机器学习应用来说,将带来极大的性能提升。
同时,Armv9还通过优化机器学习指令集,提升了机器学习的处理能力。Armv9还推出了CCA机密计算机体系架构,引入动态域技术,增强了系统安全性,保护数据不会轻易被破解和攻击,进一步提升了AI应用的安全性。
此外,Armv9还具有极高的可扩展性,使得它能够广泛应用于从智能终端设备到大型数据中心的各种计算场景。
可以说,Armv9从设计之初,面向的就是未来AI时代的计算需求。
James McNiven表示:“Armv9 专为人工智能打造,将引领 Arm 计算平台迈入下一个辉煌的 10 年。得益于SVE2 指令集、伸缩矩阵扩展 (SME) 、CCA等关键技术, Armv9 不仅能带来卓越的性能、安全性、可扩展性,还能在生态系统内实现无缝迁移,进而带来更加出色的整体效能。”
谈到Armv9如何面向多元化的应用场景,为客户提供更具创新性、差异化的解决方案,James McNiven进一步解释称, “在人工智能领域我们也意识到异构计算是必要的,意味着我们需要灵活调配计算资源,这就是Arm的优势所在。我们一直在 CPU、GPU、NPU 当中添加人工智能的能力,能够实现灵活的组合,但这还远远不够。对于 Arm 的计算平台来说,我们不再是简单的将这些模块堆砌在一起,我们将其做成一个整合的完整的解决方案为大家带来更多价值,我们称之为 Arm 计算子系统 (CSS)。”
近几年来,Arm也已经面向基础设施、终端等多个市场推出了 Arm 计算子系统 (CSS),旨在提高前沿 AI 体验的性能、效率和可访问性,帮助生态系统合作伙伴更轻松、更快速地打造自己的芯片解决方案。使得 Arm 作为计算平台不仅仅惠及单一领域,而是能够服务于整个生态体系。
目前众多芯片设计厂商基于 Arm 架构的处理器正在数据中心基础设施市场、智能手机、AI PC、智能汽车等边缘设备的 AI 方面发挥至关重要的“基石”性作用。
比如在数据中心(服务器)市场,近年来亚马逊云科技(Graviton系列)、阿里巴巴(倚天系列)、微软 (Cobalt 100)、谷歌(Axion系列)、华为(鲲鹏系列)等头部的云服务厂商都推出了自研的服务器 CPU,同时也有像 Ampere等第三方的服务器 CPU 厂商,均推出了基于 Arm CPU 架构的产品。
为了助力 Arm 服务器 CPU 厂商的设计,Arm 在 2023 年 10 月还整合了特殊应用 IC (ASIC) 设计公司、IP 供应商、电子设计自动化 (EDA) 工具供应商、晶圆厂与固件开发商等业界领导企业资源,推出了“Arm 全面设计” (Arm Total Design),致力于加速并简化 Neoverse CSS 构架系统的开发,协助各方进行创新、加速产品上市时程,并降低打造客制化芯片所需的成本与阻力。今年 6 月,联发科就有宣布加入 Arm 全面设计 (Arm Total Design) 生态项目,不排除联发科也可能基于 Arm 架构开发服务器 CPU。截至今年 10 月,参与 Arm 全面设计的企业已迅速成长至30 家,并已经开始加速基于 Neoverse N 系列或 V 系列 CSS 的测试芯片与小芯片产品的开发。
在智能手机市场,Arm 是当之无愧的霸主。目前几乎所有的智能手机 SoC 都是基于 Arm CPU 架构(包括苹果 A 系列处理器和高通骁龙处理器),并且绝大多数的智能手机 SoC 还采用了 Arm GPU 和互连技术。同时,在 Arm PC 市场,得益于 Arm 指令集所带来的高性能、低功耗能力的加持,苹果的 M 系列处理器大获成功,并实现在 Mac 产品上对于英特尔处理器的全面替代;同样,高通去年推出的全新 AI PC 处理器——骁龙 X 系列也是基于 Arm 指令集架构的。
今年 5 月底,Arm 还发布了首款面向智能手机和 PC 等终端产品的 Arm 计算子系统 —— 终端 CSS,带来了最新的 Armv9.2 指令集的 CPU 集群,加入了对于 SVE、SVE2 指令的支持,包括最高性能的 Cortex-X925 CPU、最高效的 Cortex-A725 CPU、更新后的 Arm Cortex-A520 CPU,此外还带来了性能最高、效率最高的 GPU——Arm Immortalis-G925 GPU 等。
联发科最新推出的天玑 9400 旗舰移动平台就是搭载 Arm Cortex-X925和 Immortalis-G925,为其第二代全大核架构、游戏性能及生成式 AI 体验的提升提供了全面的助力。联发科天玑 9400 已被包括 vivo、OPPO、Redmi 等品牌厂商的旗舰手机所采用。
在汽车市场,全球 15 家顶级汽车芯片制造商均已授权使用 Arm IP。100% 的高级驾驶辅助系统 (ADAS) 芯片供应商正在基于 Arm 技术开发其下一代芯片。85% 的车载信息娱乐系统 (IVI) 采用 Arm 技术。据了解,Arm还将于2015年推出汽车计算子系统。
总结来说,经过多年的发展,目前 Arm 已经成为了数据中心、智能手机、AI PC、智能汽车、物联网等众多行业发展的关键基石。特别是随着 Arm 转型为计算平台技术提供商,凭借业界领先的高能效、低功耗技术创新,Arm 也已经成为了最普及的 AI 计算的基石。
面对AI带来的巨大市场机遇,Arm认为中国市场将是重中之重。James McNiven在此次大会上也指出:“我们相信中国的创新正在引领全球人工智能的变革,因为中国是全球最大的智能手机和智能汽车市场。”据市场预测,在汽车领域,到2026年L3级的自动驾驶车辆将会超过百万辆,而在今年年底将会有1.7亿台手机得到人工智能的加持。同时,AI PC的市占率也将超越55%,以AI为主的数据中心增长达到了5倍。预计到2032年,中国的人工智能市场规模将达到1.1万亿。
多元且强大的软件生态系统:持续推动软硬件在 AI 应用的协同创新
高效、节能的硬件 IP 是 Arm 的一大关键优势,但是相对于其他处理器架构来说,Arm 所拥有的庞大的跨平台软件应用生态也是另一大关键优势。凭借多年来在 Arm CPU 平台上进行的大量的软件开发经验,Arm 打造了一整套的统一的开发工具链,全面覆盖了云、边、端等应用生态,开发者可以一次学习,即可快速复用到其他领域。
比如,为了加速开发者开发基于 Arm 架构的处理器的 AI 应用的开发,Arm 今年还推出了全新的 KleidiAI 软件库,具有高度优化的机器学习 (ML) 内核的集合,使开发人员能够在通过高度优化的生成式 AI 框架运行 AI 工作负载时释放 Arm CPU 的全部潜力。目前 KleidiAI 已经用于 PyTorch、MediaPipe 和 Meta Llama3 的开发。在此次Arm Tech Symposia 年度技术大会上,Arm还宣布KleidiAI已经和腾讯混元模型集成,为端侧AI的开发性能提供支持。
可以说,Arm KleidiAI 软件库为软件开发者带来充分利用硬件性能的能力,大幅简化人工智能的开发。
以上种种,无不体现出 Arm 通过全面的软件生态系统支持开发者和企业的创新实践,并在面向 AI 的软硬件协同中所扮演的关键角色。据 Arm 介绍,目前全球有 2,000 多万名软件开发者在基于 Arm 架构的设备上构建应用。这也意味着更多的设备、行业和用例可以享受到在 Arm 平台上运行的能效优势、卓越性能以及加速开发的助益。
小结:
经过多年来持续的技术创新和产品迭代,从边缘设备上运行工作负载的小型传感器,到用于训练大型语言模型 (LLM) 的复杂工作负载的大型服务器,Arm CPU 已经几乎“无处不在”。特别是随着 AI 时代的到来,凭借在性能和能效之间的完美平衡,Arm CPU 也在根本上推动了 AI 的变革,并将在未来几十年持续占据不断扩展的AI生态系统的核心地位。
编辑:芯智讯-浪客剑