打开网易新闻 查看更多图片

继CPU之后,阿里云再次发布自研处理器。

作者 | 赵健

今天,阿里云在线上举办了2022阿里云峰会。

不久之前,阿里巴巴发布最新财报,阿里云在成立13年后首次实现年度盈利,这意味着阿里云将从高增长进入高质量发展的阶段。

下一步阿里云怎么走?在本次阿里云峰会上,阿里云智能总裁张建锋给出了答案:今年阿里云最重要的策略是“B2B”——Back to Basic,回归云计算的本质,坚持技术长征。张建锋认为,云计算进入了一个关键的突破期,“如果我们定义好下一代的云,中国云计算就有超车机会。”

本次阿里云峰会的最大看点,就是阿里云为打造“下一代的云”而推出的一款云数据中心专用处理器CIPU(Cloud Infrastructure Processing Units,云基础设施处理器),CIPU将替代CPU成为云时代IDC的处理核心。

阿里云的战略概括为“做深基础、做厚中台,做强生态,做好服务”。本次CIPU的发布,可以看作阿里云“做深基础”战略的延续,也是阿里云自研技术体系的一次集中展现。

CIPU替代CPU?

阿里云为什么要推出CIPU?张建锋表示,过去十多年,云计算技术发展经历了两个阶段:

第一阶段是分布式和虚拟化技术替代了大型机、小型机,满足了当时企业业务扩展带来的算力弹性需求;第二阶段出现了资源池化技术,通过把计算和存储进行分离,而后规模化编排和调度,形成了超大规模的计算和存储资源池。

这两个阶段都是以CPU为中心的计算体系架构。但随着数据密集型计算越来越多,传统以CPU为中心的计算体系架构逐渐无法满足客户的需求,具体表现为:

  • 第一,以CPU为中心的架构导致了计算和网络传输的时延大;

  • 第二,大数据应用增多,导致数据中心内部数据迁移量增多,以CPU为中心的架构无法提供高带宽;

  • 第三,管理的基础设施规模越来越大,阿里云在全球27个国家和地区、84个可用区管理着超过上百万台服务器,基于CPU为中心的架构无法解决超大规模的复杂管理问题。

为了解决上述问题,需要对数据中心内部的云计算体系架构进行改革创新。因此,阿里云从以CPU为中心的体系架构,进入以“飞天操作系统+CIPU”为中心的体系架构。

在阿里云的介绍中,CIPU是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代CPU成为云时代IDC的处理核心。

值得一提的是,CIPU对CPU的替代并非完全的替代。CPU主要承担两个角色,一个是计算逻辑,一个是控制逻辑,CIPU承担绝大部分的控制及少部分的计算能力,CPU仍然承担绝大部分的计算能力。

此外,CPU只是算力中的一个单元,此外还有GPU、异构芯片等相关的算力,都需要额外的调动与协调,这就需要CIPU的能力。

总体来看,CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器。

存储方面,通过全硬件虚拟化和转发加速,存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps,全面超越市面上所有云产品,云端能提供比本地更安全可靠且高性能的存储能力;

网络方面,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%;

计算方面,单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%。主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。同时,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

CIPU是阿里云自研技术体系的一环。过去13年,阿里云自主研发了飞天云操作系统,并构建出自研芯片、服务器、计算、存储、网络等软硬一体的新型计算体系架构。

打开网易新闻 查看更多图片

会后,阿里云技术产品负责人蒋江伟(小邪)、阿里云基础产品首席架构师黄瑞瑞、阿里云虚拟化技术负责人蒋林泉(雁杨)三人与媒体进行了对话,「甲子光年」整理了部分关于CIPU的问题略作编辑如下:

媒体:阿里云去年推出自研的CPU倚天710,现在又推出了CIPU,阿里云自研的芯片之间是什么关系?

蒋江伟:它不是一个替代关系。对于单个计算节点里面,本身还是CPU在工作。

倚天其实是一个ARM架构,英特尔、AMD是X86架构,不同的客户可能会因为workload(工作量)不一样,而选择不同的架构。比如有一些手机应用厂商,他为了更好适应大部分手机里面基于ARM架构的芯片,在研发过程中会选择ARM架构的芯片,倚天也是为此而生。

但是CIPU是一个大数据中心、大云计算的控制器的概念,是一个算力加速的概念,这是完全两个不同的概念。

媒体:亚马逊、英特尔这些厂商都在对定制管理数据中心的软硬件。亚马逊有Nitro、英特尔IPU,阿里云的CIPU和这些厂商的产品有哪些相同点和差异点?

蒋林泉:我们先谈两个面:一是行业在做的东西,二是供应商做的事情。

英特尔、英伟达是供应商,阿里云是云服务商,我们之间不是对手关系。阿里云CIPU是用顶层的云飞天操作系统,根据垂直业务驱动向下定义芯片。所以CIPU能精准解决掉云操作系统关于管理、控制、调度的问题,以及部分核心业务加速的问题。它是为云而生,这是最大的一个区别。

至于说AWS,阿里云跟AWS其实都迈入到了类似的一个新阶段,区别只是我们在不同的市场里面,看到的风景不太一样。国内云计算的企业客户和海外用了30年的成熟企业客户还是有差异的,比如说在国内阿里云要更普惠地服务中小客户,就需要在高性能的情况下,保证非常大规模、高可用的稳定性。这驱动我们的技术路径有所不一样。

媒体:目前有哪些企业客户使用了通过CIPU管理的数据中心?客户选择这个解决方案的原因是什么?取得了什么样的效益?是否需要更高的成本?

黄瑞瑞:其实CIPU+飞天已经融入到整体的云平台,客户看到的其实就是云上的一个池化的统一管控的算力资源。当客户取用它的时候,就会发现:第一有更好的性价比;第二,应用不需要做任何的调整,本身性能就会更高。所以从这个视角来讲,并不会因为我们有了CIPU这个品列或者说这个硬件,而造成成本的增加。

媒体:CIPU是有一个流片的芯片,比如说我们最直观看到它是多少核、采用什么指令级、它是什么制程,还是它更偏向架构领域的协同、虚拟算法的存在?

蒋林泉:其实分两方面的技术:一是飞天纯芯片部分,也就是流片出来的芯片,有可能是ASIC的芯片,或者FPGA的技术,背后其实是芯片化的。二是和专用芯片协作,还有一块小的CPU,这个时候小的CPU已经变成纯控制器,会跟我们刚才说的专用芯片协同起来,组成一个体系,这两个构建出了CIPU的内核。

在物理形态上,CIPU最初其实是放在一个服务器上,以一张卡的形式存在,为了解决智能网卡所不能解决的问题。但是这一代及后面,除了专用芯片+控制器为主核的内核,它的外围硬件可能有各式各样的变化,无论是卡还是box。但是它的位置是不会变的,就是基于飞天操作系统和云IDC、云数据中心各种硬件的中心的位置。

媒体:它的散热的功能能耗能介绍一下吗?还有它是多少纳米的制程?

蒋江伟:整个制程相关的,我们都是保密的。但是对于功耗来讲,其实也是看规格,就是说我们如果对于卸载非常大的一些场景,它功耗会高;但如果是纯控制的场景,其实它功耗会非常低。