不知道大家有没有发现这两年阿里越来越“硬”了,一方面是发布的技术越来越硬核了,另一方面是发布的硬件芯片越来越多了。其实这并不意外,这是阿里云的战略,一年前阿里云总裁张建锋将做深基础作为阿里云发展的核心战略之一,所谓的“做深基础”,就是在核心基础软硬件领域加大自研力度,从飞天云操作系统向下延伸定义硬件,基于云的特性来构建整套IT基础体系。

CIPU云基础设施处理器就是阿里云“做深基础”战略的一个非常重要环节,随着云计算的发展,基础设施专用处理器的作用越来越重要了,甚至有人将CIPU称之为云计算除CPU和GPU外的第三大芯片。

打开网易新闻 查看更多图片

编辑切换为居中

添加图片注释,不超过 140 字(可选)

基础设施处理器是否是云计算的第三颗大芯片尚未可知,但是它确实扮演了越来越重要的角色,各大厂商都在加码投入。知名芯片厂商英特尔将IPU置于与CPU和XPU同等重要的地位并在前不久公布了其到2026年的IPU产品路线图,NVIDIA 斥70亿美元巨资收购Mellanox推出DPU,各大云计算厂商同样跃跃欲试,阿里云的CIPU就是其中之一。IPU、DPU、CIPU以及Smart NIC 本质上是不同厂商推出的同一类产品,只是侧重点略有不同。

为什么基础设施处理器会成为行业的焦点呢?传统计算机采用但的冯·诺依曼体系结构,在这个结构中CPU负责控制、运算,是绝对的核心,数据是通过外部输入到计算机中。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

当一台计算机无法满足需求的时候,就出现了更加庞大的服务器,再后来则发展出了云计算平台,比如IaaS。IaaS与服务器的区别是,该计算资源是向云服务提供商租来的,是虚拟的,租户关心的是计算资源(CPU、内存、硬盘)的容量是否可以满足需求,是否有虚标,但是对于云服务提供商来说,出租硬件服务器和虚拟机,需要不断的优化内部的结构,主要是通过计算存储分离的架构,对资源统一的调度编排,提高云计算的可靠性和可用性。

打开网易新闻 查看更多图片

编辑切换为居中

添加图片注释,不超过 140 字(可选)

在高度虚拟化的环境中,主机CPU需要运行OVS(Open Virtual Switch) 相关任务,同时CPU还要处理存储、数据包的在线加解密或离线加解密、数据包深度检查、防火墙、复杂 路由,支持分布式处理的数据一致性协议如RAFT等操作,这些操作CPU处理器起来并不高效,不仅消耗大量的CPU资源,同时由于不同业务之间的CPU资源争夺。因为这些数据或者通过从网络IO接入系统,或者通过板级高速PCIe总线接入系统,因此智能网卡一步步的承担起了更多的功能,从服务器 CPU 上卸载 “基础设施” 工作负载,以便更多资源可集中用于关键任务应用处理。而像阿里云这样的厂商规模巨大,在全球27个国家和地区、84个可用区管理着超过200多万台服务器,如果按照传统模式会有非常巨大的CPU计算资源被浪费。

随着智能网卡的发展,又出现了分支,一个是以英伟达为代表的DPU,更加注重大数据的传输、写作;另一个是以Intel的IPU为代表,希望卸载基础设施上的工作负载。阿里云这次发布的CIPU与Intel的IPU接近,intel的IPU将网络、存储、加密压缩安全性以及基础设施处理功能。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

阿里云的CIPU所做的事儿基本也是如此,主要体现在三方面:

  • 存储:通过全硬件虚拟化和转发加速,存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps。虽然性能更好了,但是最重要的是支持云上多计算节点NVME共享访问云盘块存储,Oracle RAC、SAP Hana 等高可用数据库可以无缝上云,这就是符合阿里云需求的首创功能。
  • 网络:基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。
  • 计算:单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%,Nginx性能提升89%,Redis性能提升68%、MySQL提升了60%,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。更重要的是与神龙计算平台的结合,使得神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

从上面我们就可以看出来,其实CIPU在云服务中起到了非常重要的作用,以往需要通过CPU处理的很多操作都卸载到了CIPU上。这也意味着以往以CPU为中心的计算机体系架构已经不再适用于现代的大规模云服务上,IPU代表的虚拟化云化能力和DPU代表的数据搬迁带宽能力都能可以解决很多问题,但是真正要做到符合云厂商的需求并且规模落地,只有云厂商自己可以做到。

有人说CIPU是云计算中除CPU和GPU外第三颗重要的芯片,是不是能到这么高的地位不好说,但是确实越来越重要了。CIPU虽然重要,可是我们也不能忽略了软件层面的提升,只有软硬件结合才能达到最佳效果。就以网络为例,现在数据中心处理的数据量和复杂度越来越大,对网络的要求也越来越高。阿里云的云计算网络包括两部分一部分是数据中心物理网络,另一部分是通过飞天操作系统在此基础上做的虚拟化云网络也就是洛神云网络。阿里云通过自研高速网络拥塞控制协议(HPCC)、EFLOPS智能计算集群等大规模高性能低延时网络技术,自研可预期的网络提升网络通信的智能性,凭借阿里云技术团队的这些技术在数据中心内建设“高速网”,从而链接起超级大算力集群,让算力被客户按需方便高效使用。

前面这些先进的技术如果还是通过CPU去执行,肯定是无法发挥最佳效果的,而CIPU就是这些功能的最佳承载单元。换句话说,CIPU是阿里云的硬件基础,与阿里云自研的飞天操作系统、洛神云网络、神龙计算平台等结合才是真正的王道。根据IDC最新发布的《中国公有云服务市场(2021下半年)跟踪》报告显示,阿里云以37.8%的份额遥遥领先位列中国公有云IaaS市场第一,背后与阿里云软硬件一体化的自研技术不无关系。

打开网易新闻 查看更多图片

编辑切换为居中

添加图片注释,不超过 140 字(可选)