打开网易新闻 查看更多图片

作者 | 由仪
DPU(Data Processing Unit)成为云厂商乃至芯片厂商的新战事,不仅吸引了众多初创厂商入局,甚至传统芯片巨头也强势进场。

业内公认,DPU将成为继CPU、GPU的“第三块主力芯片”,DPU能够将CPU处理效率低下、GPU处理不了的负载,卸载到专用DPU上,包括执行协议处理、数据安全、算法加速等多样化的专用任务。

在云计算加速普及的当下,通信能力和计算能力是数据中心基础设施的两个重要发展方向,随着网络传输带宽的增加,数据中心的计算资源被愈加复杂的基础设施操作所占据,使得业务处理遭遇瓶颈。

据《专用数据处理器(DPU)技术白皮书》,业界常用带宽性能增速比(RBP,Ratio of Bandwidth and Performancegrowth rate)对网络带宽增速与CPU性能增速进行描述,即RBP=BWGR/Perf. GR。

RBP指标 2010年的数值1,到2021年数值超过10,CPU几乎已经无法直接应对网络带宽增速,因此DPU本质源于网络传输速率增速与CPU芯片性能增速差距加大。

然而,不论是产品定义、技术路线、客户场景等,目前DPU市场尚处于早期发展阶段,行业格局也不明晰,为此,TechForWhat近期对话天翼云资深研发专家、自研DPU技术负责人刘禄仁,从中一窥DPU行业发展方向。

刘禄仁认为,DPU技术并没有绝对的技术难题,而是要在众多要求之下找到平衡点,性能和稳定的平衡,软件和硬件的平衡,产品试错和规模商用的平衡,诸如此类,DPU还处于百花齐放的阶段。

以下为对话实录,略经编辑:

TechForWhat:DPU在天翼云技术体系中扮演一个怎样的角色?

刘禄仁:首先抛开DPU来讲,基础设施是我们做云计算的基石,它的降本增效对于云厂商来说很重要,基础设施涉及到基础硬件、基础软件、软硬协同,还有一些技术资源,DPU又是软硬协同里面最重要的方面。

在天翼云软硬一体的“紫金架构”中,DPU是核心的一环,它类似于阿里云的神龙架构里面的MOC卡,将计算、存储、网络和安全从传统的CPU侧迁移到自研的软硬结合体系中,天翼云和其他厂商还有些不一样,我们会涉及到很多国产化场景,所以紫金架构能够是面向不同的算力和全国产化自主可控的场景,打造了类似于第二个平面。

TechForWhat:云厂商、芯片厂商都在自研DPU,你认为做DPU的门槛体现在哪?

刘禄仁:这会有三个维度,第一,认知是最大的门槛,云计算业务比较复杂,大家对需求的理解是不同的,每一家的技术演变,都会有各种特点或差异。

第二个,DPU并不只用在数据中心,很多初创公司也提到端网协同的场景,边缘场景也有需求,DPU的需求更加发散化。

第三,DPU是芯片,做芯片的门槛本身就比较高,DPU又涉及到云计算里面的计算、存储、网络三个大方面,不仅有传统芯片设计里面的验证驱动算法,还涉及到传统芯片不怎么涉及的业务软件和协议栈,整体系统非常复杂了。

传统芯片更多是一个单模块的功能点,DPU需要软硬协同,这样让原本门槛很高的芯片开发,又要拔高到一个新的维度。

TechForWhat:为什么说DPU是典型的应用驱动型芯片?

刘禄仁:现在初创DPU厂商也频繁拜访各家云厂商,虽然很多人也是从云厂商出来的,但都是对需求的理解集中在一些单点,并不是面或者一个系统,不会从整个云的角度来考虑,DPU厂商频繁拜访云厂商,侧面反映出他们对这一块把握的不是特别准。

有些厂商的技术方案已经更换过好几次了,因为对真实需求和技术演进没有把控到位,这样带来的损失其实也很大,方案的反复就意味着资金的浪费,无形中就会淘汰一些厂商。

如何实现在硬件整体架构上或者技术交互基本不变的情况下,不断提升性能,这也是大家初期都采用FPGA的原因,可编程特性可以减少试错成本。

TechForWhat:如何看待DPU行业目前的发展态势?

刘禄仁:实话说,目前DPU还处于百花齐放的阶段,不管是什么技术路线,没有哪家可以凭借一己之力,实现技术能力和需求完美契合,完成事实上的统一。

另外,做DPU最主要的还是看自己的目标场景和目标客户在哪里,天翼云自研紫金DPU主要是从天翼云本身业务及未来架构演进出发,解决我们数据中心的痛点问题,暂时没有去考虑外部客户的定制化需求。

对于国外的那种芯片大厂来说,肯定是想做一个通用的DPU,它的目标客户就是国内外的云计算大厂,当然不局限于云厂,一些金融领域等场景也可以用到。他们对架构和需求的理解,相对于国内厂商走的比较靠前,英特尔、迈络思等已经走在ASIC化的路上,或者实现了ASIC化。

对于国内众多初创厂商来说,也是有不同路线,实现类似DPU芯片或者功能,但是目标客户或者目标场景是有侧重点的。

未来DPU大规模上量肯定是ASIC化的,从功耗、成本还有性能等方面,对于云厂商来说应该是最优解,当然要达到ASIC化,目标场景业务要成熟。

TechForWhat:天翼云DPU实现了哪些成果?

刘禄仁:我们从2020年开始注意到DPU,组建了自己的DPU团队,然后在不到一年的时间里面,就基于DPU推出了弹性裸金属服务器,具备物理级别的资源隔离,也具备云主机的弹性灵活特性,通过将网络、存储等这些功能卸载到DPU卡上,它的算力远超了普通云主机。

在高性能网络方面,我们已经完成了传输层大规模组网相关算法,目前正朝着商用级别的稳定性努力。在天翼云,DPU的相关软硬件并不是以整体打包的形态大规模上线,像弹性裸金属服务器,现在已经发展到3.0阶段。大规模上量的话,天翼云应该会在2024年开始发力,明年会逐渐上一些量。

行业内大部分ASIC化芯片或者成熟方案,真正可以达到商业测试阶段,有可能会在明年Q1,从测试到产品大规模落地,正常有一年到两年的时间。天翼云和业界DPU规模化使用,节奏基本一致。

TechForWhat:DPU目前尚待解决的问题还有哪些?

刘禄仁:云厂商对DPU的诉求就是健壮性、稳定性和自动化运维,目前从这方面来看,行业能力参差不齐,大家也是想大力提升这方面的能力,从真正技术角度而言,其实DPU技术并没有绝对的技术难题,更多是一些平衡点。

不管是ASIC还是FPGA,大家需要更强大的功能,更高的规格,就会要求芯片更大,资源更多,那么功能越多,性能规格越高,它带来的健壮性或者可靠性相对来说会偏低。这就类似于我们DPU分布式迭代的方式,它也是从“平衡”维度来推出产品的。

当然仅从技术角度来说,其实还是不够的,DPU目前更多在数据中心使用,它与资源池的构建相关,DPU、服务器又跟整体设计有关系,它就会与整体的物理网络是联动策略。我们不能只从DPU芯片内部去做考虑,需要从整个网络链做综合的考虑,然后决定DPU该如何推出具体的功能和规格。

End