打开网易新闻 查看更多图片

ChatGPT火了大模型,赋予英伟达巨大的“钞能力”,一个H100加速卡就要35000美元,但成本却只有3000美元,你知道这3000美元谁赚得最多吗?你可能会脱口而出,台积电,没错——才怪!因为还有一个并不怎么如雷贯耳的名字,比台积电赚得多得多,这三家公司,就构成了垄断AI命脉的三大巨头,那么它们是如何走上卡脖子的光辉道路的呢?

英伟达

AI大战,核心是什么?毫无疑问是算力,算力就相当于打仗用的弹药,弹药越多火力越强,打赢的可能性就越大。目前市面上能够提供AI算力的,主要有英伟达的GPU,AMD的GPU和谷歌的TPU,但英伟达的弹药,无疑是火力最猛最强劲的,为什么要这样说呢?

GPU打败CPU,是英伟达垄断之路的起点。传统的CPU一个核心只能处理一个任务,就像人脑一样,处理大量数据就犯迷糊了,而GPU拥有大量的计算核心,可以同时执行很多相似的计算任务,从而可以在短时间内处理大量的数据,另外,传统CPU训练深度神经网络也效率低下,而GPU因为能够并行计算,可以大大缩短大模型的训练时间,甚至从几十天降到几个小时。

但说起GPU你可能有点陌生,GPU全称GraphicsProcessing Unit,图形处理单元,是不是有点摸不着头脑?但显卡你应该很熟悉吧,没错,GPU就是显卡上的核心芯片。

GPU最早由英伟达在1999年提出,后来英特尔和AMD把它集成到了主板上,然后集成到CPU上,在笔记本和个人电脑上赚得盆满钵满,两者也因此如日中天,当时在电脑领域可以说无人不知,无人不晓。而英伟达则一直做独立显卡,踽踽独行,在游戏兴起后才开始大显身手。

但真正的转折是2022年底OpenAI的ChatGPT横空出世,让人们意识到算力和并行处理能力在深度学习和推理任务中的巨大作用,英伟达的GPU加速卡就像原子弹一样爆发了,股价也来到了仅次于微软、苹果的第三位,并且差距越来越小,看起来很有窜上第一的潜力。

打开网易新闻 查看更多图片

但做GPU的并不只有英伟达一家,AMD也有GPU,谷歌早就在开发专为深度学习设计的TPU,也就是张量处理单元了,为什么历史的幸运儿会是英伟达呢?

和CPU一般只有几个计算核心不同,GPU有数百数千甚至数万个计算核心,但光有核心显然不行,你还得把它们组织起来发挥作用。英伟达因而开发了CUDA技术,这是一种并行计算平台和编程模型,允许开发者利用英伟达的GPU进行高性能的计算操作,可以用比传统CPU更高的计算效率,执行复杂的科学计算和大规模的数据处理任务。

但最关键的还不是CUDA,而是英伟达围绕这一技术构建的,包括各种深度学习和并行计算库、编译器、调试工具和性能优化工具的全面生态系统,大大降低了AI模型开发和训练的门槛,吸引了大量的研究者和开发者。这就像微软在电脑上的Windows系统,苹果和谷歌在智能手机上的iOS和Android系统,把用户、开发者和它牢牢地捆绑在一起了。

反观AMD,虽然它的GPU也有较高的性能,但在AI和深度学习领域,其软件和生态系统建设相对落后。AMD也推出了开源的ROCm高性能计算平台,但和英伟达的CUDA比起来,生态系统的成熟度和支持程度都较低,社区和资源不如英伟达丰富,这在一定程度上限制了AMD在AI大模型训练领域的竞争力。所以AMD很悲催,CPU干不过英特尔,GPU也干不过英伟达,永远都是千年老二,两个“英”就是它一辈子绕不过去的宿命。

而谷歌的TPU是专为深度学习设计的,其性能在某些特定任务上可以超过GPU,但TPU主要通过谷歌的云服务提供,这也限制了它应用的灵活性和普及度。尽管TPU在效率和性能上具有优势,但它的适用范围、可获取性和成本效益,比起广泛可用的英伟达GPU还有不小的劣势。

然后就是英伟达不断推出一代又一代的GPU加速卡,令人目不暇接,喘不过气来,ChatGPT一战成名的是A100,然后是H100、H200,现在又推出了B100,每一代都是对上一代的颠覆性提升,让对手跑得飞都没法追,不断地巩固本就已经固若金汤的地位,想不垄断,市场都不见得会同意。

台积电

所以你看,英伟达的垄断,源于它数十年如一日的坚持和专一,而另一家垄断AI命脉的台积电,更是把这种坚持和专一发挥到了极致。台积电专一做芯片代工,不与上游芯片设计企业抢饭碗,所以人畜无害,大家都喜欢,放心地把芯片交给它代工,以至于垄断了全球中低端芯片生产的60%,高端先进芯片的几乎全部。

最关键的是,芯片生产领域高精尖机器只是入门,操控技术和供应链管理才是根本,台积电专一代工数十年,积累了丰富的技术,建立了围绕芯片制造的巨大“生态系统”,体现在生产上,就是比别人更高的良品率,更低的成本,从而形成了卡脖子的垄断地位,牢牢地卡在芯片领域上下游的中间,可以稳稳地获取高额利润。

这其中最值得一提的就是CoWoS封装技术。前面说了,英伟达H100卖35000美元一个,其中成本约3000美元,那么台积电赚了里面的大约900美元,你一定会说,这种芯片目前还只有台积电能够生产,当然该它赚那么多了。但你可能并不知道的是,台积电生产这颗芯片实际只能赚到155美元,真正赚钱的是芯片的封装,凭借独有的CoWoS封装技术,台积电每个H100加速卡要赚723美元,远远高于芯片生产赚的钱。5纳米的H100,也许其他厂家也可以生产,但封装却只有台积电能够做到。

打开网易新闻 查看更多图片

为什么会这样呢?所谓CoWoS,也就是Chip on Waferon Substrate,芯片堆叠到晶圆到基板的意思,也就是把芯片堆叠起来封装到基板上。这是一种复杂的“2.5D”封装技术,是台积电2013年就开发出来的,可以把多个半导体芯片,包括处理器和存储器集成在一个硅中介层上,再连接到底层基板上,可以缩短芯片间的连接线路,减少芯片间的通信距离,从而减少数据传输延迟,提高整体性能,并且可以在一定程度上降低能耗。

然后把存储器直接集成到GPU旁边,可以大幅提升数据传输带宽,这对于需要处理大量数据的应用,比如人工智能、高性能计算尤其重要。事实上CoWoS由于价格高昂,一直无人问津,直到2016年英伟达推出首款CoWoS封装芯片GP100,拉开了全球人工智能的帷幕,CoWoS才开始崭露头角,成为台积电的垄断利器。

所以台积电垄断AI命脉的关键,就是它的先进芯片生产能力,以及独一无二的CoWoS封装技术,但你也不能怪台积电收费高昂,因为CoWoS精度要求高,制造过程极为复杂,生产芯片的周期很长,所以生产成本也很高。

看到这里,可能你已经急不可待了,你倒是快说啊,英伟达H100成本3000美元,另外2000美元究竟到哪儿去了?好吧,垄断AI命脉的第三大巨头,这就闪亮登场了,只是它的垄断地位已岌岌可危,不过肉最终还是要烂在人家锅里,这是怎么回事呢?

海力士

前面我已经说了,英伟达H100之所以适合人工智能、高性能计算,一大关键就是把存储器集成到了GPU旁边,大幅提升了数据传输带宽,这些存储器,就是另外的2000美元成本,来自韩国的SK海力士,垄断AI命脉的第三大巨头。

所谓存储器,就是我们平常所说的内存,是电脑和手机最重要的三大部件之一,其他两大是处理器(芯片)和硬盘。现在英伟达把芯片和存储器集成到一起做成加速卡,使之更适合AI训练,H100目前使用的存储器是海力士最新的HBM3E(高带宽内存),一种高性能的DRAM。

DRAM和主控芯片一样,对智能设备的运行速度起着决定性的作用,HBM是DRAM的3D堆叠版,可以在增加带宽的同时实现芯片间的高速通信和低能耗,对AI大模型来说,可以说是如虎添翼,尤其再把它和GPU就近封装在一起,那更是强强联手,打遍天下无敌手。

但HBM的设计和制造极为复杂,需要把多个DRAM芯片通过垂直堆叠、制造硅孔(TSV)和微凸点连接等高精尖技术和复杂工艺集成到硅中介层上,最先进的DRAM甚至需要EUV光刻机来制造,再加上专利壁垒和高研发成本,HBM已基本被韩国的海力士、三星和美国的美光垄断。根据半导体研究机构SemiAnalysis的最新预测,目前海力士的HBM市场份额约为73%,三星为22%,美光为5%。

那么海力士为什么能够垄断HBM呢?一个字,还是坚持!2013年,海力士制造出首个HBM并成为行业标准,但同样由于价格高昂,市场不买账,一直客户稀少,门前冷落鞍马稀。但海力士仍然不离不弃,多年来进行了3次技术升级,最终在这轮AI大潮中一飞冲天,2024年的所有产能都已被预订一空,股价也是翻了一番。

但三星也凭借自己的晶圆厂和DRAM上的深厚积累奋起直追,有可能扩大自己的市场份额,所以我前面才说,海力士的垄断地位可能难以持久,但肉还是会烂在人家韩国的锅里。业界预计到2030年HBM市场将增长10倍达到500亿美元,海力士仍可能占据一半以上的份额。

所以你看,垄断AI命脉的三大巨头,英伟达、台积电、海力士,都是提前布局,十年隐忍,厚积薄发,方才修得如今的一飞冲天,如果鼠目寸光,浅尝辄止,明明有0到1的创举,却无法坚持下来,也守不到今天“仰天大笑出门去,我辈岂是蓬蒿人”了!

比如这轮AI卡脖子的三大关键,GPU是英伟达最先提出,CoWoS封装是台积电最先发明,HBM是海力士最先制造,但都经历了10年的不温不火,以致可能都怀疑点错了科技树,如果是你,你能坚持下来吗?想想看,你有什么是坚持了10年的呢?如果有,或许也即将尝到收获的甜蜜了,坚持就是胜利!