英特尔在 Hot Chips 2023 上概述了其公告,这是一个半导体会议,每年在 Hot Chips 上宣布其最新产品。

今年(2023年),该公司将公布开发代号“Granite Rapids”的大纲,这将是下一代至强可扩展处理器(以下简称至强SP),以及开发代号“Sierra Forest”,这将是该公司服务器首款使用“E核”CPU的产品。 图片:AMD 第四代 EPYC 这两款产品都使用英特尔的 2.5D 小芯片技术 EMIB(嵌入式多芯片互连桥接器)来创建多个计算磁贴(由多个 CPU 内核和内存控制器组成的 CPU 芯片)和多个 IO 磁贴( 由UPI、PCI Express、CXL等组成的I/O芯片配置在单个封装上。 该结构类似于AMD的第四代EPYC(开发代号:Genoa),在产品配置和制造方面具有更大的灵活性。对英特尔数据中心产品的威胁到目前为止,服务器CPU一直是英特尔的据点,英特尔一度拥有超过90%的市场份额,使其成为事实上的垄断者。 然而,AMD的市场份额近年来有所增加。 AMD 去年(2022 年)与服务器相关的收入为 60 亿美元,比 2021 年的 39 亿美元增长了 64%。根据 IDC 的数据,整个服务器市场将在 2022 年增长 20%。 超过这一增长意味着英特尔的市场份额正在被蚕食。英特尔面临的另一个威胁是ARM处理器的崛起。 同样,根据IDC的公告,截至2022年,英特尔和AMD的x86处理器销售额约为1100亿美元,ARM处理器的销售额约为122亿美元,这意味着它在收入基础上拥有约10%的市场份额。 考虑到它在2010年代中期几乎为零,似乎也在迅速上升。事实上,由于这两个市场的不同原因,英特尔的客户如AWS、Azure和GCP(CSP)和企业已经开始迁移。例如,今年6月,甲骨文宣布将在其基于云的数据库服务Oracle Exadata X10M中采用第四代EPYC,取代之前产品中使用的Xeon SP。毋庸置疑,Oracle 数据库用于在企业中提供任务关键型服务。 由于它是提供财务和会计等服务的基础,因此在采用CPU时首先强调可靠性。 第四代霄龙的采用标志着AMD的突破。ARM处理器因其每单位功率的高CPU密度而备受关注。 即使具有相同的功率,可以存储的 CPU 越多,VM 的性能就越高。 由于俄罗斯入侵乌克兰导致欧洲的能源危机,每单位电力的性能引起了更多关注。AWS提供的Arm处理器“Graviton”就是一个典型的例子。 Graviton在上一篇文章中已经介绍过,所以请参考它以获取更多详细信息,但简单地说,它是一款专门研究电源效率的产品,通过增加CPU的密度(特别是单个CPU中的64个内核),它可以提高电源效率和密度相比x86处理器。至强采用新的芯片组划界方法由于服务器CPU业务是英特尔收入的主要支柱,它将需要一种能够明显与AMD和Arm处理器(如AWS Graviton和Ampere Altra)竞争的产品,这些产品正在侵蚀市场份额。 英特尔计划于2024年推出的花岗岩急流将与前者竞争,而塞拉森林将与后者竞争。Granite Rapids与AMD竞争的关键是更先进的小芯片结构。 据英特尔称,Granite Rapids和Sierra Forest小芯片技术基于EMIB,EMIB在当前产品中引入,即第4代至强可扩展处理器(代号为Sapphire Rapids,以下简称第4代至强SP)。 最大的区别在于每个骰子(英特尔称之为瓦片)的分区是不同的。第四代至强SP采用EMIB采用小芯片结构,对于60核产品,即最大内核数,封装中实现4个具有15核CPU的计算块,形成单个CPU。在第 4 代至强 SP 中,一个磁贴包含 CPU 内核、一个 2 通道内存控制器、多种类型的加速器和两个 PCI Express Gen 5 控制器,其中包含四个 15 核 ×4、一个 60 核 CPU 和 15 个内核、一个 8 通道内存控制器(2×4 和 8 个 2x4 PCI)。 Express控制器的规格在整个封装中实现。使用这种结构,如果要增加 CPU 内核的数量,则需要增加 I/O,如果要增加 I/O,则需要增加 CPU 内核的数量。 相反,很难配置在保持 CPU 内核数不变的情况下仅增加 I/O 的配置,或者只想增加 CPU 内核而保持 I/O 不变的配置。另一方面,AMD的第4代EPYC分为CPU芯片(AMD中的CCD)和由内存控制器和PCI Express控制器组成的I / O芯片(IOD),因此I / O芯片保持不变,CPU内核的数量可以通过CCD的数量来增加。这就是为什么我们能够灵活地开发产品变体,从第 4 代 EPYC 中最多 96 核的产品到主流 32 核甚至 8 核等 CPU 核较少的产品,以及每个芯片的面积可以保持小、良率可以提高、制造成本降低的原因。英特尔宣布,Granite Rapids和Sierra Forest将引入一种小芯片结构,将计算模块(CPU芯片)和IO模块(I / O芯片)分开,以实现更灵活和高性能。然而,AMD的第四代EPYC并没有内置在CPU内核中的内存控制器,而是在IOD侧有一个内存控制器,而花岗岩急流/塞拉森林仍然在CPU磁贴侧有内存控制器。 这种设计似乎旨在减少内存延迟,并避免在相干期间内部总线上的带宽压力。 设计灵活性被认为不如AMD的第四代EPYC,但Granite Rapids/Sierra Forest在内存性能方面具有优势。插槽配置范围从 1 到 8 个插槽用于花岗岩急流和 1 到 2 个插槽用于塞拉利昂森林,具有多达 12 个内存通道和 DDR5/MCR 支持,每个通道 1-2 个 DIMM 配置,以及多达 136 个通道的 I/O PCI Express 5.0 或 CXL 2.0, 并且围绕 I/O 配置了多达 6 个 UPI 链路。英特尔已经宣布将在今年晚些时候推出Emerald Rapids作为其第五代Xeon可扩展处理器。 这些翡翠急流基本上是第四代至强 S它是蓝宝石急流(也称为 P)的改进版本,预计具有相同的基本结构(由四个计算磁贴组成)。花岗岩急流改善微架构第 4 代至强 SP 及其改进版翡翠急流基于第 12 代核心(桤木湖)中引入的用于服务器的 P 核心黄金湾。Granite Rapids还将使用基于P内核的面向性能的CPU内核。 据英特尔称,Granite Rapids P内核也将扩展到第四代至强SP中引入的AMX,以支持新的FP16精度并提高机器学习性能。在硬件方面,改进了分支预测和误猜时的恢复性能,并对IPC(每时钟周期指令数)进行了改进,例如将浮点运算的乘法从传统的4~5个时钟周期增加到3个时钟周期。随着微架构等这些改进,AI的性能将提升2~3倍,内存将增加到最多12通道(第4代至强SP最多8通道),从而将内存带宽提高2.8倍。

塞拉森林使用E芯将密度提高2.5倍与Arm处理器竞争的产品是Sierra Forest。 这一次,英特尔将在Granite Rapids和Sierra Forest使用不同类型的CPU内核。 Granite Rapids使用相当于P内核的CPU内核,而Sierra Forest将E内核用于客户端PC。英特尔的客户端PCCPU因迅速缩小与桤木湖竞争对手的差距而受到称赞,这主要是由于其E内核的卓越性。Alder Lake的E核Gracemont是上一代Tremont的显着性能改进,四核Gracemont在相同功耗下的运行速度比双核Skylake(CPU是P核的祖先)低80%,在相同性能下运行速度提高80%。

此外,4芯E磁芯对应于芯片上占用面积中的一个P磁芯。 简而言之,由于单位性能的功率效率很高,并且可以减少芯片占用的面积,因此很容易增加CPU内核的数量。Sierra Forest使用这样的E内核,并且基于英特尔发布的规格(64KB L1指令缓存,6宽解码器,5宽分配,8宽停用,2或4个内核共享高达4MB的L2缓存),它看起来非常接近Gracemont设计。 在软件方面,它支持精度更改为BF16 / FP16,AVX256,AVX-IFMA,AVX-DOT-PROD-INT8等。通过使用使用此类E内核的Sierra Forest,可以大大提高CPU内核的密度。 据英特尔称,每个机架的vCPU数量(vCPU数量)将是第4代至强SP的2.5倍。 换句话说,在传统机架中可以容纳 1,000 个 CPU 内核的机架可以增加到 2,500 个。

对于像VMware这样的虚拟化软件,物理CPU的数量在性能方面有很大的差异,因此它有很大的影响。■ 计算磁贴由英特尔 3 制造,IO 磁贴由英特尔 7 制造Granite Rapids和Sierra Forest都将在Intel 3上制造计算磁贴,在Intel 7上制造IO磁贴。Intel 3是Intel 4(传统计数为7nm)的改进版本,用于制造Meteor Lake的计算模块,预计将于今年晚些时候发布。 电路间距更小,EUV利用率提高,作为工艺节点的性能优于Intel 4。 英特尔 4 已经推出,英特尔 3 将成为今年晚些时候推出并将于明年推出的流程节点。

在客户端PC的流星湖中,IO磁贴使用台积电制造的6N,而服务器产品Granite Rapids和Sierra Forest已经在成熟的工艺节点Intel 7上批量生产和制造。据英特尔称,塞拉森林计划在明年上半年和花岗岩急流不久之后。 预计两者都将按计划推出。

打开网易新闻 查看更多图片