Cerebras的故事突然变顺了。几年前,它还是一家用“整片晶圆做芯片”的激进AI硬件公司,技术足够大胆,但商业化一直不够确定;现在,快推理成为大模型厂商愿意付溢价的方向,OpenAI又签下750MW推理算力合作,Cerebras站到了IPO窗口前。

SemiAnalysis分析师Myron Xie在14日发布的一份研究报告把核心变化概括得很直接:“过了某个智能阈值之后,开发者更偏好更快的Token,而不是更聪明的Token。”这句话解释了Cerebras估值逻辑的转向:它不一定要在所有AI算力场景里击败GPU,但只要“高交互速度”成为可收费产品,它的晶圆级架构就有了用武之地。

这也是Cerebras最迷人的地方。WSE-3把44GB SRAM、计算核心和片上互联塞进整片晶圆,带来21PB/s级别的内存带宽,推理速度可以达到传统HBM加速器难以触及的区间。但同一套架构也带来限制:SRAM容量不够大,片外I/O只有150GB/s,冷却、供电、封装都高度定制,服务超大模型和长上下文时会越来越吃力。

OpenAI是Cerebras的最大机会,也把风险集中到了一个客户身上。双方协议对应750MW推理算力,OpenAI还有额外1.25GW选项;Cerebras披露的剩余履约义务达到246亿美元。但这笔交易同时绑定了10亿美元工作资本贷款、接近免费行权的认股权证,以及高强度数据中心交付压力。IPO投资人真正要问的,不是“晶圆芯片酷不酷”,而是:快Token的溢价,能不能覆盖Cerebras的结构性成本和单一客户风险。

Cerebras押中的不是“总吞吐”,而是“交互速度”

过去AI推理硬件的主线,是每张GPU、每个机柜能吐出多少Token。对云厂商和模型厂商来说,总吞吐意味着单位成本,意味着能服务更多用户。

但用户行为正在把另一条曲线推到前台:tokens/sec/user,也就是单个用户拿到输出的速度。

OpenAI、Anthropic都在把同一模型拆成不同服务档位:fast、priority、standard、batch。用户愿不愿意为更快响应付钱,已经不只是产品经理的猜测。Opus 4.6 fast曾以约6倍价格换取2.5倍交互速度,后来速度优势降到约1.75倍;即便如此,高速模式仍是开发者愿意付费的SKU。SemiAnalysis自身4月AI支出一度年化达到1000万美元,其中80%花在Opus 4.6 fast上。

这说明一个市场变化:当模型能力足够可用,等待时间就会变成生产力瓶颈。对写代码、调用工具、连续迭代的agentic workflow来说,慢几秒不是体验问题,而是工作流被打断。

Cerebras的优势正好在这里。它不是靠更多HBM堆容量,而是靠片上SRAM极高带宽,把低batch、小并发、高交互速度的decode场景做得非常快。换句话说,GPU像一辆能拉很多人的大巴,Cerebras更像为了少数乘客高速直达而设计的跑车。

打开网易新闻 查看更多图片

WSE-3不是“大号GPU”,它是一整片晶圆

Cerebras的核心产品WSE,是把整片晶圆当成一颗芯片,而不是切割成几十、上百颗独立die。

WSE-3采用台积电N5工艺,由12×7、共84个相同步进区域组成。每片晶圆上有约97万个核心,其中90万个启用。晶圆面积的一半给SRAM,另一半给计算核心。这个设计的关键,是计算和存储都留在同一片硅上,尽量避免数据离开芯片、离开封装。

参数很夸张:

  • SRAM容量:44GB

  • SRAM带宽:21PB/s

  • 对外I/O:150GB/s

  • 公开营销口径FP16算力:125PFLOPs

  • 按8:1非结构化稀疏折算后的dense FP16算力:约15.6PFLOPs

打开网易新闻 查看更多图片

这组数字要分开看。21PB/s内存带宽是Cerebras最强的地方;15.6PFLOPs dense FP16算力也不低,但如果按单位硅面积衡量,并不像宣传口径那么惊人。125PFLOPs来自稀疏假设,材料里把这种算法调侃为“Feldman’s Formula”,对应的是把dense算力乘以8。

真正的分界线在内存类型。GPU、TPU、Trainium这类主流AI加速器把模型权重和KV Cache放在HBM里;Cerebras把它们尽量放进SRAM。SRAM快、延迟低,但单位bit成本高,容量密度低。

44GB SRAM放在单芯片世界里很大。可和HBM比,它又不大。单个HBM3E 12-Hi堆栈就有36GB;当前一颗高端GPU或TPU封装常见8堆栈,对应288GB,是WSE-3 SRAM容量的6.5倍。

这就是Cerebras的基本交换:用容量换速度。

晶圆赢在低算术强度decode,输在大模型和长上下文

Cerebras最适合的任务,是低算术强度、内存带宽受限的decode阶段。

大模型推理里,很多kernel并不是缺算力,而是缺内存带宽。GPU的Tensor Core可能很强,但如果权重和KV Cache喂不上来,算力就会饿着。Cerebras把大量SRAM铺在晶圆上,数据离计算单元更近,带宽足够高,batch=1这类低并发decode场景能跑出传统HBM系统很难达到的交互速度。

材料中的理论对比很清楚:如果看一个batch=1、算术强度约为2的decode kernel,NVIDIA GPU和Groq LPU理论上只能实现几十到数百TFLOPs量级;Cerebras WSE-3在理想条件下可以接近完整15.625PFLOPs dense FP16算力。

这就是“快Token”的硬件基础。

但只要模型变大、上下文变长,44GB SRAM就开始紧张。推理系统的内存要装三类东西:

  1. 模型权重;

  2. 并发请求所需KV Cache;

  3. 长上下文带来的更大KV Cache。

agentic coding这类工作负载尤其麻烦。样本测算中,约43.2万条请求、约800亿Token显示,典型P50输入序列长度约为96.3k Token,而不是Cerebras产品假设中的64k;接近50%的请求超过128k,这已经达到Cerebras公开端点目前支持的最大上下文窗口。

这意味着,如果未来模型服务走向256k、1M上下文,Cerebras要么压缩KV Cache,要么上更多晶圆,要么牺牲交互速度和经济性。

冷却和BOM说明:这不是便宜算力

CS-3系统不是把一颗芯片插进服务器那么简单。

每台CS-3包括一个WSE-3 engine block、外围计算和I/O模块、两个机械泵、12个3.3kW电源模块,以及液冷系统。单片WSE-3本身功耗约25kW,放在46,225平方毫米晶圆上,平均热流密度约50W/cm²,还没算热点。

风冷却不现实。普通3D均热板如果放大到21.5厘米见方,会遇到毛细极限,工质回流跟不上。Cerebras只能做定制液冷结构:冷板、晶圆、柔性连接器、PCB组成四层“三明治”,散热歧管接在冷板背后。硅和PCB热膨胀系数不同,传统封装会裂,所以连接、预压、装配工具都要定制。

数据中心侧也被改变。GB200 NVL72参考设计的设施侧流量约1.5 LPM/kW,而WSE-3在25kW下约100 LPM,相当于4 LPM/kW,接近3倍。这要求更大的泵、更粗的管、更大的CDU和更高流量的快接头。CS-4若能把机架级流量拉回1.5—1.7 LPM/kW,才更接近标准化基础设施。

成本同样不轻。CS-3加KVSS CPU节点的BOM估算,在去年四季度内存涨价前约35万美元/机架;计入最新内存价格后约45万美元/机架。KVSS是双路AMD CPU节点,配6TB DDR5 RDIMM,用于KV Cache offload。

有意思的是,最贵的不只是台积电N5晶圆。单片N5晶圆名义成本约2万美元,但Cerebras还要为每批晶圆做额外上层金属mask,用来绕过缺陷tile;Vicor定制供电模块也很贵,材料中估计其价值量接近台积电内容;冷却、封装、组装大量自研,外围还有12个100GbE Xilinx FPGA承担类似NIC的角色,把Cerebras自有I/O转换成以太网。

所以Cerebras并不是“便宜芯片替代GPU”。它是在一个特定推理速度区间,用复杂系统换极致交互速度。

SRAM扩展停滞,是Cerebras绕不过去的节点问题

Cerebras最依赖SRAM,但SRAM scaling正在失速。

三代WSE的SRAM容量变化很能说明问题:

  • WSE-1,台积电16nm,18GB SRAM;

  • WSE-2,7nm,40GB SRAM,代际提升2.2倍;

  • WSE-3,5nm,44GB SRAM,只提升约10%。

同样从7nm走到5nm,逻辑晶体管数量增长约50%,但SRAM容量几乎没怎么动。往后更难。N3E相对N5在SRAM上基本没有缩小,N2及以后也继续受限。

对Cerebras来说,这比对GPU厂商更致命。GPU可以继续叠HBM、扩封装、靠互联池化内存;Groq这类SRAM机器也可以用hybrid bonding在Z方向堆更多SRAM tile。Cerebras是整片晶圆,平面面积已经用满。如果增加SRAM面积,就要牺牲计算面积。

CS-4的路线也暴露了这一点:仍使用N5基础的WSE-3,但提高功耗、提升时钟和计算持续能力,SRAM容量不变。

可选方向是晶圆对晶圆混合键合,把DRAM晶圆或更多存储叠到WSE上。Cerebras确实在探索这种路径。但晶圆级整体芯片的热机械问题、bond wave问题,都比常规hybrid bonding更难。它过去解决过很多不寻常问题,但下一步仍然是硬仗。

最大硬伤是I/O:晶圆很大,出口却很窄

WSE-3片外带宽只有150GB/s,也就是1.2Tb/s。相对它的计算规模和片上带宽,这个出口太小。

这个问题不是工程师没意识到I/O重要,而是晶圆级架构自身的几何约束。

WSE由84个相同步进区域组成,每个reticle曝光图案必须一致,逻辑、SRAM、布线位置都一样,才能让跨划片道互联在晶圆上连续延伸。也就是说,不能只在边缘reticle放SerDes PHY,而中间reticle全做计算。每个reticle都必须长一样。

如果要增加边缘I/O,就要在每个reticle里都放PHY。问题是,中间那些PHY没有办法连接外部世界,只会变成浪费的硅面积。更糟的是,高速SerDes PHY面积大、模拟电路不喜欢贴近数字逻辑,还要guard region;放进晶圆内部,会在2D mesh里打洞,增加绕线和延迟,削弱晶圆级互联本来要解决的问题。

材料里给了一个直观数字:WSE当前片外带宽约0.17GB/s/mm边缘密度,NVIDIA片外I/O密度约为其130倍。

Cerebras的解法是光互联晶圆:通过混合键合把光子互联晶圆叠到WSE上,让数据沿Z轴进出,而不是从晶圆边缘挤出去。合作方是Ranovus。

这条路很漂亮,也很难。光学器件对温度敏感,不能太热也不能太冷;它还要贴着一片高功耗晶圆。光纤耦合在普通CPO里都还没完全工程化到轻松量产,更不用说放大到整片晶圆。

大模型会迫使Cerebras用流水线,而这违背了“快”的初衷

如果模型装不进一片WSE,就只能跨多片晶圆切分。

但低I/O带宽排除了很多常见并行方式。高带宽collective通信不现实,大张量频繁进出晶圆也不现实。剩下最可行的是pipeline parallelism:按层把模型切到多片WSE上,每片晶圆保留对应层权重,只在阶段之间传激活值。

Cerebras服务Llama 3 70B时,就是把模型切到4片WSE-3上,只在晶圆之间传激活,通信量能压在1.2Tb/s I/O能力范围内。

但流水线会带来三个问题。

第一,pipeline bubble。4个阶段至少需要约4个in-flight microbatch保持忙碌;16个阶段就需要约16个。阶段越多,调度越难。

第二,每个in-flight microbatch都有自己的KV Cache,而KV Cache也要和权重一起挤在44GB SRAM里。哪怕新模型用更强KV压缩,KV在片上片下搬运仍会以毫秒级增加TTFT和TPOT压力。

第三,晶圆数量增加,激活在晶圆间传输的固定延迟也线性增加。模型越大,越偏离Cerebras最理想的形态:小batch、低延迟、单片或少数晶圆高速decode。

公开产品线也透露了边界。Cerebras Inference Cloud目前最大生产模型是GPT-OSS,120B总参数;更大的preview模型GLM 4.7也到355B为止。Llama 70B和405B曾经受欢迎,后来被下线,可能与服务经济性有关。DeepSeek V3和Kimi K2这两个2025年热门开源前沿模型,也没有出现在Cerebras公共云上。

不过这不是绝对死局。DeepSeek V4 Pro这类模型如果采用更强KV Cache压缩,在足够并发下,1T+模型也可能重新变得可服务。问题在于,能不能同时保住Cerebras最值钱的东西:速度。

OpenAI把Cerebras拉进主牌桌,也把风险集中到自己身上

OpenAI在Cerebras未来里不是普通客户。

2025年12月,双方签署Master Relationship Agreement。OpenAI承诺购买750MW AI推理算力,2026—2028年分批部署,每批期限3—4年,可延长到5年。OpenAI还有选择权,可额外购买1.25GW,把总量提高到2GW。

S-1披露,截至2025年12月31日,Cerebras剩余履约义务为246亿美元。更重要的是,数据中心租金、电力、租赁改良、安全等pass-through成本由OpenAI报销,并按总额确认为收入。

OpenAI还提供10亿美元工作资本贷款,年利率6%。如果Cerebras通过交付算力或硬件偿还,对应利息可豁免。偿还从初始250MW最后一批交付后开始,三年等额摊还。如果MRA因OpenAI重大未补救违约以外原因终止,Cerebras可能要立即偿还全部未偿本金和应计利息。OpenAI还可以指示托管银行停止按Cerebras指令使用资金,转为直接控制资金处置。

股权绑定也很深。Cerebras向OpenAI发行33,445,026股Class N无投票权普通股认股权证,行权价0.00001美元,几乎等同免费。其中一部分因10亿美元贷款已立即归属,另一部分和400亿美元市值或付款门槛挂钩,剩余部分和算力交付、额外2GW扩张选项相关。完全稀释后,OpenAI最多可持有Cerebras约12%股份,不包括后续新发行。

按ASC 505-50,给客户的权益激励会在商业协议期内作为contra-revenue确认。以S-1中82.02美元/股估值粗算,全部认股权证理论上对应约27.4亿美元contra-revenue,约为OpenAI预期收入的10%。

这是一笔能改变命运的订单,也是一个把公司命运押到单一对手方上的结构。

打开网易新闻 查看更多图片

GPT-5.3-Codex-Spark证明了速度价值,但也暴露模型尺寸问题

OpenAI发布GPT-5.3-Codex-Spark后,Cerebras的叙事更完整了。这个模型使用gpt-oss-120B架构,由真正的GPT-5.3-Codex蒸馏而来,在Cerebras上最高可跑到2000 tok/sec/user。

关键在“120B”。它不是完整GPT-5.3-Codex,而是小得多的蒸馏模型。材料中明确写到,它比完整模型小10倍以上。

这对Cerebras既是好消息,也是限制。

好消息是,120B级别模型如果能力足够强,再叠加极快输出速度,确实可能成为高价值产品。开发者已经证明过,愿意为了更快Token放弃部分前沿智能。

限制在于,OpenAI如果要在Cerebras上跑1T参数以上、1M上下文窗口、面向真实agentic workload的大模型,就要接受明显成本取舍,并且实际交互速度可能低于1000 tok/sec。能不能卖出足够高的Token溢价,是商业模型成立的关键。

材料给出的路径假设很激进:小模型能力继续提升,约一年内120B形态可能接近GPT-5.5级别智能。如果这成立,Cerebras就不需要承载最前沿、最大参数模型,也能卖出高价快Token。OpenAI锁定的750MW只是第一步,真正的上行空间来自是否行使额外1.25GW选项,甚至继续扩大采购。

但这个上行条件很窄:Cerebras必须证明,能在自己硬件适合的模型尺寸里,持续装下足够聪明、足够赚钱的模型。

IPO的核心问题:快Token溢价能不能长期覆盖硬件取舍

Cerebras不是另一个GPU故事。它不是在训练、大模型通用推理、长上下文吞吐上全面替代NVIDIA,而是在一个更窄但可能很赚钱的区间里押重注:高交互速度、低batch、用户愿意付溢价的推理。

晶圆级架构给了它极强的带宽和极快decode,也让它背上了SRAM容量、片外I/O、冷却、BOM、数据中心适配这些硬约束。OpenAI订单解决了需求问题,却没有消除交付风险和客户集中度。

所以Cerebras的IPO定价,不该只看246亿美元backlog,也不该只看2000 tok/sec/user这种漂亮速度。更重要的是三个问题:

  1. OpenAI需要的快Token,长期是不是120B—355B这类模型就够;

  2. 用户愿意为速度付出的溢价,能不能覆盖Cerebras更复杂的系统成本;

  3. 750MW到2028年能否按节奏落地,且不被冷却、电力、供应链和数据中心能力拖住。

如果答案偏向“是”,Cerebras会成为快推理时代最有辨识度的AI硬件公司之一。如果答案偏向“否”,整片晶圆带来的速度优势,可能会被大模型和长上下文的内存需求一点点吃掉。