史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造

机器之心报道

编辑：泽南、杜伟

生成式 AI 推理性价比是 GPU 的 140 倍。

大模型时代，全球都缺算力，买铲子的英伟达市值被炒上了天。

现在，终于有一家公司带着自己的 AI 芯片来叫板了。

今天凌晨，科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu，它运行大模型的速度比英伟达 H100 要快 20 倍，比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token，比 H100 服务器（23,000 个 token / 秒）多 20 倍，比 B200 服务器（约 45,000 个 token / 秒）多 10 倍。

Sohu 是世界第一款专用于 Transformer 计算的芯片，历时两年打造。

作为一块 ASIC（专用集成电路），Sohu 把对于 transformer 架构的优化硬化在芯片中，无法运行大多数「传统」的 AI 模型：如为 Instagram 广告提供支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运行 CNN、RNN 或 LSTM。

但另一方面，对于 transformer 来说，Sohu 就是有史以来最快的芯片，与其他产品之间是量级的区别。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。

最近一段时间，由于摩尔定律放缓，GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3，都不约而同的使用「二合一」的方式提升性能，功耗也翻倍了。

从 2022 年到 2025 年，AI 芯片的性能并没有真正变得更好，而是变得更大了。

但如果大模型广泛使用 Transformer 架构，追求专业化或许是提高性能的好方向。‍

作为一个新兴领域，AI 模型的架构过去变化很大。但自 GPT-2 以来，最先进的模型几乎都在使用 Transformer，从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa，再到特斯拉 FSD 自动驾驶所需的模型。

Etched 给我们算了一笔账：芯片项目的成本为 5000 万至 1 亿美元，需要数年时间才能投入生产。另一方面，当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时，使用专用芯片是不可避免的。在这种产业规模下，1% 的改进就能撬动硬件架构的更新。

速度超 H100 20 倍，FLOPS 利用率超 90%

作为世界上首款 transformer ASIC（应用型专用集成电路）芯片，一台集成了 8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即，Sohu 的运行速度是 H100 的 20 多倍。

具体来讲，通过专门化，Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。

针对 Llama 3 70B 的 FP8 精度基准测试显示：无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

此外，对于 Llama、Stable Diffusion 3，Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型，未来还会适配模型调整。

由于 Sohu 仅能运行一种算法，因此可以删除绝大多数控制流逻辑，从而允许拥有更多数学块。也因此，Sohu 实现了 90% 以上的 FLOPS 利用率，而使用 TRT-LLM 的 GPU 约为 30%。

Sohu 为何能输出更多 FLOPS？

英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 计算能力，并且没有稀疏性。这是当前最先进的芯片，而 2025 年推出的 GB200 将在计算能力上提升 25%，支持 1250 TFLOPS。

由于 GPU 的绝大部分区域都是可编程的，因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明：

构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管，这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心，每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们：H100 有 27 亿个晶体管用于张量核心。

但是，H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型（CNN、LSTM、SSM 等），那么没有比这更好的了。

而通过仅运行 transformer，Etched 可以让 Sohu 芯片输出更多的 FLOPS，且需要降低精度或稀疏性。

内存带宽也不是瓶颈

实际上，对于像 Llama 3 这样的模型，情况并非如此。

我们以英伟达和 AMD 的标准基准为例：2048 个输入 token 和 128 个输出 token。大多数 AI 产品的 prompt 更长，比如最新的 Claude 聊天机器人在系统 prompt 中拥有 1000+tokens。

在 Sohu 上，推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次，并在 batch 的每个 token 中重复使用。通常来说，LLM 输入是计算密集型的，而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时，工作负载变成了高度计算密集型。

以下为 LLM 连续 batching 处理的示例，这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。

我们可以扩展相同的技巧，从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 token，以及用于 127 个不同序列的 127 个输出 token。

如果这样做了，则每个 batch 需要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP，而仅需要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽需要的计算量多得多：H200 需要 6.8 PFLOPS 的计算才能最大化其内存带宽。这还是利用率为 100% 的情况，如果利用率仅为 30%，则需要 3 倍以上的内存。

Sohu 拥有了更多的计算能力且利用率非常高，因此可以运行巨大的吞吐量，而不会出现内存带宽瓶颈。

软件如何工作

在 GPU 和 TPU 上，软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（如 AMD、Intel、AWS 等）在软件上总共花费了数十亿美元，但收效甚微。

而 Sohu 只运行 transformer，因此只需要为 transformer 编写软件。

大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库，比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架非常僵化，虽然你可以进行模型超参数调优，但实际上不支持更改底层模型代码。但这没关系，因为所有 transformer 模型都非常相似（甚至是文本 / 图像 / 视频模型），所以超参数调优就是你真正需要的。

虽然 95% 的 AI 公司是这样，但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率，并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。

Etched 让我们不需要再进行逆向工程，他们的软件（从驱动程序、内核到服务堆栈）都将是开源的。如果你想实现自定义 transformer 层，则内核向导可以自由地这样做。

创业团队：哈佛辍学生领衔

Etched 的 CEO Gavin Uberti 告诉记者：「如果未来 Transformer 不再是主流，那我们就会灭亡。但如果它继续存在，我们就会成为有史以来最大的公司。」

打造 Sohu 芯片的 Etched 位于加州库比蒂诺，公司成立仅两年，目前团队只有 35 人，创始人是一对哈佛辍学生 Gavin Uberti（前 OctoML 和前 Xnor.ai 员工）和 Chris Zhu，他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起，一直致力于打造专用于 AI 大模型的芯片。

在 Sohu 芯片发布的同时，Etched 也宣布已完成了 1.2 亿美元的 A 轮融资，由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元，本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。

不过对于占据超过 80% AI 芯片市场份额的英伟达来说，1.2 亿美元只相当于它半天的收入。

「我们如此兴奋的原因，选择辍学的原因，以及我们召集团队，投身芯片项目的原因在于 —— 这是最重要的工作，」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」

Uberti 声称到目前为止，已有匿名客户预订了「数千万美元」的硬件，预计在今年三季度，Sohu 将推向市场。

未来真的如 Uberti 所说，只有在 Sohu 这样的芯片上，视频生成、音频生成、具身智能等技术才能真正落地吗？

参考内容：

https://www.etched.com/announcing-etched

https://twitter.com/Etched/status/1805625693113663834

https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html

https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造

造出比盘子还大的AI芯片，这家估值300亿的硅谷公司要挑战英伟达丨焦点分析

纯太阳能电车何时能实现，马斯克怎么看？

Mamba架构第一次做大！混合Transformer，打败Transformer

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

大疆前高管带6人创业，做出了类目Top1的割草机器人

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

被AI量产的短视频营销号气疯了，于是，我也做了一个

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

AI时代，谁还没用AI智能硬件提升工作效率？

新一代注意力机制Lightning Attention-2：无限序列长度

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

这个扭秧歌的华人大叔，干了家10万亿公司

高调挖人！背靠奥尔特曼的Rain AI招募苹果老将开发新型芯片

美媒哈佛大学研究人员称，外星人可能已生活在地球上

英伟达“必跌” 英伟达“必胜”

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造

造出比盘子还大的AI芯片，这家估值300亿的硅谷公司要挑战英伟达丨焦点分析

纯太阳能电车何时能实现，马斯克怎么看？

Mamba架构第一次做大！混合Transformer，打败Transformer

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

大疆前高管带6人创业，做出了类目Top1的割草机器人

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

被AI量产的短视频营销号气疯了，于是，我也做了一个

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

AI时代，谁还没用AI智能硬件提升工作效率？

​新一代注意力机制Lightning Attention-2：无限序列长度

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

这个扭秧歌的华人大叔，干了家10万亿公司

高调挖人！背靠奥尔特曼的Rain AI招募苹果老将开发新型芯片

美媒哈佛大学研究人员称，外星人可能已生活在地球上

英伟达“必跌” 英伟达“必胜”

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

新一代注意力机制Lightning Attention-2：无限序列长度