英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

整理 | 燕珊

据 The Information 最新报道，英伟达下一代 Blackwell 芯片在高密度服务器机架中出现严重过热问题，导致设计变更和客户方面的部署延迟。这让 Google、Meta 和微软等主要客户对能否按时部署 Blackwell 产生担忧。

过热问题或拖累交付计划

英伟达早在今年 3 月发布了 Blackwell 系列产品，原计划是 2024 年第二季度发货，但之前已经因为设计缺陷而推迟。

据报道，Blackwell GPU 在高密度服务器机架中面临严重的过热问题。这些高密度服务器机架集成了 72 块 AI 芯片，每个机架功耗高达 120kW。但高密度和高功耗的设计带来了散热难题，不仅限制了 GPU 性能，还可能损坏硬件组件。

为解决这一问题，英伟达不得不多次调整机架设计，并对冷却系统进行工程修订。据悉，英伟达已指示供应商实施多项改进措施。

英伟达对此回应称，散热问题和设计变更是技术开发中的正常流程，并重申正在与云服务商和供应商合作，确保最终产品符合性能和可靠性要求。

戴尔宣布，基于英伟达 GB200 NVL72 架构且采用液冷技术的服务器机架已发货

在等待 Blackwell 问题解决的同时，一些客户已开始考虑替代方案。据报道，部分客户比如微软，已计划通过更换部分组件来定制 Blackwell 机架，以适应其数据中心需求。

一位云计算公司高管透露，他们正在增加当前一代 Hopper 芯片的采购量。分析认为，这可能在短期内提升英伟达的收入，尤其是 Hopper 芯片的利润率较高。然而，这种转向也可能削弱未来对 Blackwell 及其 NVLink 服务器的需求，对英伟达的长期增长构成潜在威胁。

在散热问题之前，因为封装设计的问题，Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装技术，通过局部硅互连（LSI）桥实现高达 10 TB/s 的数据传输速度。然而，GPU 芯片、LSI 桥和主板之间的热膨胀特性不匹配，曾导致芯片变形和系统故障。

为解决这一问题，英伟达调整了芯片结构，并重新设计模具，最终在 10 月底完成了修正。

Tom’s Hardware 指出，尽管此类调整在大规模技术推广中很常见，但还是可能会进一步推迟 Blackwell 的预期发货时间。

Blackwell 需求惊人，

性能表现屡创新高

Blackwell 芯片自发布以来，市场需求和关注度一直很高。黄仁勋在此前采访中曾多次表示，市场对 Blackwell 芯片的需求强到“疯狂（insane）”。

在近期的 MLPerf Training 4.1 基准测试中，Blackwell GPU 也继续展现领先的性能。

上周，英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载方面的成绩——在 MLPerf Training 4.1 的测试中，训练 Llama 270B 模型的速度较前代 Hopper GPU 快了达 2.2 倍。此外，得益于 HBM3e 高带宽内存的应用，Blackwell仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 才能达到的计算任务。

与此同时，Hopper 平台也在持续优化。在本轮 MLPerf 训练测试中，Hopper 的每 GPU GPT-3 175B 训练性能比首次引入该基准时提高了 1.3 倍。

分析师普遍认为，AI 应用的发展仍处于早期阶段，Blackwell 的推出将继续推动英伟达业绩增长。摩根士丹利预计，Blackwell 新产品线将在 2025 年第一季度提升公司收入，预计销售额将在 50 亿至 60 亿美元之间。

随着 Blackwell 预计于 2025 年 1 月底开始大规模交付，其实际表现能否满足市场预期，将成为接下来观察的重点。

AMD 推出新款 AI 芯片

挑战 Blackwell

在英伟达努力解决技术问题的同时，AMD 也在加速进军 AI 芯片市场。上个月，AMD 宣布推出全新 AI 芯片Instinct MI325X，并且计划在 2024 年底前开始生产。AMD 的这一动作被认为是对英伟达在 GPU 市场主导地位的挑战。

目前，英伟达的 GPU 在 AI 芯片市场占据 90% 以上份额，而 AMD 一直稳居第二。此次发布的 MI325X 是去年推出的 MI300X 的继任者，AMD 计划每年发布一款新芯片，以更快响应市场需求并缩小与英伟达的差距。

AMD 预计，到 2028 年，AI 芯片市场规模将达到 5000 亿美元。AMD CEO 苏姿丰表示，“AI 需求正在迅速超出预期，全球范围内的投资仍在加速。”在性能方面，苏姿丰表示，MI325X 在处理 Meta 的 Llama 3.1 模型时推理性能比 Nvidia H200 高出 40%。

虽然 AMD 没有宣布新的客户名单，但公司此前已透露过 Meta、微软和 OpenAI 正在使用其 AI 芯片的消息。AMD 也强调，其芯片在生成内容和预测类 AI 应用中具有优势，这得益于其先进的内存设计。

然而，英伟达的 CUDA 语言已成为 AI 开发的事实标准，其技术生态和市场优势仍然是 AMD 最大的竞争障碍。有分析指出，随着 Meta、微软等云巨头对 AI 需求的持续增长，AMD 有机会通过价格和性能的差异化策略，吸引更多客户，尤其是在生成式 AI 模型推理等细分领域。

https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/

https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers

https://blogs.nvidia.com/blog/mlperf-training-blackwell/

https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.html

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

今日荐文

你也「在看」吗？

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

老黄谈AI算力集群：将扩展到百万芯片

打通异构算力之间的高速网络通道是构建多元智算体系的关键

70年前的阿兰·图灵情书！计算机之父和一段「有罪」的罗曼史

GPU如何让模型飞速进化？阿里云AI专家解答来了 GPU是如何让模型训练更快的，哪些因素会影响GPU

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

AI Phone：先是芯片，再是模型，最后才是手机厂商

英伟达、特斯拉垄断智驾芯片，一旦断供，谁能撑起中国智驾？

吸引了英特尔和英伟达，马来西亚的芯片产业为何依然在底端？

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

柯静：特朗普和拜登意见相左，英特尔会不会从一个坑跳到另一个坑？

半条命2开发困境到行业宝库:来看Steam硬件调查起源

中国跟印度抢特斯拉？印度外长说了句公道话，莫迪也怕特朗普？

新势力自研芯片，大概是条不归路

曾毓群：如果特朗普愿意开放电动汽车供应链投资宁德时代将考虑在美国建厂

三招干掉BBA，2024年最凶残的男人

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！

美对华实施新禁令，涉两百家中国AI和芯片企业；郭正亮：自伤拳

老白毛全面翻脸？拜登对中国实施空前芯片制裁：中俄四大暴论！

下手真狠！200家中企一夜收到噩耗，“幕后黑手”果然不出所料！

V社新一代SteamDeck或在研发！兼容层获更新

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

老黄谈AI算力集群：将扩展到百万芯片

打通异构算力之间的高速网络通道是构建多元智算体系的关键

70年前的阿兰·图灵情书！计算机之父和一段「有罪」的罗曼史

GPU如何让模型飞速进化？阿里云AI专家解答来了 GPU是如何让模型训练更快的，哪些因素会影响GPU

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增 一席

AI Phone：先是芯片，再是模型，最后才是手机厂商

英伟达、特斯拉垄断智驾芯片，一旦断供，谁能撑起中国智驾？

吸引了英特尔和英伟达，马来西亚的芯片产业为何依然在底端？

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

柯静：特朗普和拜登意见相左，英特尔会不会从一个坑跳到另一个坑？

半条命2开发困境到行业宝库:来看Steam硬件调查起源

中国跟印度抢特斯拉？印度外长说了句公道话，莫迪也怕特朗普？

新势力自研芯片，大概是条不归路

曾毓群：如果特朗普愿意开放电动汽车供应链投资 宁德时代将考虑在美国建厂

三招干掉BBA，2024年最凶残的男人

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！

美对华实施新禁令，涉两百家中国AI和芯片企业；郭正亮：自伤拳

老白毛全面翻脸？拜登对中国实施空前芯片制裁：中俄四大暴论！

下手真狠！200家中企一夜收到噩耗，“幕后黑手”果然不出所料！

V社新一代SteamDeck或在研发！兼容层获更新

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

曾毓群：如果特朗普愿意开放电动汽车供应链投资宁德时代将考虑在美国建厂