打开网易新闻 查看更多图片


重要通知:我们开了个新号“白鲸实验室”,无论是之前认识八尺的老朋友,还是热心关注商业和AI的新朋友,欢迎点击,移步“白鲸实验室”。 我们的原创文章也会率先发在“白鲸实验室”上。

“白鲸实验室”,致力于给大家提供深刻的行业洞察和有价值的信息, 记录个体在浪潮中的认知跃迁,对抗技术喧嚣中的认知迷雾。AI 时代愿我们共同成长。

01

自DeepSeek出圈以来 ,梁文锋和DeepSeek的举动一直是行业关注的焦点。最近DeepSeek 团队发布最新DeepSeek-V3论文,有自媒体评价:实现了DeepSeek R2发布前的关键技术突破。

打开网易新闻 查看更多图片

4月份就有传言,DeepSeek R2会在5月正式发布,如今5月已经过去一半,DeepSeek R2仍犹抱琵琶半遮面。

DeepSeek R1 是基于V3基座模型进行训练的,所以V3论文中涉及的参数,也大概率决定着R2的性能。这篇论文相当于R2大餐上桌前的小菜,充满噱头,一时挑起大家对 R2期待。

目前圈内对DeepSeek R2的推测,普遍有这三点:参数规模将提升约1倍达到了1.2万亿,成本仅仅是GPT-4o的2.7%,支持多模态。

近几个月,国内大厂一方面接入DeepSeekR1,另一方面也不断对自家的大模型进行迭代,试图在抢占用户的同时,建立技术壁垒。大厂的自研大模型,也都会对标DeepSeekR1,以至于对行动稍显迟缓的DeepSeekR1形成围攻之势。

3月16日,文心一言推出原生多模态模型,支持文本、图像、视频跨模态转换(如文本生成视频),并强化深度思考能力,在数学推理(MATH-500 测试 97.3%)和代码生成(LiveCodeBench 通过率 65.9%)上逼近 DeepSeek R1 水平。

通义千问推出Qwen2.5-Max,在数学(AIME 2024 准确率 79.8%)、编程(Codeforces 竞赛 2029 Elo 评级)和多模态(视频生成)上全面升级,性能超越 DeepSeek V3。

Qwen3的训练数据规模更是超越DeepSeek R1 ,预训练数据量达36 万亿 token(覆盖 119 种语言),是 DeepSeek-R1 的两倍多,其合成数据生成策略,如通过多模态模型从 PDF 提取文本、生成代码片段,进一步提升了数据多样性和质量。

不难看出,大厂一旦开始卷大模型性能,直接撼动DeepSeekR1在过去几个月在行业里的标杆地位。事实上,DeepSeek自 2 月火爆以来,国内外的大模型就开始加快迭代节奏,导致DeepSeek的用户量一直在下降。

今年2月DeepSeek-R1出现了一波现象级传播,仅仅2周时间内就占据了50%以上份额,彻底打破了OpenAI的垄断局面。而在此前,该分类100%份额均为OpenAI旗下o1、o1-mini所占据。

3月,Anthropic的Claude-3.7-Sonnet-Reasonig模型出现,DeepSeek-R1所占份额有所下降。3月底,谷歌的Gemini-2.5-Pro在入场挤压Claude 3.7的同时,也进一步压缩了DeepSeek的份额。

到了5月14日,全球最大的大模型整合应用平台Poe发布数据显示,DeepSeek-R1模型使用率,已由2月的峰值下降了50%,目前处于推理模型分类中的第三位。Gemini-2.5-Pro通过6周时间实现了31.5%的份额,暂处于第一名,紧随其后的Claude-3.7为19.1%。

DeepSeek无论是性能还是市场都已经失去绝对的优势,考验梁文锋团队的是尽快迭代产品。

02

有趣的是,这次梁文锋发论文的时机略显孤独,没有遇上老对手——月之暗面的杨植麟。

今年以来,梁文锋与杨植麟的论文多次撞车,成为业内一大谈资。两人都是计算机专业人才和创业者,被看作国内大模型领军人物,从他们团队的技术论文一定程度上能看出国内大模型的演进趋势,撞车似乎有着英雄所见略同的意味。

他们的论文撞车 ,背后也是对AI基础理论话语权的争夺。现在我们来通过技术比对,看看这对冤家是怎么一次次撞车的。

2025年2月18日,DeepSeek 与月之暗面几乎同时发布论文,分别提出原生稀疏注意力(NSA)和块注意力混合架构(MoBA),均旨在优化 Transformer 核心的全注意力机制,提升长上下文处理效率。

DeepSeek NSA的核心思路是,通过语义压缩(将序列分块降维)、动态选择(重要性采样)和滑动窗口(局部上下文连贯性)三环节,将计算复杂度从 O(n2) 优化至 O(n2/k),并结合硬件显存复用技术降低 40% 内存访问频次。性能表现上,处理 64k 标记序列时速度提升 11.6 倍,训练效率显著优于传统注意力机制。

月之暗面 MoBA是引入门控网络动态选择,与当前块最相关的 Top-K 块进行注意力计算,同时结合 FlashAttention 和 MoE(专家混合模型)进一步优化。根据论文,MoBA的计算复杂度随着上下文长度增加而优势明显,在 10M token 测试中提速 16 倍,已应用于 Kimi 产品处理超长上下文任务。

打开网易新闻 查看更多图片

两者的 “撞车” 推动学术界重新审视注意力机制的优化路径,OpenAI 在同期论文中,引用两者作为长文本处理的代表性方案。

今年4月,双方再次在数学定理证明领域推出竞争产品。DeepSeek-Prover-V2,参数规模6710亿,基于 DeepSeek-V3 微调,采用子目标分解强化学习,在 miniF2F 测试中通过率88.9%,解决49道普特南测试题。核心技术是将复杂问题拆解为可验证的子目标链,结合动态规划优化证明路径。

而月之暗面的Kimina-Prover开源1.5B和7B版本,采用奖励模型引导的自主探索,miniF2F通过率80.7%,解决10道普特南测试题,通过形式化逻辑约束减少幻觉,提升数学推理的可解释性。

训练数据上,DeepSeek-Prover-V2依赖数学论文与竞赛数据集,瞄准高精度复杂推理,如学术定理证明。月之暗面则融合教科书与习题数据,覆盖更广用户群体,侧重轻量化适配,如教育领域的数学辅导。

不难看出,DeepSeek致力于把技术做得精深,而月之暗面似乎更在乎如何落地应用。

更早之前的一次撞车发生在今年 1 月,直接让两者的地位发生逆转,默默无闻的DeepSeek 一跃成为黑马并迅速出圈,而此前一直名声大噪的Kimi落寞下去。

今年1月20号,DeepSeek R1 与 Kimi K1.5 在同一天发布,这两篇论文同时把目标瞄准了RL推动的推理模型。

DeepSeek R1 通过两阶段训练,先是借助纯强化学习(RL)训练的大语言模型 R1-Zero和V3生成CoT推理数据,冷启动数据初始化模型,后进行二次优化,解决多语言混合的逻辑连贯性,这使得其在数学竞赛 AIME 2024中准确率从 15.6% 跃升至 71.0%,多数投票后达86.7%,逼近 OpenAI o1的水平。

相比之下,Kimi K1.5虽采用 RL 训练,依赖长上下文扩展(128k)和部分轨迹回放等技术优化。其数学推理准确率(96.2%)略低于 DeepSeek R1(97.3%),且未在纯 RL 领域实现同等突破。

这两种方法在OpenAi或者业内人看来,并没有技术上的优势差异,殊途同归,借助强化学习实现了推理能力。

事实上仔细阅读这两篇技术报告会发现,在K1.5的论文里,月之暗面对如何训练一个推理模型做了更详细的分享,甚至单从信息度和细节程度上,它是高过R1论文的。但之后DeepSeek爆红出圈,没人会再讨论这篇论文。

这场由国内两家头部大模型公司展开的技术斗法,很少被人深入探讨,大家的目光似乎都聚焦在胜出者梁文锋身上,没人在乎第二名。当然,DeepSeek的胜出除了一些参数上的优势外,还有开源、训练成本降低等原因。

不管怎样,你追我赶的技术竞争导致的结果是,目前 DeepSeek 仍处于上风。对杨植麟而言,内心大概有种“既生瑜,何生亮”的况味。

DeepSeek爆火以后,Kimi在产品迭代上并没有明显增进,各大排行榜都未见其身影。反而一直延续此前争取“用户留存”的策略,和财新合作,增加引用资料的权威性;四月份Kimi自建社区,试图做AI内容平台;本月又和小红书合作,在小红书里接入对话框。

显然,这些技术之外的操作并未撼动 DeepSeek的地位 。

03

DeepSeek的对手早已不是Kimi,而是持续进行饱和式投入的各大厂。

近几个月,豆包、通义千问、元宝、文心一言更是在大模型上的频繁迭代,且进行声势浩大的营销。反观DeepSeek,出圈后尚未有什么大动作,在当前迭代周期按照月来计算的节奏下,已显得慢了许多。

本次DeepSeek团队发布的DeepSeek-V3论文,深度解析了硬件架构与模型设计的双重创新,为大规模高效训练与推理提供了突破性思路。

值得关注的是,梁文锋参与论文撰写,排在倒数第五位,通讯地址显示为中国北京,这意味着该研究主要由DeepSeek北京团队主导。

很多人大概不知道,2023年5月,DeepSeek最初在北京成立了“北京深度求索”作为运营主体,地址在北京市海淀区科学院南路。但两个月后又在杭州重新成立了“杭州深度求索”,并将北京公司变为杭州公司的全资子公司。

这不是DeepSeek-V3相关技术内容第一次面向公众。DeepSeek-V3基础版技术报告于2024年12月首次发布,今年3月24日DeepSeek发布的V3-0324版本技术报告,则聚焦于小版本迭代的核心突破,基于V3基础模型的后训练优化,重点提升代码生成、推理效率和中文能力,同时调整开源协议以推动商用普及。

而本篇DeepSeek-V3论文,主要论述硬件感知模型协同设计如何有效应对这些挑战,从而实现经济高效的大规模训练和推理。

原有大语言模型,内存容量不足、计算效率低下、互连带宽受限等硬件瓶颈日益凸显。DeepSeek-V3在多项关键指标上实现了跨越式突破:仅依托2048块H800 GPU训练,便达成FP8训练准确率损失小于0.25%的优异表现,单token训练成本低至250 GFLOPS,相较405B密集模型的2.45 TFLOPS成本显著优化;其KV缓存更压缩至单token 70 KB,仅为Llama-3.1的1/7。

这些亮眼数据背后,是DeepSeek在模型架构与AI基础设施层面的改进。

内存效率革新:多头潜在注意力(MLA)。针对传统模型多轮对话中KV缓存爆炸式增长的难题,MLA技术通过共享投影矩阵,将各注意力头的KV向量压缩为统一潜在向量,如同对数据进行“语义压缩”,直接将推理内存占用减半。搭配FP8混合精度训练,模型参数存储体积减少50%,同时创新性提出LogFMT对数空间量化方案,在相同比特下实现更高精度,有效破解AI内存墙困境。

打开网易新闻 查看更多图片

计算-通信优化:混合专家(MoE)架构。DeepSeekMoE将模型拆解为“专家团队”,每个token仅激活37B参数(总参数671B),打破传统稠密模型全参数在线的高成本模式。该设计使训练成本大幅可控,结合KTransformers框架,DeepSeek-V3可在万元级消费级GPU服务器上实现近20TPS推理速度,配备AI芯片的PC端亦可流畅运行,显著降低中小企业与开发者的使用门槛。

推理效率跃升:多维度加速技术。引入多token预测(MTP)框架,实现候选词批量生成与并行验证,颠覆传统自回归模型逐字输出的低效模式。通过重叠计算与通信、构建高带宽纵向扩展网络,充分释放GPU算力潜力,大幅提升吞吐量。同时采用“测试时缩放”技术,根据任务复杂度动态调配资源,简单任务快速响应,复杂任务(如数学推理)智能调用更多算力。

集群架构突破:两层多层胖树(MPFT)网络拓扑。创新性构建8个独立平面实现故障隔离与负载均衡,在保持全到全通信性能的同时,使集群成本降低40%以上,为大规模模型训练的集群扩展提供高性价比解决方案。

论文中,DeepSeek还系统性提出从硬件架构演进视角出发的六大未来挑战与解决方案,覆盖内存、互连、网络、计算等核心领域,为下一代AI基础设施升级绘制了路线图,其技术洞察有望成为行业发展的重要风向标。

尽管如此,一切都要等待DeepSeek-R2 发布后。DeepSeek能否凭借R2 再次爆火,外界满怀期待,但也是个悬念。

DeepSeek-R2会让人类攀登AGI 这座高峰时更进一步吗?欢迎评论区留言。