拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

然而，一个长期被忽视的问题是：这些方法大多默认模型是自回归生成的。

对于离散扩散语言模型（Discrete Diffusion Language Models, dLLMs）而言，情况完全不同。dLLM 并不是从左到右逐 token 生成，而是从被 mask 的序列出发，通过多步去噪逐渐恢复完整答案。这种并行、非自回归的生成方式天然具备全局双向上下文，也更适合规划与自我修正；但与此同时，传统面向自回归模型设计的树搜索、过程奖励模型和 Best-of-N 推理并不能直接高效适配。

针对这一问题，论文提出了 PRISM：Pruning, Remasking, and Integrated Self-verification Method，一个专为离散扩散语言模型设计的高效 Test-Time Scaling 框架。其核心目标很明确：不是简单地让模型「多跑几遍」，而是在去噪过程中识别更有潜力的轨迹，动态裁剪、局部分支，并用模型自身完成轻量级验证，从而在较低推理预算下接近甚至超过 Best-of-N 的效果。

论文标题：Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
arXiv 地址：https://arxiv.org/abs/2602.01842
代码地址：https://github.com/viiika/Prism

传统 Best-of-N 太贵，PRISM 重新设计 dLLM 的推理搜索

对于 dLLM 来说，朴素 Best-of-N 的代价非常直接：如果采样 N 条轨迹、每条轨迹需要 T 步去噪，那么总函数调用次数就是 O (NT)。这意味着所有候选答案都要完整跑完，即便其中很多轨迹在中途已经明显质量不佳，也仍然会消耗完整预算。

PRISM 的关键思路是把推理过程拆成三个阶段：早期随机探索、中期渐进裁剪和后期精修。

在高噪声阶段，模型输出仍然不稳定，因此 PRISM 保持较宽的候选集合以保留多样性；在早中期去噪窗口，当答案的「逻辑骨架」开始形成时，PRISM 使用自验证信号裁剪低质量轨迹，并把计算资源重新分配给更有前景的候选；最终，只保留较小数量的轨迹继续完成精修。论文中将这一过程称为 Hierarchical Trajectory Search（HTS）。

这种设计使得 PRISM 的实际复杂度接近 O (N + KT)，其中 K 是最终保留的较小候选宽度。相比传统 Best-of-N 的 O (NT)，这相当于把 “所有路线都跑到底” 改成了「先广泛探索，再集中火力」。

不是重新开始，而是在低置信 token 上局部分支

PRISM 的第二个关键组件是 Local Branching via Partial Remasking。直观来说，模型在中期去噪时已经形成了一部分高置信 token，这些 token 往往对应答案的稳定结构或逻辑骨架；与此同时，低置信 token 则可能对应不确定的推理细节、实现方式或局部表达。

PRISM 不会粗暴地丢弃整条轨迹重新采样，而是保留高置信部分，只对低置信位置进行重新 mask，然后从这些局部变化中生成新的分支。这样做的好处是，它既保留了已有的高质量结构，又能继续探索不同的细节实现，避免过早收敛到单一路径。论文图 2 对这一过程做了直观展示：在渐进裁剪阶段，PRISM 会围绕高分轨迹进行局部分支，并通过部分重 mask 生成新的候选。

不再依赖外部 verifier：模型自己给自己打分

很多 Test-Time Scaling 方法依赖额外的 reward model 或 verifier 来判断候选答案质量。但这会带来显著系统开销：部署时需要额外加载一个模型，显存、延迟和工程复杂度都会上升。

PRISM 提出了 Self-Verified Feedback（SVF）：直接复用同一个 dLLM 作为二分类验证器。具体来说，模型先根据中间去噪状态生成一个完整候选答案，然后构造一个 Yes/No 验证 prompt，让模型判断该答案是否可能正确。PRISM 将 Yes 和 No 的 logits 转换为一个二元归一化分数，用于轨迹排序、裁剪和最终选择。

这一设计的价值在于，它把 verification 从「额外模型」变成了「同一模型的一次轻量自检」。论文进一步指出，SVF 调用次数相较去噪 NFE 很少，实验中通常低于总 NFE 的 10%，因此可以在较低额外开销下提供有效的搜索信号。

实验：在数学推理和代码生成上实现显著性价比提升

论文在四个基准上评估 PRISM：数学推理任务 GSM8K、MATH-500，以及代码生成任务 HumanEval、MBPP。实验覆盖三个离散扩散语言模型：LLaDA-8B-Instruct、Dream-7B-Instruct 和 LLaDA-2.0-mini。

在 LLaDA-8B-Instruct 上，PRISM（K=8）将 GSM8K 从 67.58% 提升到 85.30%，将 MATH-500 从 26.40% 提升到 42.80%；在代码任务上，HumanEval 提升 24.39 个百分点，MBPP 提升 16.40 个百分点。更重要的是，这些提升并不是通过线性增加 Best-of-N 计算量获得的：例如在 GSM8K 上，PRISM 用 1048 NFE 达到 85.30%，而 Best-of-16 需要 4096 NFE 才达到 87.50%，实现了超过 4 倍的去噪计算节省。

在论文图 1 中，PRISM 相比 Best-of-N 在多个任务上展现出更优的性能 — 计算曲线：在可比准确率下，GSM8K、MATH500、HumanEval、MBPP 分别呈现 2.9×、6.5×、1.8×、1.7× 的速度优势。

论文还与其他推理期扩展方法进行了比较。在 TruthfulQA 上，PRISM 的 ROUGE-1/2/L 达到 31.8/35.5/31.9，推理时间为 1048.0 秒；相比之下，LLaDA-ReMDM 为 29.5/31.8/29.5，推理时间为 1354.8 秒。这表明 PRISM 不仅能提升任务性能，也能维持更好的推理效率。

在外部 verifier 对比中，SVF 在 GSM8K 上达到 85.30%，只需加载原本的 8B 模型；虽然 Qwen3-8B verifier 可达到 87.35%，但需要额外加载模型，总参数量达到 16B。论文认为，SVF 的优势并不在于绝对替代所有外部验证器，而在于它提供了一条更轻量、更易部署的 dLLM 推理扩展路径。

意义：为非自回归语言模型打开推理期扩展路线

PRISM 的核心贡献并不是简单提出一个新的搜索启发式，而是重新定义了 dLLM 上的 Test-Time Scaling 应该如何发生。

对于自回归模型，推理搜索通常围绕「前缀」展开；而对于离散扩散模型，中间状态是部分 mask 的全局序列，传统前缀式过程奖励和树搜索并不天然适用。PRISM 将搜索、裁剪、局部分支和自验证都重新放回 dLLM 的去噪动力学中：在结构形成阶段集中分配预算，在低置信区域探索替代表达，在无需额外模型的情况下完成验证。

这意味着，dLLM 不再只是「并行生成更快」的替代范式，也可能成为一种适合推理、规划和自我修正的新型语言模型架构。随着 LLaDA、Dream、Mercury、Gemini Diffusion 等模型推动离散扩散语言模型走向更大规模，PRISM 展示了一条重要方向：让非自回归模型也能像当前主流 LLM 一样，通过推理期计算持续获得能力提升。

从这个角度看，PRISM 不只是一个更省算力的 Best-of-N 替代方案，而是离散扩散语言模型迈向高效推理系统的一块关键拼图。

作者简介

本文由 Jinbin Bai 等研究者完成。作者团队长期关注 discrete diffusion 与 masked generative modeling 等新一代生成范式，研究方向涵盖高分辨率文生图、统一多模态生成、离散扩散模型的偏好对齐与推理优化，以及可交互世界模型等。

此前，团队曾提出 Meissonic [1]，探索 masked generative transformer 在高分辨率文本到图像生成中的潜力；随后进一步提出 Muddit [2]，将离散扩散建模从图像生成推进到更统一的多模态生成框架。此次入选 ICML 2026 的 PRISM，则将这一研究脉络进一步延伸到推理阶段，关注如何通过层次化搜索、自验证反馈和局部 remasking，让离散扩散模型在无需额外 verifier 的情况下实现高效 Test-Time Scaling。

[1] Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis, ICLR 2025, https://arxiv.org/abs/2410.08261

[2] Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model, ICLR 2026, https://arxiv.org/abs/2505.23606

拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

Agent评测的下半场：为什么需要一个「活的」Benchmark？

OpenClaw终于长出手和眼！Peter正式发布Peekaboo v3，一日三更

预测下一个像素还需要几年？谷歌：五年够了

别再把长文切碎了，HiLight让AI直接在原文里划重点

生成式Critic重新定义LLM强化学习信用分配

别卷推理了！当前大模型 STEM 短板在视觉感知，代码才是破局关键

TAMU/Waterloo团队把研究智能体的训练做成了开源流水线

AI智能体不是越多越强：信息冗余构成了LLM Agent Scaling的瓶颈

视频版Vision-Banana来了？大一统框架UniVidX刷新视频任务SOTA

中国AI 2.0：应用为先，变现为王

具身智能来时路：谷歌RT1、2，SayCan作者Ted Xiao复盘机器人学习

基因比家境更能决定你未来？双胞胎研究这样说

破案不靠推理，全靠罪犯自露马脚

唐湘龙：鹰击的弹道轨迹很诡异，只要一发射，很难躲避或拦截！

清华女硕士参与瑞文推理智力测验100分仅得25分，这是什么情况？

小伙刮刮乐中了一百万，中奖当天花了三四百元

刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

天舟十号货运飞船发射任务取得圆满成功

余额宝年化收益率0.888% 刷新历史最低纪录

法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场