刷榜只是体力活！清华消费10万块，一周「肝」出105个SOTA

新智元报道

编辑：LRST

【新智元导读】AutoSOTA通过多智能体协作，将AI研究中繁琐的性能优化过程自动化，使科研从「手工艺」转向「工业流水线」。只需5小时即可完成人类需数月的工作，极大释放科学家的创造力，推动更多原创性探索。

在当今的人工智能研究领域，实验室的灯火往往见证了无数次为了提升1%性能而进行的彻夜调参。这种被戏称为「炼丹」的过程，虽然最终产出了当前的最佳水平（State-of-the-Art，简称SOTA），但也将人类科学家最宝贵的直觉与创造力，困在了无止境的「增量式优化」劳动中。

面对这种高强度的竞争压力，清华大学徐丰力助理教授团队与北京中关村学院推出了AutoSOTA项目。这不仅是一个技术工具的发布，更是试图改写AI研究领域的「工业节拍」，将AI科研从低效的「手工艺模式」推向高效的「工业流水线模式」。

论文网址：https://arxiv.org/abs/2604.05550

项目网站：https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性，首先要看当前AI科研的残酷现状。

以顶级AI学术会议为例，顶会论文海量的投稿和最终能够脱颖而出的口头报告（Oral）极低的比率使得SOTA性能指标成为了衡量研究价值的「金标准」。

然而，攀登这一高峰需要投入巨量的研究力量。一个顶尖成果或许始于少数几个大胆的直觉，但后续往往涉及数千次的持续打磨。

以著名的Transformer架构为例，自2017年问世以来，全球科研人员投入了海量算力与人力，历经数年的变体研究与打磨，才将其在通用语言理解评测集（GLUE）上的性能从约75%提升至90%以上。

这种迭代优化虽然必要，却占用了人类科学家本可用于原创性探索的大量精力。

图1 Transformer架构在GLUE评测集上的性能爬升

全自动刷榜

不同于现有只能在沙盒里做局部代码优化的框架，AutoSOTA 并不是对单一实验环节的局部加速。

它将智能体的作用范围大幅拓宽，向下延伸至环境准备、代码运行等基础琐碎任务，向上则触达研究灵感激发等核心构想步骤，旨在实现「从旧SOTA到新SOTA」、「从旧代码库到新代码库」的全面科研自动化。

图2 AutoSOTA研究问题框架

借鉴人类算法研究中的分工流程与协作逻辑，使不同科研智能体能够围绕同一目标推进方案设计、实验操作、数据分析与优化迭代，研究团队设计了8个各司其职的Agent：

图3 AutoSOTA端到端AI科研自动化系统

在资源准备与目标设定阶段，AgentResource负责物理落地，从PDF提取官方代码库，并自动搞定海量外部数据集和权重的下载，AgentObjective负责识别目标，通过树状结构分解将论文宏观目标转化为密集的评估标准，精准锁定要超越的目标。

在构建环境和实验评估阶段，AgentInit负责初始化环境，根据论文概念补全代码库中缺失的脚本，AgentMonitor作为外部监控者，实时追踪执行轨迹。一旦发现agent陷入了死循环调试，会立刻介入打断并提供高级指导，AgentFix专治各种报错。它带着失败记忆库来修复CUDA不匹配、缺包等环境问题。

在深度反思与突破创新阶段，AgentIdeator是核心创新大脑，它结合外部文献先验知识，提出架构重组的优化假设，AgentScheduler作为系统调度中枢，管理实验的GPU资源和节点状态，并在每次改代码前自动打好Git快照以便随时回滚，AgentSupervisor作为监督者，严格执行由禁止修改评估脚本、禁止更改数据集划分等规则组成的红线系统，所有生成的Idea必须经过它的严格审计。

与此同时，AutoSOTA 配备了完善的工具库（Toolkit）与技能集（Skill Set），既能处理实验运行中的突发状况，又能胜任查阅文献、头脑风暴和方案谋划等高级工作，真正打通了从顶层规划到底层执行的闭环。

这意味着，AutoSOTA的野心不仅是「跑实验快一点」，更是引领AI科研自动化从单一环节的辅助工具，蜕变为一套系统化、常态化且高度智能的科研协作生态。

一周斩获105个SOTA

在最近进行的一场为期一周的真实压力测试中，AutoSOTA展示了令人震撼的工业产出能力。该实验以前一年的AI顶会论文成果为基础，在完全无人干预的条件下持续运行。

一周（168小时）内累计消耗约220亿Token（约10.4万美元，75万元人民币），最终成功发现了105个性能显著提升的SOTA模型。这意味着系统在这周内，平均每隔约1.6小时就能完成一次性能飞跃。这105个新模型平均实现了近10%的性能提升。

更令人惊讶的是，这些成果并非简单的超参数微调，其中超过60%的模型涉及新颖的结构设计，展现了系统在复杂设计空间中的挖掘能力。AutoSOTA并非机械搜索，它能在已有研究的基础上进行一定程度的结构创新。

图4 AutoSOTA实验结果

AutoSOTA的吞吐量与人类科研路径形成了极其鲜明的代差。对于一名经验丰富的人类研究者或人类博士而言，完成一个SOTA模型的完整迭代优化——包括精读文献、准备算力资源、安装工具搭建平台、模型训练评估、深入调研创新构思以及持续调优——通常需要数个月的时间。

相比之下，AutoSOTA走完从阅读论文到迭代优化的全流程，平均耗时仅为5小时。

这种百倍速的提升，不仅是效率的飞跃，更是科研范式维度的「降维打击」。系统通过「算力换智能」，在相对稳定的条件下，持续产出具备学术竞争力的工作。它具备完善的工具库与技能集，能够独立处理那些让研究者头疼的底层繁琐任务。

总结

AutoSOTA带给我们的震撼，不仅是产出了一批崭新的SOTA指标，更深层的意义在于它促使学界反思科研创新的初衷：单纯刷高SOTA分数，真的等同于实现了重大的科学突破吗？

它为我们抛出了一个极具启发性的命题：如何才能把人类科学家最稀缺的注意力，从机械的实验试错中释放出来，重新聚焦到更具原创价值、更考验长远判断的研究课题上？

未来理想的「人机协作」图景或许是这样的：由科研智能体系统去死磕那些重复度高、劳动密集的漫长优化流程；而人类科学家则专职负责提出好问题、锚定大方向、敏锐捕捉机遇并构思底层机制。

从这个角度来看，AutoSOTA更像是一个加持在科研流程上的「创造力放大器」。

它的初衷决不是为了取代学者的原创智慧，而是要把这种原创性从低效繁杂的苦力活里彻底解放出来。

图5 AutoSOTA启发的人智协同科研范式

归根结底，真正关乎科研未来的，绝非让学者们陷入「把旧模型分数再推高一点」的循环，而是赋予他们探索那些未被定义、未被解释且未被系统深挖之难题的机会。

在这条探索之路上，AutoSOTA已经迈出了极具标志性的一步。它不仅论证了智能体在AI科研自动化领域的磅礴潜力，更为我们描绘了一个充满希望的明天：当繁重的「性能优化」被智能体接管，科学研究终将回归其最纯粹、最珍贵的起点——大胆地提出问题，勇敢地驶向未知，去追寻真正无可替代的原始创新突破。

AutoSOTA的意义在于它重新定义了SOTA的价值。

当性能优化可以被大规模自动化发现时，我们必须反思：SOTA性能的刷新是否等同于重大的科学突破？

AutoSOTA给出的答案是：它应当成为人类科学家的「创造力放大器」。

通过将工程实现与科学发现解耦，AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。

参考资料：

https://arxiv.org/abs/2604.05550

刷榜只是体力活！清华消费10万块，一周「肝」出105个SOTA

女生28岁攒到10万块开心到想哭

别急着All-in DeepSeek V4，先看看这10位从业者的真心话

00后小哥复刻Claude最强神话模型OpenMythos

AI引爆存储“超级周期”，数据中心加速向“Token工厂”演进|聚焦

姐姐考清华弟弟上北大，单亲爸爸请客无一人来，妹妹的出现捧杀了

两代人育儿v的碰撞，爷爷科学带娃，分寸感十足，太赞了

没有智驾的会议室不是好KTV！地平线KaKaClaw车载智能体上手

庞众望744分逆袭清华，寒门也能出贵子，看完心疼了

“香港科技大学—李宁运动科技联合实验室”揭牌

35年前，美国曾做过一个实验，把4男4女关在一起两年，结果如何？

《关于联合实施2026年“模数共振”行动的通知》解读

既然科学无法解释，那就交给爱吧

海外热议！中国汽车为啥便宜？真相让人大吃一惊！

自动化本科和研究生，哪个就业比较好

智能体从「单兵作战」到「精锐团队」 -2

Manus事件-文科被忽视的恶果

车队自动化：10%油耗降幅背后的技术拼图

何鸿燊幼女何超欣发文称清华毕业后留校：投身可持续发展教育事业

“考不上清华我们笑死你”，女孩做作视频走红，自以为是学霸

高龄备孕不用慌，科学助力更安心

PackingStar双智能体博弈，攻克14维难题