新智元报道
编辑:LRST
【新智元导读】AutoSOTA通过多智能体协作,将AI研究中繁琐的性能优化过程自动化,使科研从「手工艺」转向「工业流水线」。只需5小时即可完成人类需数月的工作,极大释放科学家的创造力,推动更多原创性探索。
在当今的人工智能研究领域,实验室的灯火往往见证了无数次为了提升1%性能而进行的彻夜调参。这种被戏称为「炼丹」的过程,虽然最终产出了当前的最佳水平(State-of-the-Art,简称SOTA),但也将人类科学家最宝贵的直觉与创造力,困在了无止境的「增量式优化」劳动中。
面对这种高强度的竞争压力,清华大学徐丰力助理教授团队与北京中关村学院推出了AutoSOTA项目。这不仅是一个技术工具的发布,更是试图改写AI研究领域的「工业节拍」,将AI科研从低效的「手工艺模式」推向高效的「工业流水线模式」。
论文网址:https://arxiv.org/abs/2604.05550
项目网站:https://tsinghua-fib-lab.github.io/AutoSOTA/
研究背景
要理解AutoSOTA的必要性,首先要看当前AI科研的残酷现状。
以顶级AI学术会议为例,顶会论文海量的投稿和最终能够脱颖而出的口头报告(Oral)极低的比率使得SOTA性能指标成为了衡量研究价值的「金标准」。
然而,攀登这一高峰需要投入巨量的研究力量。一个顶尖成果或许始于少数几个大胆的直觉,但后续往往涉及数千次的持续打磨。
以著名的Transformer架构为例,自2017年问世以来,全球科研人员投入了海量算力与人力,历经数年的变体研究与打磨,才将其在通用语言理解评测集(GLUE)上的性能从约75%提升至90%以上。
这种迭代优化虽然必要,却占用了人类科学家本可用于原创性探索的大量精力。
图1 Transformer架构在GLUE评测集上的性能爬升
全自动刷榜
不同于现有只能在沙盒里做局部代码优化的框架,AutoSOTA 并不是对单一实验环节的局部加速。
它将智能体的作用范围大幅拓宽,向下延伸至环境准备、代码运行等基础琐碎任务,向上则触达研究灵感激发等核心构想步骤,旨在实现「从旧SOTA到新SOTA」、「从旧代码库到新代码库」的全面科研自动化。
图2 AutoSOTA研究问题框架
借鉴人类算法研究中的分工流程与协作逻辑,使不同科研智能体能够围绕同一目标推进方案设计、实验操作、数据分析与优化迭代,研究团队设计了8个各司其职的Agent:
图3 AutoSOTA端到端AI科研自动化系统
在资源准备与目标设定阶段,AgentResource负责物理落地,从PDF提取官方代码库,并自动搞定海量外部数据集和权重的下载,AgentObjective负责识别目标,通过树状结构分解将论文宏观目标转化为密集的评估标准,精准锁定要超越的目标。
在构建环境和实验评估阶段,AgentInit负责初始化环境,根据论文概念补全代码库中缺失的脚本,AgentMonitor作为外部监控者,实时追踪执行轨迹 。一旦发现agent陷入了死循环调试,会立刻介入打断并提供高级指导,AgentFix专治各种报错。它带着失败记忆库来修复CUDA不匹配、缺包等环境问题。
在深度反思与突破创新阶段,AgentIdeator是核心创新大脑,它结合外部文献先验知识,提出架构重组的优化假设 ,AgentScheduler作为系统调度中枢,管理实验的GPU资源和节点状态,并在每次改代码前自动打好Git快照以便随时回滚,AgentSupervisor作为监督者,严格执行由禁止修改评估脚本、禁止更改数据集划分等规则组成的红线系统,所有生成的Idea必须经过它的严格审计。
与此同时,AutoSOTA 配备了完善的工具库(Toolkit)与技能集(Skill Set),既能处理实验运行中的突发状况,又能胜任查阅文献、头脑风暴和方案谋划等高级工作,真正打通了从顶层规划到底层执行的闭环。
这意味着,AutoSOTA的野心不仅是「跑实验快一点」,更是引领AI科研自动化从单一环节的辅助工具,蜕变为一套系统化、常态化且高度智能的科研协作生态。
一周斩获105个SOTA
在最近进行的一场为期一周的真实压力测试中,AutoSOTA展示了令人震撼的工业产出能力。该实验以前一年的AI顶会论文成果为基础,在完全无人干预的条件下持续运行。
一周(168小时)内累计消耗约220亿Token(约10.4万美元,75万元人民币),最终成功发现了105个性能显著提升的SOTA模型。这意味着系统在这周内,平均每隔约1.6小时就能完成一次性能飞跃。这105个新模型平均实现了近10%的性能提升。
更令人惊讶的是,这些成果并非简单的超参数微调,其中超过60%的模型涉及新颖的结构设计,展现了系统在复杂设计空间中的挖掘能力。AutoSOTA并非机械搜索,它能在已有研究的基础上进行一定程度的结构创新。
图4 AutoSOTA实验结果
AutoSOTA的吞吐量与人类科研路径形成了极其鲜明的代差。对于一名经验丰富的人类研究者或人类博士而言,完成一个SOTA模型的完整迭代优化——包括精读文献、准备算力资源、安装工具搭建平台、模型训练评估、深入调研创新构思以及持续调优——通常需要数个月的时间。
相比之下,AutoSOTA走完从阅读论文到迭代优化的全流程,平均耗时仅为5小时。
这种百倍速的提升,不仅是效率的飞跃,更是科研范式维度的「降维打击」。系统通过「算力换智能」,在相对稳定的条件下,持续产出具备学术竞争力的工作。它具备完善的工具库与技能集,能够独立处理那些让研究者头疼的底层繁琐任务。
总结
AutoSOTA带给我们的震撼,不仅是产出了一批崭新的SOTA指标,更深层的意义在于它促使学界反思科研创新的初衷:单纯刷高SOTA分数,真的等同于实现了重大的科学突破吗?
它为我们抛出了一个极具启发性的命题:如何才能把人类科学家最稀缺的注意力,从机械的实验试错中释放出来,重新聚焦到更具原创价值、更考验长远判断的研究课题上?
未来理想的「人机协作」图景或许是这样的:由科研智能体系统去死磕那些重复度高、劳动密集的漫长优化流程;而人类科学家则专职负责提出好问题、锚定大方向、敏锐捕捉机遇并构思底层机制。
从这个角度来看,AutoSOTA更像是一个加持在科研流程上的「创造力放大器」 。
它的初衷决不是为了取代学者的原创智慧,而是要把这种原创性从低效繁杂的苦力活里彻底解放出来。
图5 AutoSOTA启发的人智协同科研范式
归根结底,真正关乎科研未来的,绝非让学者们陷入「把旧模型分数再推高一点」的循环,而是赋予他们探索那些未被定义、未被解释且未被系统深挖之难题的机会。
在这条探索之路上,AutoSOTA已经迈出了极具标志性的一步 。它不仅论证了智能体在AI科研自动化领域的磅礴潜力,更为我们描绘了一个充满希望的明天:当繁重的「性能优化」被智能体接管,科学研究终将回归其最纯粹、最珍贵的起点——大胆地提出问题,勇敢地驶向未知,去追寻真正无可替代的原始创新突破。
AutoSOTA的意义在于它重新定义了SOTA的价值。
当性能优化可以被大规模自动化发现时,我们必须反思:SOTA性能的刷新是否等同于重大的科学突破?
AutoSOTA给出的答案是:它应当成为人类科学家的「创造力放大器」。
通过将工程实现与科学发现解耦,AutoSOTA让研究者能够面对那些尚未被解释、尚未被系统探索的科学无人区。
参考资料:
https://arxiv.org/abs/2604.05550

