拒绝微调,告别死记硬背:MemRL如何让大模型拥有“会思考的长期记忆”?

打开网易新闻 查看更多图片

01

导语:跨越及格线

“人类最后一场考试”(Humanity's Last Exam, HLE)一直被视为AI推理能力的“终极考验”。面对这场汇聚了多学科专家级难题的极限测试,此前的大模型往往折戟沉沙。即便是强大的 Gemini-3-Pro,在没有任何辅助的情况下,准确率也仅为35.7%;在允许AI访问google search的情况下,准确率也仅为45.8% 。

然而,一项最新的研究打破了这一僵局。上海交通大学、西安电子科技大学、上海创智学院与记忆张量(MemTensor)的联合团队提出了一种名为MemRL的新框架,在不微调模型参数的前提下,让 AI 的成绩一举跃升至61.3%AI 终于及格了,但它做对的不仅仅是“刷题”,而是学会了像人类一样从过往经验中“提炼智慧”。

打开网易新闻 查看更多图片

HLE 之所以被称为“人类最后一场考试”,是因为它考验的不再是单纯的知识储备,而是对人类资深专家级问题的深入理解和复杂推理能力。而这,恰恰击中了当前大模型技术栈的软肋。

02
痛点:为什么传统的“外挂大脑”不管用?

在通往通用人工智能(AGI)的路上,我们一直希望 Agent 能像人类一样持续学习。作者们尝试过两条路,但都很难走:

1.微调(Fine-tuning):就像通过“做手术”来增加脑容量。成本高昂不说,还容易引发“灾难性遗忘”,学了新知识,忘了旧本领 。

2.RAG(检索增强):就像给 AI 一本“参考书”。但传统的 RAG 是盲目检索,它只看关键词匹不匹配(语义相似度),却不管检索回来的内容对解决问题有没有真正的帮助。

结果就是,Agent 往往检索回来一堆看似相关实则无用的“噪声”,导致推理失败。

既然“改造大脑”(微调)太危险,“盲目翻书”(RAG)又不靠谱,有没有一种方法,既能保持大脑的稳定性,又能像人类一样灵活地积累经验?

03
破局:MemRL 的“认知觉醒”

答案就藏在我们的生物本能中,MemRL的核心理念受到了人类认知科学中构建性情景模拟的深刻启发:将“稳定的推理能力”与“动态的情景记忆”解耦

打开网易新闻 查看更多图片

这就好比一个聪明人(冻结的 LLM),他的智商是固定的,但他可以通过不断优化自己的“方法笔记”(进化的记忆)来解决新问题。MemRL 不再执着于“我记得什么”,而是开始思考“过往的经历中哪些经验教训是值得借鉴的,如果参考过往的某种做法接下来会发生什么”,进而得到改进后的策略,并在新策略付诸实施后根据结果再更新对过往经验的评价 。

1.核心机制——记忆的三元组

传统的 RAG(检索增强生成)只看“长得像不像”(语义相似度),而 MemRL 引入了一个更像人类的机制:“Intent-Experience-Utility”(意图-经验-效用)三元组。

简单来说,每一次Memory不仅存储了“我想做什么”(Intent)和“我做了什么”(Experience),更关键的是贴上了一个“这一招好不好用”的标签(Utility/Q值)。这就像我们在脑海里给过去的经验打分,下次遇到类似问题,不仅看谁相关,更看谁的参考价值更大。

2.它是如何“思考”的?——引入“价值评估”过程

MemRL 抛弃了传统的简单存储,它为每一条记忆打上了一个Q值(效用分数)

· 在检索时,它不仅看“这条经验和当前问题像不像”(阶段A:语义召回);

· 更会像一个严厉的批评家一样审视:“历史数据告诉我,用这条经验解决这类问题,预期的结果好吗?”(阶段B:价值感知选择)。

通过加权语义相似度以及效用分数,MemRL 能够精准地从海量记忆中捞出那些真正能通向成功的“金钥匙” 。

3.它是如何“进化”的?——无参数的自我修正

MemRL 的核心在于让 Agent 在运行时“记住什么是有效的”。这一过程完全在记忆空间 (Memory Space) 内完成,不需要任何梯度传播。

具体的进化包含两个并行过程:

1.Q 值更新 (Refining Utilities): 当 Agent 完成任务并获得环境反馈(Reward, 如成功/失败或分数)后,我们会对刚才使用过的记忆进行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我们使用One-step MDP 形式,将当前状态视为终局,对记忆的Q值进行更新。

· 通过这一规则,记忆的 Q 值会被推向“经验期望回报” (Empirical Expected Return)。

· 简单来说:如果某条记忆刚才帮了大忙,它的 Q 值会上升,预示着它在相似的场景下具备更高的“参考价值”;反之则会降低。

2.经验回写 (Experience Expansion): 除了更新旧记忆,MemRL 还会将当前的完整轨迹(Trajectory)通过 LLM 总结为新的经验,并且结合意图(intent)以及初始化的效用(Q-init)成一个新的三元组 (Intent,Experience,Q-init),写入记忆库。这意味着记忆库不仅在“修正”旧知,还在不断“扩充”新知。

打开网易新闻 查看更多图片

04
实验核心:Runtime 进化与记忆的真正价值

1. Main Results: 惊人的 Runtime Learning 能力

打开网易新闻 查看更多图片

作者们在四大 Benchmark 上进行了测试:BigCodeBench(代码生成)、ALFWorld(具身决策)、Lifelong Agent Bench(操作系统/数据库交互) 和HLE(复杂推理)。 对比基线包括Standard RAGSelf-RAG以及最先进的 Agent Memory 方法 (Mem0, MemP)。结论非常硬核(Table 1)MemRL 不需要任何参数更新 (Training-free),仅靠运行时积累经验,就能实现持续的性能攀升。

· 在ALFWorld中,MemRL 的最终准确率达到69.7%,相比 MemP (45.6%) 提升了53%

· 在HLE这种高难度基准上,MemRL 同样刷新了记录:首次突破60%。 这证明了“非参数化强化学习”能让 Agent 像人类一样,通过 Trial-and-Error(试错)在运行时持续学习,越来越强。

2. Transfer Learning: 举一反三的泛化能力

打开网易新闻 查看更多图片

不仅是“熟能生巧”,MemRL 还学会了“触类旁通”。 作者们测试了迁移学习场景 (Table 2):让 Agent 先训练,然后冻结记忆库,直接在30% 的未见任务 (Held-out sets)上测试。 结果显示: MemRL 在所有任务上都超越了 RAG 和 MemP。 这意味着 MemRL 存储的不仅仅是具体的“答案”,更是抽象的“高价值策略”。它成功过滤掉了那些只能解决特定训练题的“过拟合记忆”,留下了真正能应对未知环境的通用经验

05
深入分析:不止罗列成果,

文章还提出了非常深入的分析与思考

1. 轨迹验证器:长程任务更有提升空间 (Trajectory Verifier)

打开网易新闻 查看更多图片

实验数据(Table 3)揭示了一个关键现象:任务链路越长,MemRL 优势越大。

· 在单步任务 (BigCodeBench) 上提升较小 (+2.5 pp);

· 但在多步顺序任务 (ALFWorld)上,提升高达+24.1 pp原因揭秘:传统 RAG 容易检索到“开头很像但结局跑偏”的错误经验。而 MemRL 因为记录了整条轨迹的 Q 值 (Utility),它实际上充当了一个“轨迹验证器” (Trajectory Verifier)。它能预判这条路走下去会不会“翻车”,从而在一开始就避开那些表面看似相关、实则会导致失败的路径。

2. 意外发现:从“差一点”中学习 (Near-misses)

打开网易新闻 查看更多图片

这是一个反直觉但极具深意的发现 (Figure 8b)。 作者们在高 Q 值 (High-Utility) 的记忆库中,发现了约12% 的失败案例。 深入分析发现,其中存在一些“Near-misses” (差一点就成功)的案例。它们虽然最终报错(例如输出格式微小错误),但整体推理逻辑是正确的。MemRL 敏锐地识别出了这些案例的“战略价值”,将它们作为“纠错指南”保留下来。这证明系统具备了从部分失败中提取正确逻辑的高级能力,也符合人类从失败中学习的认知原理。

3. 理论保证的稳定性:告别灾难性遗忘 (Stability Guarantee)

打开网易新闻 查看更多图片

持续学习最怕“捡了芝麻丢西瓜”。 在长期训练动态 (Figure 9) 中,作者们揭示了一个残酷的现象:启发式方法(如 MemP)往往出现CSR(历史最佳)与当前准确率的脱节。这意味着新的探索无意中“覆盖”了旧的成功策略,导致了灾难性遗忘。

相比之下,MemRL 展现了更加一致的Synchronized Growth (同步增长)。这源于 MemRL 背后收敛稳定性的理论保障,这也是MemRL与大多自进化智能体的核心区别

· 蒙特卡洛式建模的收敛性 (Monte Carlo Style Modeling):基于原文 Eq. 8 的建模,作者们在原文Section 4.5中给出了相应的理论分析,确保了算法的收敛稳定性。

· 变分下界约束 (Variational Lower Bound):不同于启发式排序可能出现的随机漂移,MemRL会推动策略去攀登“期望奖励的变分下界”

结论:这从理论层面锁定了性能的单调不减 (Non-decreasing),确保每一次更新都是在夯实地基,而非拆东墙补西墙。从这个实验中我们也能得到一个有价值的启发:在这个Agent爆发的时代,很多时候并不需要理论保障,仅通过直觉搭个“Agentic Pipeline”也能观察到显著的性能提升(如图中蓝色线条),那我们为什么要去研究理论呢,通过这张图,或许能窥见一部份答案。

4. 数据洞察:从数据集的语义空间到记忆泛化

打开网易新闻 查看更多图片

在实验的最后,作者们通过Figure 11探讨了一个根本性问题:“长得像”是否意味着“更有用”?作者们的核心发现是:数据集内的相似度(Intra-dataset Similarity)与 Memory Gain(记忆带来的性能提升)呈现出显著的正相关性。

基于这一发现,作者们进一步解析了 MemRL 的收益来源,将其归纳为两种截然不同的模式:

1.Positive Transfer (正向迁移):ALFWorld这类具有高相似度的任务中,MemRL 充分利用相似性快速复用历史上的不同问题的最优策略,从而获得了最大的收益。

2.Runtime Memorization (运行时记忆):HLE这类低相似度/跨学科的任务中,虽然题目之间互不相同,但 MemRL 依然获得了+21.6%的显著提升。这得益于其强大的“单题突破”能力——即通过“记住”特定难题的解法来应对复杂场景。

结论:这解释了 MemRL 为什么既能做“举一反三”的通用推手(依靠 Transfer),也能做“博闻强记”的特定领域专家(依靠 Memorization)。

06
结语:迈向终身学习的 Agent

上海交大、西电、上海创智学院与记忆张量团队的这项工作,为 AI 社区提供了一个优雅的范式:我们不需要总是通过昂贵的训练来让模型变强,也不需要针对问题场景去精雕细琢所谓的“agentic pipeline”

MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)。这或许才是通往 AGI 更经济、更高效的未来之路。

论文信息

· 论文标题:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 联合团队:上海交通大学、西安电子科技大学、上海创智学院、记忆张量(MemTensor)等

· arXiv 链接:https://arxiv.org/abs/2601.03192

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。