谷歌、MIT等开发多智能体医疗决策框架MDAgents，医学LLM新用法

编辑 | 白菜叶

基础模型正在成为医学领域的宝贵工具。然而，尽管它们前景广阔，但在复杂的医学任务中如何最好地利用大型语言模型(LLM) 仍是一个悬而未决的问题。

麻省理工学院、谷歌研究院和首尔国立大学医院的研究人员提出了一种新颖的多智能体框架，称为医疗决策智能体 (MDAgents)，它通过自动为 LLM 团队分配协作结构来帮助解决这一差距。

指定的个人或小组协作结构是根据手头的医疗任务量身定制的，模拟适应不同复杂程度任务的真实医疗决策过程。该团队使用最先进的 LLM 在一系列真实医学知识和医学诊断基准中评估他们的框架和基线方法，包括将 LLM 的医疗复杂性分类与人类医生进行比较。

在需要理解医学知识和多模态推理的任务中，MDAgents 在十项基准测试中的七项中取得了最佳表现，与以前方法的最佳表现相比，其显著提高了 4.2% (p < 0.05)。

消融研究表明，MDAgents 可以有效确定医学复杂性，从而优化各种医学任务的效率和准确性。值得注意的是，在小组协作中，主持人评审和外部医学知识的结合使平均准确度提高了 11.8%。

该研究以「MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making」为题，于 2024 年 10 月 30 日更新在arXiv预印平台。

基础模型在医学领域前景广阔，尤其是在协助完成医疗决策 (MDM) 等复杂任务方面。MDM 是一个细致入微的过程，要求临床医生分析各种数据源（如影像、电子健康记录和遗传信息），同时适应新的医学研究。

LLM 可以通过综合临床数据并实现概率和因果推理来支持 MDM。然而，由于需要适应性强的多层方法，将 LLM 应用于医疗保健领域仍然具有挑战性。尽管多智能体 LLM 在其他领域显示出潜力，但它们目前的设计缺乏与有效临床应用所必需的协作式、分层决策的集成。

LLM 越来越多地应用于医学任务，例如回答医学考试问题、预测临床风险、诊断、生成报告和创建精神病评估。医学 LLM 的改进主要源于使用专门数据进行训练或使用推理时间方法，例如即时工程和检索增强生成 (RAG)。

通用模型（如 GPT-4）通过高级提示在医学基准上表现良好。多智能体框架提高了准确性，智能体通过协作或辩论来解决复杂任务。然而，现有的静态框架可能会限制不同任务的性能，因此动态多智能体方法可能更好地支持复杂的医疗决策。

麻省理工学院、谷歌研究院和首尔国立大学医院开发了 MDAgents，这是一个多智能体框架，旨在根据医疗任务的复杂性动态分配 LLM 之间的协作，模拟现实世界的医疗决策。

图示：MDAgents 框架。（来源：论文）

MDAgents 可以根据具体任务自适应地选择单独或团队协作，在各种医疗基准测试中表现良好。它在 10 个基准测试中的 7 个中超越了之前的方法，准确率提高了 4.2%。关键步骤包括评估任务复杂性、选择合适的智能体和综合响应，通过小组评审可将准确率提高 11.8%。MDAgents 还通过调整智能体使用来平衡性能和效率。

MDAgents 框架围绕医疗决策的四个关键阶段构建：

首先评估医疗查询的复杂程度，将其分为低、中、高；

根据此评估，招募合适的专家：针对较简单的病例，招募单个临床医生；针对较复杂的病例，招募多学科团队；

然后，分析阶段将根据案例的复杂程度采用不同的方法，包括从个人评估到协作讨论；

最后，系统综合所有见解以形成结论性决策，准确的结果表明，与单智能体和其他多智能体设置相比，MDAgents 在各种医疗基准上都具有有效性。

图示：PMC-VQA 数据集中中等复杂程度案例中 MDAgents 的说明性示例。（来源：论文）

该研究在 Solo、Group 和 Adaptive 条件下评估了各种医疗基准测试中的框架和基线模型，显示出显著的稳健性和效率。

Adaptive 方法 MDAgents 可根据任务复杂性有效调整推理，并在十个基准测试中的七个中始终优于其他设置。

测试MedQA和 Path-VQA 等数据集的研究人员发现，自适应复杂度选择可提高决策准确性。

图示：该方法在不同的医学基准上优于 Solo 和 Group 设置。（来源：论文）

通过结合 MedRAG 和主持人的评审，准确率可提高高达 11.8%。此外，该框架对参数变化（包括温度调整）的弹性凸显了其对复杂医疗决策任务的适应性。

论文链接：https://arxiv.org/abs/2404.15155

相关报道：https://www.marktechpost.com/2024/11/04/mdagents-a-dynamic-multi-agent-framework-for-enhanced-medical-decision-making-with-large-language-models/

谷歌、MIT等开发多智能体医疗决策框架MDAgents，医学LLM新用法

是特质还是疾病？神经多样性的跨学科张力与机遇

导师梦想成为诺奖得主，学生竟劝他：醒醒吧，你连一篇 Nature 都没发

穿上感觉像轻了27斤！三万块一条的裤子，竟然卖爆了？谷歌孵化的公司Skip联手始祖鸟推出了全球首条

年轻人抛弃搜索引擎

槟榔，来自遥远海洋的恶魔果实

谷歌DeepMind研究再登Nature封面，隐形水印让AI无所遁形

我，500元买了台谷歌版Mac mini，居然能畅玩LOL？

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

大学生用中医拯救了一只瘫痪小猫，国粹的基操当真是西医的奇迹啊

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

伴随26年的并指分裂手，成年人做手术还要考虑工作

国家定调！80%二级及以上医院，新增一个科室（附设备配置清单）

用AI自动设计智能体，数学提分25.9%，远超手工设计

宝宝在肚子里手脚被绑住？妈妈咽：我以为是我的问题

宝宝没有大拇指很多事情做不了，示指拇化后小手掰东西很有劲

宝宝胸廓下就一层皮？妈妈：孩子以后是不是残废了

多指畸形什么时候做手术，1岁？2岁？还是3岁？

老人都说没有必要做，家长：我们肯定要切掉的

机会的力量（万字长文）

8岁小男孩因手指伸不直自卑，妈妈：做完手术他自信多了

谷歌、MIT等开发多智能体医疗决策框架MDAgents，医学LLM新用法

是特质还是疾病？神经多样性的跨学科张力与机遇

导师梦想成为诺奖得主，学生竟劝他：醒醒吧，你连一篇 Nature 都没发

穿上感觉像轻了27斤！三万块一条的裤子，竟然卖爆了？ 谷歌孵化的公司Skip联手始祖鸟推出了全球首条

年轻人抛弃搜索引擎

槟榔，来自遥远海洋的恶魔果实

谷歌DeepMind研究再登Nature封面，隐形水印让AI无所遁形

我，500元买了台谷歌版Mac mini，居然能畅玩LOL？

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

大学生用中医拯救了一只瘫痪小猫，国粹的基操当真是西医的奇迹啊

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

伴随26年的并指分裂手，成年人做手术还要考虑工作

国家定调！80%二级及以上医院，新增一个科室（附设备配置清单）

用AI自动设计智能体，数学提分25.9%，远超手工设计

宝宝在肚子里手脚被绑住？妈妈咽：我以为是我的问题

宝宝没有大拇指很多事情做不了，示指拇化后小手掰东西很有劲

宝宝胸廓下就一层皮？妈妈：孩子以后是不是残废了

多指畸形什么时候做手术，1岁？2岁？还是3岁？

老人都说没有必要做，家长：我们肯定要切掉的

机会的力量（万字长文）

8岁小男孩因手指伸不直自卑，妈妈：做完手术他自信多了

穿上感觉像轻了27斤！三万块一条的裤子，竟然卖爆了？谷歌孵化的公司Skip联手始祖鸟推出了全球首条