撰文丨王聪
编辑丨王多鱼
排版丨水成文
最近,GPT-5、Gemini 这些大语言模型在医学考试里拿高分、碾压人类专家的消息层出不穷,这让不少人产生了一种 AI 医生马上就能上岗的感觉。
而一项最新研究给所有乐观者泼了一盆冷水——当前顶尖大模型在医疗应用中所取得的“高分”,很可能是“作弊”来的。
2026 年 6 月 26 日,微软研究院、Scripps 研究所的研人员在国际顶尖医学期刊Nature Medicine上发表了题为:Evaluating the robustness and readiness of large frontier models in health AI applications 的研究论文,论文第一作者兼共同通讯作者Gu Yu目前已加入字节跳动。
该研究系统性地应用并整合了一系列对抗性压力测试,以评估主流大模型和医疗基准的稳健性(Robustnes)。该研究发现,把测试题目里的图片删掉、把选项顺序打乱、把正确答案对应的图像换成别的疾病……结果原本取得高分的大模型,瞬间跌到及格线以下,甚至还会一本正经地编出完全错误的诊断理由。
这项研究不仅戳破了“医疗 AI 能力超越人类医生”的神话,更给整个行业提了个醒:医疗 AI 的评估,不能再只看“考试分数”了。
像 GPT-5 和 Gemini 这样的前沿大语言模型在广泛的医疗应用基准测试中表现出色。然而,在这些看似令人鼓舞的结果背后,仍存在显著的增长空间,尤其是在多模态推理等前沿领域。
六套“压力测试”,扒下大模型的“画皮”
研究团队设计了 6 项递进的压力测试,专门瞄准大模型的多模态推理能力——也就是同时看懂文字病历和医学影像,像医生一样综合判断的能力。结果暴露的问题,比想象中更严重——
1、没图也能“蒙对”?全靠“死记硬背”
第一项测试很简单:把题目里的医学影像(比如 X 光片、病理图)直接删掉,只留文字题干,看模型还能不能答对。
按理说,很多医学题必须看图才能诊断,没图就应该答不上来,或者明确说“信息不足”。但结果让人大跌眼镜:在《新英格兰医学杂志》(NEJM)的医学挑战题里,GPT-5 在去掉图像后准确率只降了 13.92 个百分点,依然有 67.41%;而在专门筛选的“必须看图才能答”的 197 道题里,所有模型的准确率都远高于 20% 的随机猜测水平——GPT-5 甚至达到了 41.32%。
这意味着这些模型根本没在认真“看图诊断”,而是在靠“刷题背答案”:记住了“某类题干描述对应某个答案”,哪怕没有影像证据,也能蒙对一半。只有 GPT-4o 比较“老实”,没图的时候有一半概率直接拒绝回答,但也还是有 16.35% 的概率会瞎猜。
2、选项换个顺序就翻车?“位置依赖”太严重
第三项测试更离谱:只把选择题的选项顺序打乱,题干、正确答案全不变,看模型会不会受影响。
结果在纯文本输入下,GPT-4o 的准确率直接从正常水平的 70%+ 跌到了 16.35%,只有在保留图像的情况下,视觉信息能帮它抵消一部分干扰,准确率才会回升。这说明模型很多时候不是真的理解了知识点,而是记住了“正确答案在第几个位置”这种表面规律,典型的“应试技巧”,不是真本事。
3、换张图就“认死理”?视觉理解全是 bug
第五项测试最贴近临床实际:把题干对应的正确影像,换成另一个符合某个错误选项的影像,题干和选项完全不变,看模型会不会跟着新影像改答案。
比如原题是“看图诊断皮肌炎”,正确答案是 B 选项,研究人员把图换成符合 C 选项“心内膜炎”的影像,按理说模型应该改选 C。但结果呢?GPT-5 的准确率从 84% 暴跌到 35%,也就是说大部分时候它还是盯着原来的 B 选项不放,根本没意识到图已经变了。更有意思的是 GPT-4o,反而准确率从 26.5% 升到了 36%——不是它看得更准了,而是随机乱猜的概率变高了。
4、解释越听越靠谱?全是“一本正经的胡说八道”
最后一项测试专门检测大模型的“诊断理由”:让它一步步写出推理过程,再看这些理由是不是真的支持它的答案。
结果发现三种典型问题:
答案对了,理由错了:例如正确答案是“气肿性结肠炎”,大模型说自己看到了“沿结肠壁的囊状气体影”(这个描述确实符合该病),但实际上它根本没真的识别图像,只是根据答案反推了一个听起来合理的理由;
错上加错:一开始看错了影像特征,后面的推理全部基于这个错误认知,越推越偏;
废话文学:写了一大堆结构严谨的话,比如“需要结合临床症状、实验室检查综合判断”,但完全没有实质信息,对诊断毫无帮助。
最可怕的是,这些错误的推理过程往往逻辑通顺、术语专业,非专业人士(甚至普通医生)很难立刻发现漏洞,很容易被误导。
压力测试揭示了大语言模型在多模态医疗应用中的隐藏脆弱性和稳健性差距
原来使用的“考题”,本身就有问题
为什么这些大模型能在公开榜单上拿高分,一测试就露馅?研究团队发现:不是大模型太聪明,是我们用的“考题”(医学基准数据集)太简单、太单一了。
他们找了三位执业医生,用 10 个临床维度给 9 个常用的医学评测数据集打了分,结果发现这些数据集的“难度侧重”天差地别——
NEJM Image Challenge:既需要复杂推理,又需要精细读图,最接近真实临床诊断;
JAMA Clinical Challenge:推理要求高,但很多题不用看图,光读文字就能蒙对;
VQA-RAD、MIMIC-CXR:非常依赖图像,但推理难度低,基本是“看图认器官”;
OmniMedVQA:推理和视觉要求都很低,更像基础常识题。
基准测试在推理和视觉复杂度方面存在差异
这就导致一个尴尬的现实:如果一个模型只在 JAMA 这类“文本可解”的数据集上训练,哪怕它在榜单上拿了第一,放到需要读片的真实场景里也会完全失效。而我们过去总把这些数据集混为一谈,用平均分来衡量模型能力,相当于用“单科成绩”代表“全科水平”,完全是误判。
给医疗 AI 的“退烧药”:三个关键建议
这项研究不是为了否定大模型在医疗领域的价值,而是为了让行业冷静下来,建立更科学的评估体系。研究团队最后给出了三个核心建议,值得所有从业者深思——
第一,给每个数据集发“说明书”,以后发布医学评测数据集,必须附带详细的“元数据”:说明这个数据集主要考什么能力、适合评估哪类模型、有哪些局限性。不能只给个分数,却不说这个分数到底代表什么。
第二,评估要“拆指标”,不能只看总分,就像体检报告不会只看“总分”,而是分血常规、肝肾功能一样,模型评估也要按“推理复杂度”“视觉依赖度”“不确定性处理能力”等临床维度拆分指标,单独汇报。比如要明确说“该模型在视觉推理任务上表现优异,但在不确定性处理上存在缺陷”,而不是笼统地说“该模型达到专家水平”。
第三,必须把“压力测试”纳入常规评估,以后医疗 AI 的发布前审计,不能只跑一遍标准数据集算准确率,必须把“输入扰动”、“模态冲突”、“推理一致性”这类压力测试作为必选项,和准确率一起汇报。就像新药上市要做“不良反应测试”一样,AI 上岗前也要做“抗干扰测试”。
医疗 AI 的价值,从来不是“考高分”,而是真正帮医生减少误诊、帮患者获得更准确的诊断。如果我们的评估体系只盯着榜单排名,只会催生更多“应试型 AI”——它们在测试中表现完美,到了真实的临床应用时,面对模糊的影像、不完整的病历、复杂的个体差异,就会漏洞百出。
这项研究撕开的不仅是大模型的“遮羞布”,更是整个行业的“认知误区”:医疗 AI 的成熟度,不看它能在理想条件下拿多少分,而看它在混乱的真实世界里,能扛住多少意外。
论文链接:
https://www.nature.com/articles/s41591-026-04501-8

