o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

新智元报道

编辑：LRS

【新智元导读】OpenAI的o1模型在通用语言任务上展现了显著的性能，最新测评展现了o1模型在医学领域的表现，主要关注理解、推理和多语言能力，结果大幅超越以往的模型！

大语言模型在刚发布的时候，以其任务、领域通用性和流畅的文本生成能力成功破圈，不过当时的技术还只能应用在一些比较简单的任务上。

而随着思维链等提示技术出现，尤其OpenAI最新发布的o1模型更是第一个采用强化学习策略的内化思维链技术的，把大模型解决复杂问题和推理能力提高了全新的高度。

虽然o1模型在各种通用语言任务上表现出了惊人的强大能力，但其在医学等专业领域的表现仍然未知。

来自加州大学圣克鲁兹分校、爱丁堡大学和美国国立卫生研究院的华人团队共同发布了一篇报告，对o1在不同医疗场景下进行了全面的探索，考察了模型在理解（understanding）、推理（reasoning）和多语言（multilinguality）方面的能力。

论文链接：https://arxiv.org/pdf/2409.15277

数据链接：https://ucsc-vlaa.github.io/o1_medicine/

该评估涵盖 6 个任务，使用来自 37 个医学数据集的数据，其中包括两个基于《新英格兰医学杂志》(NEJM) 和《柳叶刀》专业医学测验的高难度问答任务。

与MedQA 等标准医学问答基准相比，这些数据集与临床联系得更紧密，可以更有效地应用于真实世界的临床场景中。

对o1模型的分析表明， LLMs推理能力的增强更有利于模型理解各种医疗指令，也能够提升模型在复杂的临床场景进行推理的能力。

值得注意的是，o1模型在19个数据集和两个复杂问答场景中的准确率平均超过了之前GPT-4 6.2% 和 6.6%

与此同时，研究人员发现模型能力和现有评估协议中存在一些缺陷，包括幻觉、多语言能力不一致以及评估指标不一致。

全面评估大模型的医学能力

在提升模型推理能力上，思维链（CoT）提示是一种常用的提示策略，利用模型内部的推理模式来增强解决复杂任务的能力。

o1模型更进一步，将CoT过程嵌入到模型训练中，整合了强化学习，展现了强大的推理性能；不过o1模型尚未经过专业领域数据的评估，其在特定任务上的性能仍然未可知。

现有的医学领域LLM基准测试通常只会评估模型的特定能力，比如知识和推理、安全性和多语言，彼此之间的测验比较孤立，无法对o1这样的高级模型进行全面评估。

为了确保全面评估，研究人员收集了涵盖上述方面的各种医学任务和数据集，并在流程中探索了三种提示策略，包括：

1. 直接提示，指导大型语言模型直接解决问题

2. 思维链，要求模型在生成最终答案之前逐步思考

3. 少样本提示，为模型提供了几个示例，以便在运行中学习输入输出映射。

最后，使用适当的度量标准来衡量生成的回复与真实答案之间的差异。

侧重点和任务

研究人员利用35个现有的数据集，并为评估创建了2个额外的具有更高难度的数据集，然后将所有37个数据集分类为3个方面6个任务，以便更清晰地进行评估和分析，能够了解模型在特定领域的表现如何。

理解（understanding），指的是模型利用其内部医学知识来理解医学概念的能力。

例如，在概念识别（concept recognition）任务中，模型需要从文章或诊断报告中提取或详细阐述医学概念；在文本摘要中，模型需要理解复杂文本中的概念以生成简洁的摘要。

推理（reasoning），测试模型进行多步骤逻辑思考以得出结论的能力。

在问答任务中，模型需要遵循提示指令根据问题中提供的医学信息进行推理，从多个选项中选择正确的答案。

除了常见的问答数据集，研究人员还收集了来自《柳叶刀》、《新英格兰医学杂志》（NEJM）和Medbullets的真实世界临床问题，以更好地评估LLMs的临床效用。

在临床建议任务中，模型需要根据患者的信息提供治疗建议或诊断决策。在AI Hospital和AgentClinic数据集中，模型需要充当医疗智能体；在MedCalc-Bench数据集中，模型需要进行数学推理并计算答案。

多语言（Multilinguality），输入指令和输出答案的语言不同。

XMedBench数据集要求LLMs用六种语言回答医学问题，包括中文、阿拉伯语、印地语、西班牙语、中文和英语；在AI Hospital数据集，模型需要使用中文进行问答。

评估指标

准确率（Accuracy），用于直接衡量模型生成的答案与真实答案完全匹配的百分比。

主要用于真实答案是一个单词或短语的情况，包括多项选择问题数据集、MedCalcBench数据集以及临床建议和概念识别数据集。

F1分数，精确度和召回率的调和平均值，用于模型需要选择多个正确答案的数据集。

BLEU和ROUGE，衡量生成回复与真实答案之间相似性的自然语言处理度量标准，对评估中所有自由形式生成任务使用BLEU-1和ROUGE-1

AlignScore，衡量生成文本事实一致性的度量标准，对所有无指定格式生成任务使用AlignScore来评估模型幻觉的程度。

Mauve，衡量生成文本和人类编写文本分布之间差异的度量标准，用于所有无指定格式生成任务，指标的数值范围为0到100，数值越高表示模型输出的质量越高。

实验结果

提示策略

对于知识问答任务、智能体任务、医学计算任务和多语言相关任务，使用直接提示评估方法；

对于其他来自MedS-Bench的任务，遵循基准设置中的三样本提示策略。

根据OpenAI的声明，常见的提示技术，如思维链（CoT）和上下文中的示例，对于提升o1性能来说帮助并不大，因为模型已经内置了隐式的CoT。

为了进一步验证这一说法，研究人员在评估中增加了几种高级提示的效果，包括CoT、自我一致（Self Consistency）和Reflex

除了选择GPT-3.5、GPT-4、o1模型进行评估外，研究人员还选择了两个开源模型：一个是用医学中心数据训练的大型语言模型MEDITRON-70B，以及目前最新和最强大的开源大型语言模型Llama3-8B

主要结果

o1在临床理解方面的能力得到了增强

o1模型在发布时，OpenAI主要强调了其在知识和推理能力方面的显著提升，如数学问题求解和代码生成，从实验结果中也可以观察到，这种能力也能够迁移到特定的临床知识理解上。

可以看到，在大多数临床任务的理解方面，o1的表现优于其他模型，例如，在5个使用F1作为度量的概念识别数据集上，o1的平均上分别比GPT-4和GPT-3.5高出7.6%和26.6%，在常用的BC4Chem数据集上平均提高了24.5%

在摘要任务上，o1在ROUGE-1得分上比GPT-4和GPT-3.5分别提高了2.4%和3.7%，证明了其在现实世界临床理解方面的增强能力，结果也证实了大型语言模型在通用自然语言处理能力方面的进展可以有效地转化为医学领域的增强模型理解。

o1模型在临床诊断场景中强大的推理能力

在推理相关的任务上，o1模型也展现出了其在现实世界诊断情境中的优势。

在新构建的、具有挑战性的问答任务NEJMQA和LancetQA中，o1在各自的数据集上平均准确率比GPT-4（79.6%）和GPT-3.5（61.5%）分别提高了8.9%和27.1%

o1在数学推理能力上的另一个值得注意的改进是，将MedCalc-Bench的基线提升到了34.9%，比GPT-4高出显著的9.4%

在涉及多轮对话和环境模拟的更复杂的推理场景中，o1在AgentClinic基准测试中的表现超过了GPT-4和GPT-3.5，在MedQA和NEJM子集上分别获得了至少15.5%和10%的准确率提升，得分分别为45.5%和20.0%

除了更高的准确率外，o1的答案也更简洁、直接，而GPT-4则会于在错误的答案旁边生成幻觉性的解释。

研究人员认为o1在知识和推理方面的改进主要归因于训练过程中使用增强的数据和基础技术（如CoT数据和强化学习技术）。

基于上述乐观结果，研究人员在论文中激动地表示：有了o1模型，我们距离一个全自动AI医生已经越来越近了。

参考资料：

https://arxiv.org/abs/2409.15277

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

多模态大模型会让视频工作者失业吗？阿里云AI专家深度解析多模态大模型在B端场景中，有哪些应用场景和

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯

多模态大模型会让视频工作者失业吗？阿里云AI专家深度解析

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

AI可能造成人类灭绝，真的还是炒作？

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

练习时长两年半，机器人转笔大师诞生！ 不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型如何助力企业AI创新？阿里云AI专家为你解答 哪些因素影响企业用户选择模型服务平台？检索增强R

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

一口气看完 WAIC百度智能云展台 WAIC现场百度智能云大秀绝活，一句话生成数字人，超低门槛搭建应

多模态大模型会让视频工作者失业吗？阿里云AI专家深度解析 多模态大模型在B端场景中，有哪些应用场景和

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观 这个爆火AI编程工具Cursor真的杀疯

多模态大模型会让视频工作者失业吗？阿里云AI专家深度解析

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

AI可能造成人类灭绝，真的还是炒作？

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

多模态大模型会让视频工作者失业吗？阿里云AI专家深度解析多模态大模型在B端场景中，有哪些应用场景和

45分钟造出聊天机器人？8岁女孩玩转AI代码，百万网友围观这个爆火AI编程工具Cursor真的杀疯