华佗GPT来了，真人医生，盲测效果优于ChatGPT

机器之心专栏机器之心编辑部

香港中文大学（深圳）和深圳市大数据研究院所在的王本友教授团队训练并开源了一个新的医疗大模型 ——HuatuoGPT（华佗GPT ），以使语言模型具备像医生一样的诊断能力和提供有用信息的能力。

基于医生回复和 ChatGPT 回复，让语言模型成为医生提供丰富且准确的问诊。

在医疗领域，大规模语言模型（LLM）具有广阔的应用潜力。尽管像 ChatGPT 这样的语言模型能够生成内容详实、表述流畅、逻辑清晰的回复，但其在回应患者描述症状时，缺乏专业性和对患者输入的精确解读。其回复常常包含多种可能性，并以较高层次的建议形式呈现，但往往缺少深入的上下文理解能力，使得其帮助患者的具体情况有限。

相比之下，现实世界中医生与患者的互动数据能够更准确地反映医疗情景的复杂性，并提供准确无误的诊断建议，具有极高的专业性。然而，由于时间的限制，医生的回应常常简洁至不能充分传达信息，甚至有时会显得不连贯。若仅依靠这些数据来训练模型，得到的模型难以流畅地应对多样的指令或对话，其生成的回应也会显得短小、表述不佳，有时信息含糊，这对患者并不友好。

香港中文大学（深圳）和深圳市大数据研究院所在的王本友教授团队利用指令微调和强化学习在 ChatGPT 和医生的回复中找到结合点，训练并开源了一个新的医疗大模型 ——HuatuoGPT。HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据，以使语言模型具备像医生一样的诊断能力和提供有用信息的能力，同时保持对用户流畅的交互和内容的丰富性，对话更加丝滑。

论文地址：https://arxiv.org/pdf/2305.15075.pdf
github 地址：https://github.com/FreedomIntelligence/HuatuoGPT
Demo 地址：https://www.huatuogpt.cn/

该论文提出的语言模型训练方法可以结合医生和 ChatGPT 的数据，充分发挥它们的互补作用，既保留真实医疗数据的专业性和准确性，又借助 ChatGPT 的多样性和内容丰富性的特点。

HuatuoGPT 介绍

1. 混合数据集微调

HuatuoGPT 使用了四种不同的数据集，分别如下：

蒸馏 ChatGPT 指令数据集（Distilled Instructions from ChatGPT）：这个数据集受到 Alpaca 模型创建指令集的方法启发，从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是，本方法还加入了科室和角色信息，根据采样的科室或角色生成符合条件的指令数据集。
真实医生指令数据集（Real-world Instructions from Doctors）：这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化，因此本方法通过润色以提高其可读性。
蒸馏 ChatGPT 对话数据集（Distilled Conversations from ChatGPT）：这个数据集通过为两个 ChatGPT 模型提供共享的对话背景，让它们分别模仿医生和患者进行对话。
真实医生对话数据集（Real-world Conversations with Doctors）：这个数据集来源于真实医生的对话，但对医生的回复使用模型进行了润色。

这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。

2. 基于 AI 反馈的强化学习

为了进一步提升模型生成的质量，HuatuoGPT 还应用了基于 AI 反馈的强化学习技术（RLAIF）。使用 ChatGPT 对模型生成的内容进行评分，考虑内容的用户友好程度，并结合医生的回答作为参考，将医生回复的质量纳入考量。利用 PPO 算法将模型的生成偏好调整到医生和用户之间的一致性，从而增强模型生成丰富、详尽且正确的诊断。

实验结果

在评估 HuatuoGPT 的性能表现上，团队成员采用了自动评估和人工评估两种方式相互验证，在单轮问答场景和多轮交互式诊断场景中分别进行了评估。

图：单轮问答场景的自动评测结果

针对单轮问答场景，团队成员精心收集了涵盖 10 个医疗领域意图的 100 个问题，并利用 GPT-4 进行自动评估。具体来说，团队提供了两个模型对同一问题生成回复，并使用 GPT-4 对每个模型的回复进行分析和打分。最终的测试结果显示，相较于基于 LLaMa 和 ChatGLM 的开源中文医疗模型，HuatuoGPT 表现显著优秀（以 HuatuoGPT 为基准）。这一优势得益于 HuatuoGPT 同时使用了从 ChatGPT 蒸馏的数据和真实世界数据进行训练，并借助来自 ChatGPT 和专业医生的混合反馈进行了优化。此外，HuatuoGPT 在总体性能上甚至超过了 GPT-3.5-turbo。

图：多轮诊断场景的自动评测结果

对于多轮问诊场景，团队成员收集了涵盖 20 个科室的 100 个多轮对话进行了评估。评估结果显示，HuatuoGPT 不仅全面优于目前的开源中文医疗模型，而且在大部分科室的表现上均优于 GPT-3.5-turbo，这为 HuatuoGPT 在处理更加复杂的多轮问诊场景中的优异性能提供了有力的证据。

在人工评估方面，团队成员使用了自动评估中的样本进行评估验证。团队成员邀请专业医生为模型的输出结果进行人工评估。下表是单轮问答场景和多轮诊断场景的评估结果。评估结果表明，无论是单轮的人工评测还是多轮的人工评测结果都与自动评估的结果保持了一致，这充分验证了模型性能评估的一致性和可靠性。

表：单轮问答场景人工评估结果

表：多轮问诊场景人工评估结果

访问方式

可以通过识别此二维码来访问最新版的华佗 GPT。

彩蛋：团队还开放了 HuatuoGPT 的前置工作 Huatuo-26M 医疗问答数据集（并不是 HuatuoGPT 的训练数据）https://github.com/freedomintelligence/huatuo-26m ，总共 2600W 的医疗问答数据全部开源到到了 HuggingFace，如果需要清理好的干净数据请发邮件至 changmiaowang@cuhk.edu.cn ，请注明单位和承诺只用于科研目的。包括 Huatuo-26M 在内的三个公开的医疗问答数据集，HuatuoGPT 的 zero-shot 性能超过 GPT 3.5 turbo（ChatGPT）、ChatGLM 和已有的医疗 GPT，甚至远好于全微调的中等大小的 T5 和 GPT。

澄清：HuaTuo 也是哈工大 SCIR 实验室的医疗 GPT 的名字，非常感谢哈工大 SCIR 的开源模型对开源社区的贡献。非常遗憾出现重名，其已经更名为本草（BenTsao）。

华佗GPT来了，真人医生，盲测效果优于ChatGPT

曝光！惠州30多家医院被点名处罚！中心医院被罚款数百万

江西南昌一附院熊鸣峰主任的号真太难挂了，每天早上六点准时蹲守

南大苏州医院开展医疗质量安全培训：聚焦医疗风险与防范

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

上海10岁男孩坐诊看病，十秒就能判断病症，老中医：他是华佗转世

2010年妻子流产死亡，丈夫要说法，医生惊讶：她老公已拿55万赔偿

ChatGPT：记住，机器是为了服务人类丨AI时代的人类意见

父亲手术住院，弟弟只待半天就走，10天后接到弟弟电话，我懂了

乒乓球运动员之间的“算”既包括计算也包括算计

微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把3.5淘汰了

普通人终于能感觉到大模型有啥用了

GPT-4找到我女朋友的过敏原

三国中最不能杀的2个人，孙权杀一人，曹操杀一人，最后自食恶果

世界范围内的军备竞赛已成定局了吗？

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

官方回应社保缴满15年就坐等退休

一哄而上，打不赢美国高科技

工信部征求意见：电动自行车拟禁用车载充电器、完善永久性标识

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

热火掀翻凯尔特人希罗24+5+14双探花空砍61分

华佗GPT来了，真人医生，盲测效果优于ChatGPT

曝光！惠州30多家医院被点名处罚！中心医院被罚款数百万

江西南昌一附院熊鸣峰主任的号真太难挂了，每天早上六点准时蹲守

南大苏州医院开展医疗质量安全培训：聚焦医疗风险与防范

给ChatGPT小费真的好使！10块或10万效果拔群，但给1毛不升反降

上海10岁男孩坐诊看病，十秒就能判断病症，老中医：他是华佗转世

2010年妻子流产死亡，丈夫要说法，医生惊讶：她老公已拿55万赔偿

ChatGPT：记住，机器是为了服务人类丨AI时代的人类意见

父亲手术住院，弟弟只待半天就走，10天后接到弟弟电话，我懂了

乒乓球运动员之间的“算”既包括计算也包括算计

微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把3.5淘汰了

普通人终于能感觉到大模型有啥用了

GPT-4找到我女朋友的过敏原

三国中最不能杀的2个人，孙权杀一人，曹操杀一人，最后自食恶果

世界范围内的军备竞赛已成定局了吗？

4月20日，北大运动会“机器人太奶”走红，24日代理公司回应：机器人是开放平台可编程，配齐大概80万

官方回应社保缴满15年就坐等退休

一哄而上，打不赢美国高科技

工信部征求意见：电动自行车拟禁用车载充电器、完善永久性标识

大反转！5600亩承包费用曝光，擅自改变土地性质，转租每年赚百万

热火掀翻凯尔特人 希罗24+5+14双探花空砍61分

热火掀翻凯尔特人希罗24+5+14双探花空砍61分