通过了美国医师考试的ChatGPT，会抢医生的饭碗吗？

ChatGPT实际上并不懂任何东西。它通过分析大量数据库、资料等，就任一主题构建听起来合理的句子。它可能异常聪明，也可能得出最荒谬的结论。

撰文 |燕小六

啥都能聊的人工智能ChatGPT又双叒叕封神了。

这一次，它挑战的是“史上最难标准化考试”：美国执业医师资格考试（USMLE）。根据《科学公共图书馆·数字健康》杂志近日刊发的研究，未接受过任何医学训练的ChatGPT“裸考”参加USMLE，准确率达到或接近及格所需的60%。

还有考得更好的。2022年末的一篇预印版文章称，经过专业医学数据“集训”后，谷歌旗下Flan-PaLM的USMLE考试成绩准确率达67.6%。而它的微调、升级版Med-PaLM在多方面都逼近人类医生水平。

和ChatGPT一样，Flan-PaLM和Med-PaLM也是大型语言模型，它俩的核心能力都是理解和生成文本。简而言之，就是“懂人话”“说人话”。

上述研究都指出，其结果“为重新思考医疗人工智能（AI）的发展，提供了重要契机。”微软创始人比尔·盖茨（Bill Gates）近日接受采访称，ChatGPT等AI可以在医疗保健等领域切实提高工作效率，“想想医生在文书工作上花费时间，未来我们应该能避免。”

更有乐观者展望未来，认为ChatGPT给患者看病指日可待。新西兰惠灵顿维多利亚大学软件工程高级讲师西蒙·麦卡勒姆（Simon McCallum）表示，随着技术不断发展，“我们可能很快会从AI医生处，得到医学方面的建议”。

图源：锐景

考试So easy，医学要变天？

美国医疗保健初创企业安西布尔健康公司（Ansible Health）是把ChatGPT送上医学“神坛”的操刀者。这是一家聚焦慢性肺病管理的科技公司，提供在线诊疗、远程康复、生活方式干预等服务。

肺疾病医生维克多·曾（Victor Tseng）是该司的医学主任。ChatGPT上线后，像亿万网友一样，他和同事们问了很多“有意思但没意义”的问题，想挑战AI的能力极限。他说，“我们输入很多信息，它能快速、准确地诊断出谁在装病。我们觉得，或许能让ChatGPT执行、处理一些复杂的医学和临床信息，比如协调患者治疗、护理等。但在此之前，我们先要证明，它确实迈进医学门槛，能干这个。”

维克多·曾等人选定的“门槛”就是USMLE。这是在美国获得行医资格的基础。考试结果只有“通过”和“不通过”两种。

考试分3个阶段，旨在评估参考者的基础医学科学、临床医学知识等掌握情况，以及评估临床知识在患者管理中的具体应用。每阶段考试都有计算机答题部分，第二阶段还会考标准化病人问诊。美国医学生大多在毕业后第一年当住院医师时，完成全部考试。

研究小组从2022年6月的USMLE真题库中，选出350道纯文字题。题型包括病因判断等选择题，根据提示、完成诊断等问答题。由于ChatGPT不会看图表，研究未纳入基于图像的问题。

3位USMLE委员会认证执业医师获邀为ChatGPT打分。结果显示，去除模糊不清的回答后，ChatGPT在3个阶段的得分率在52.4%-75%。

在“解释对/错”方面，ChatGPT展示出94.6%的响应一致性。在88.9%的问答题中，ChatGPT给出至少一个重要见解，其中有一些新鲜、有临床获益的解读。这表明它真的在“读题”“思考”，答案不是瞎蒙的。

“这项以难度而闻名的考试，通常需要300-400小时专业学习才能参加，涵盖从基础科学到生物伦理学的所有知识。”研究团队称，ChatGPT给出的结果令人信服，准确率较高。

也许很多普通吃瓜群众惊叹“医学要变天”，但医疗界的资深人士对ChatGPT的表现淡定很多。

其实，2022年，语言模型类AI进展迅猛，PubMed GPT、DRAGON、Galactica ……一个个都考了USMLE。当年年末，谷歌研究院和DeepMind团队联合研究更是考出了“史上AI最高分”。该团队指出，“回答医疗问题”极具挑战性。为了提供高质量的答案，AI需要理解医学背景、掌握适当的医学知识，并能对专家信息进行推理。

研究小组微调其语言模型、丰富数据集，由此生成Flan-PaLM模型。它拥有一组强大的医学问题问答数据集，涵盖医学考试、医学研究、消费者医学问题等多方面。其中包括USMLE真题库MedQA，和蕴涵海量健康话题搜索及结果的数据集HealthSearchQA。研究小组用真题库测试Flan-PaLM，发现其准确率达67.6%，比早先的AI模型高出17%。

研究小组通过调整问题指令，打造了另一个针对消费者医疗问题的Med-PaLM模型，测试发现，Med-PaLM在科学常识、理解、检索和推理等任务挑战中，水平直逼甚至战胜人类医生，且明显优于Flan-PaLM。

上述研究结论发布后，社交媒体推特出现大量评论，称：“AI医生终于来了。”

辅助医生，而不是替代

维克多·曾等人的研究刊发次日，USMLE项目回应称，“一点都不惊讶。非常感兴趣ChatGPT错在哪儿了”。该项目还表示，正确使用AI，将对构建考试方式、触动学生学习，产生积极影响。接下来会继续努力、优化USMLE，实现医学教育、医疗实践和技术等共同进步，甚至可能会在USMLE备考中，引入ChatGPT。

“或许有一天，真题就是AI编写的。” USMLE项目副主席阿莱克斯·麦卡博（Alex Mechaber）表示，ChatGPT的文本数据中有不少医学知识，AI是最可能选对答案的。但其不足是只能看文字，无法回答图像或声音问题，也不能参加临床技能模拟考试。

这一回应体现出USMLE对自身的思考。《科学公共图书馆·数字健康》在发表前述研究的同日，配发评论指出，ChatGPT通过美国执业医师资格考试，让人们注意到医学教育的缺陷。

该文称，ChatGPT的成功，一方面反映出医学考试过于强调机械记忆，对疾病机理死记硬背，不能充分评估现代医疗实践所需技能。

Aligned AI的联合创始人兼首席研究员斯图尔特·阿姆斯特朗（Stuart Armstrong）认为，USMLE对人而言肯定是困难的。但总有一天，在几乎所有的理论考试中，AI都能一骑绝尘。数据库越大、训练越多，其成绩就能进一步提高。2022年诸多语言模型类AI不断刷新USMLE考分记录，就是实证。另一方面，它折射出医学教学方式僵化，易让学生误以为医学问题“非对即错”。

事实上，现代医学以循证医学为基础，包括外部证据，医生个体经验和患者意图等多方面。临床中的“正确选择”含义丰富，既需要医生摒弃偏见、发挥创造力、展开批判性思考，也需要考虑众多现实因素。在这些方面，AI并无优势。

近日，北美华人医师联盟、美国华裔心脏协会采用群聊的形式，组织了一场高血压科普访谈。

该联盟主席、美国心脏病学会专家会员（FACC）高磊称：“ChatGPT的能力不能小视。”

在分享中，主讲嘉宾、美国加州大学戴维斯医学中心临床科学教授范大立提问ChatGPT，让其解答一系列血压相关问题。结果“对错参杂”。

比如，ChatGPT回答：120/80毫米汞柱是“正常血压”，超过140/90毫米汞柱则是高血压。“那么，在这范围之间的血压是正常，还是高呢？”主持人之一、美国华裔心脏协会主席、美国凯撒医疗集团Fremont医学中心心脏科医生胡新歌分析，欧洲仍在使用140/90毫米汞柱诊断标准。但按照美国2017年指南，130/80毫米汞柱是一级高血压，140/90毫米汞柱是二级高血压。这或说明ChatGPT存在困惑，没搞明白这些数值背后的意义。

此外，血压=心输出量×动脉血管阻力，是心内科最重要的公式。高磊、胡新歌都表示，关于血压、用药的问题，多可以用这个公式来解释。ChatGPT对这一公式的回复是“看不懂。”

ChatGPT也有“神回答”。范大立连问几次，血压到130/80毫米汞柱要不要用药。ChatGPT回复称，这一数值属于边缘高血压，不一定要马上用药，可以通过生活方式改善等调节。“这个是有道理的，临床也在这么做。”胡新歌说。

“ChatGPT实际上并不懂任何东西。它是通过分析大量数据库、资料等，就任一主题构建听起来合理的句子。它可能异常聪明，也可能得出最荒谬的结论。”Science Alert文章指出。

USMLE项目在其回应中还担忧：大型语言模型可能带来潜在错误信息，存在使有害偏见固化的风险。在Med-PaLM相关研究中，研究小组就发现其答案的不完整性、不正确内容等，发生率都高于人类医生。

作为一线医生，上海市第十人民医院老年医学科主任彭沪曾就一些常见症状问询过ChatGPT。谈及AI能否取代医生，彭沪表示，医疗AI的发展目标应该是辅助医生，而非代替医生。AI可以帮助医生快速完成一些繁琐的重复性工作，从而提高工作效率、改善工作质量、提升治疗水平、减轻医务人员的工作负担。但最终的判断和决策，仍需要在医生的监督下进行。尤其在强医疗场景中，人工智能的应用还牵涉到伦理、政策、论证等多方面因素。

彭沪畅想的场景，在维克多·曾的日常工作中已经成为现实。他的临床医生同事已开始尝试将ChatGPT作为工作流程的一部分。“我们的医生会以安全的方式输入信息，要求ChatGPT协助完成一些传统、繁重的写作任务，比如向付款人写投诉信，简化放射报告中密集的专业术语，以便患者阅读、理解。遇到一些较难诊断的病例时，我们也会借助ChatGPT进行头脑风暴。”

维克多·曾说，“AI用于医疗的大门已经打开了。”

资料来源：

1.USMLE Program Discusses ChatGPT. USMLE

2.Doctor ChatGPT? AI-bot almost passes the US Medical Licensing Exam. interestingengineering

3.Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digit Health.2(2):e0000198. doi.org/10.1371/journal.pdig.0000198

4.ChatGPT Can Almost Pass The US Medical Licensing Exam. Science Alert

5.AI Passes U.S. Medical Licensing Exam. Medpage Today

6.'Everything Will Be..': Musk Reacts On ChatGPT Passing US Medical Licensing Exam. Republic World

7.停止对ChatGPT的空洞唱和，不如反思人类社会的诸多设计. 澎湃新闻

8.Large language models encode clinical knowledge. arXiv. DOI:10.48550/arXiv.2212.13138.

9.Paging Dr. AI? What ChatGPT and artificial intelligence could mean for the future of medicine. CNN

来源：医学界

责编：田栋梁

编辑：赵静

*"医学界"力求所发表内容专业、可靠，但不对内容的准确性做出承诺；请相关各方在采用或以此作为决策依据时另行核查。

↓↓↓点击图片，报名参会

通过了美国医师考试的ChatGPT，会抢医生的饭碗吗？

重磅，美已做好了与俄曹伊契四线同时作战的准备

中国国航：拟向商飞公司购买100架C919飞机

几千年都没有变过！

众生相！湖人0-3陷入绝境，赛后詹姆斯直接离场，主场观众狂嘘

北约高官称中国为俄提供卫星能力和成像技术中方驳斥

丽水拟出让微小宅地：个人可独立或联合建房，建成后可办产证可出售

有网友总结：在中国，想失业比考北大还要难

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

滥发货币是洗劫国民财富，最残酷的方式

卢麒元停更！他的最大贡献在于唤醒民众，把一些人拉下了神坛

汽车以旧换新补贴实施细则公布最高补贴1万元

“为大局服务”，到底什么才是大局呢？有网友想到答案！

小男孩向美国发言人提问：你们给乌克兰的武器够吗？

一枚俄军X-55巡航导弹失控掉落摔在路上弹体弯曲变形

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

女主人发烧独自输液狗狗跑4里外医院"看望"

南京拟放宽落户条件买房可直接落户

奇瑞背后的大赢家

爬山失联女子丈夫发声：妻子主动发送求救信息，请停止恶意揣测

周鸿祎爬车视频刷屏网络成为2024北京车展焦点，本人回应

通过了美国医师考试的ChatGPT，会抢医生的饭碗吗？

重磅，美已做好了与俄曹伊契四线同时作战的准备

中国国航：拟向商飞公司购买100架C919飞机

几千年都没有变过！

众生相！湖人0-3陷入绝境，赛后詹姆斯直接离场，主场观众狂嘘

北约高官称中国为俄提供卫星能力和成像技术 中方驳斥

丽水拟出让微小宅地：个人可独立或联合建房，建成后可办产证可出售

有网友总结：在中国，想失业比考北大还要难

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

滥发货币是洗劫国民财富，最残酷的方式

卢麒元停更！他的最大贡献在于唤醒民众，把一些人拉下了神坛

汽车以旧换新补贴实施细则公布 最高补贴1万元

“为大局服务”，到底什么才是大局呢？有网友想到答案！

小男孩向美国发言人提问：你们给乌克兰的武器够吗？

一枚俄军X-55巡航导弹失控掉落 摔在路上弹体弯曲变形

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

女主人发烧独自输液 狗狗跑4里外医院"看望"

南京拟放宽落户条件 买房可直接落户

奇瑞背后的大赢家

爬山失联女子丈夫发声：妻子主动发送求救信息，请停止恶意揣测

周鸿祎爬车视频刷屏网络 成为2024北京车展焦点，本人回应

北约高官称中国为俄提供卫星能力和成像技术中方驳斥

汽车以旧换新补贴实施细则公布最高补贴1万元

一枚俄军X-55巡航导弹失控掉落摔在路上弹体弯曲变形

女主人发烧独自输液狗狗跑4里外医院"看望"

南京拟放宽落户条件买房可直接落户

周鸿祎爬车视频刷屏网络成为2024北京车展焦点，本人回应