2024年3月22日,《Annals of family medicine》发表了一篇研究,调查了ChatGPT-3.5对140篇医学论文摘要的总结能力。结果显示,相比原摘要的内容长度,ChatGPT总结的摘要内容缩短了70%,质量和准确度较高、偏倚较低。

打开网易新闻 查看更多图片

原文链接:https://www.annfammed.org/content/22/2/113

研究方法

文章选择

研究选择了14本期刊:(1)涉及的医学主题广泛;(2)影响因子分布的范围较广;(3)包含结构化和非结构化的摘要。研究者选取发表于2022年的研究,对每本期刊的文章进行简单随机抽样。研究类型包括病例研究、观察性研究、干预研究、随机对照研究、系统综述和Meta分析,排除社论(editorials)、信件(letters)、观点(perspectives)、勘误(errata)、普通综述。

图. 14本期刊

ChatGPT总结摘要及结果评估

研究者提示ChatGPT对论文摘要进行总结(仅向其提供摘要内容,要求其总结后的字数不超过125个词)。在发送摘要内容之前,研究者的提示语如下(截取部分):

The following is the abstract of a medical research article. In a paragraph,summarize the most important points for a practicing physician. If possible, include details of the study design, total number of participants, major results, and important conclusions. For this summary paragraph, use no more than 125 words.Include quantitative information when possible.

对ChatGPT生成摘要的评估

评估由7位医生独立进行,按照通用的评分标准对ChatGPT生成摘要的质量、准确性进行评估(范围为0-100分;等级划分为A、B、C、D、F,相应分数范围为90-100、80-89、70-79、60-69和≤59)。对偏倚性的评估,使用了“无偏倚”到“偏倚”的通用标准。与各医学领域相关性的评估,使用了“不相关”到“明显相关”的通用标准。对所有评审员的评分取均值,得出最终分数。

研究结果

ChatGPT总结的医学摘要的特征

研究者使用ChatGPT总结了14本期刊的140篇文章的摘要。大多数摘要(n=120)为结构化格式。原来的摘要平均有2438个字符,ChatGPT将这个长度缩短了70%,即总结后的内容平均739个字符

评审员对ChatGPT总结摘要的评分,最终评为高质量(中位得分90.0,四分位间距 [IQR] 87.0-92.5)、高准确性(92.5,89.0-95.0)和低偏倚(0,0-7.5)。

AI幻觉或不准确

140篇摘要中,有4篇总结出现严重不准确的问题,即误解了研究的主要结果。

  • 一篇是遗漏了重要信息。原文使用logisitic回归发现了一个重要的风险因素(女性性别),GPT总结中遗漏了该因素,但报告了其他重要的风险因素。

  • 还有一篇是ChatGPT明显了摘要语义。该研究的设计复杂,包括了两种不同主要结局的两个治疗组,但GPT总结中认为两个治疗组的主要结局相同。

  • 两篇可认为是人工智能幻觉(Hallucinations):一篇原摘要明确指出是“开放标签试验”,而GPT总结中写的是“双盲试验”;另一篇GPT总结中写道各亚组的分析结果一致,而原摘要只列出了一项亚组分析结果。

总结与讨论

本研究分析表明,相比原摘要的内容长度,ChatGPT-3.5总结的摘要缩短了70%,评估后认为其总结具有高质量、高准确性和低偏倚的优势。ChatGPT可能是一种有用的筛选工具,帮助忙碌的临床医生和研究者更快评估文章是否值得进一步精读

本研究存在一些限性:(1)仅评估了数量有限的期刊,所有都集中在临床医学领域;(2)多数期刊使用结构化摘要,非结构化摘要数量很少;(3)分析主要集中在高影响因子的期刊,未来的研究需纳入更多低影响因子期刊。

附录:ChatGPT总结示例

原来的摘要:

打开网易新闻 查看更多图片

链接:https://www.acpjournals.org/doi/10.7326/M21-3324

ChatGPT总结内容如下:

The study aimed to assess the causal relationship between low vitamin D status and mortality using a nonlinear Mendelian randomization analysis on 307,601 participants of White European ancestry from the UK Biobank. The results showed a significant L-shaped association between genetically predicted 25-hydroxyvitamin D and all-cause mortality. The risk of death decreased with increasing concentrations of 25-(OH)D until 50 nmol/L. The study also found evidence for an association between low vitamin D and mortality from cancer, cardiovascular disease, and respiratory diseases. The odds of all cause mortality were estimated to increase by 25% for participants with a 25-(OH)D concentration of 25 nmol/L compared to 50 nmol/L. The study supports a causal relationship between vitamin D deficiency and mortality and highlights the need for strategies to meet the National Academy of Medicine's guideline of greater than 50 nmol/L.

参考文献:Ann Fam Med.2024;22(2):113-120.

医咖会在2023年底也上线了SCI-AI工具(基于GPT4.0大型语言模型),可应用于多种场景,例如科研问题咨询、内容撰写、信息查询等。点击左下角“阅读原文”即可免费试用,手机端和电脑端均可以体验哦!(注:未认证用户需认证后使用)