凌晨1点的急诊室,62岁急性心梗患者血压飙至185/105 mmHg,血氧仅91%。护士推着除颤仪催促确认替格瑞洛剂量——患者肾功能受损,标准剂量可能致命,减量又恐支架堵塞。医生只有3分钟,在浩瀚指南中寻找依据。
这不是电影场景。2024年全国医疗卫生机构总诊疗人次达101.5亿,508.2万执业(助理)医师支撑起这场百亿级的诊疗马拉松。纪录片《中国医生》总导演那句"没有哪个国家的医生承受这样的超级压力",道出了结构性困境:医生决策供给,才是医疗真正的痛点。
更棘手的是知识爆炸。PubMed收录超4000万条生物医学文献,年增百万级条目。每一次开处方、下医嘱,都需在高压工作中追赶最新证据。互联网医疗能提升就诊效率,却触不到"决策供给"这一核心——这正是医学AI的破局空间。
但过去一年,DeepSeek们一进医疗科研就翻车。医生们发现,通用大模型在严肃医学场景中能力迅速塌陷:它会虚构文献,即使明确要求提供DOI号,链接也经常错误。英国皇家外科医学院期刊研究显示,Grok 3引用幻觉率高达33.6%,DeepSeek DeepThink为25%——这些"幻觉引用"甚至带有虚构的Mayo Clinic链接。
近半数顶尖模型回答医学问题时,默认不披露信息来源。这与医生核心工作逻辑"循证"(基于证据决策)背道而驰:我如何知道推理是有理可据、权威准确的?
业界普遍将检索增强生成(RAG)视为解药,把病历、指南切片灌入向量数据库,让模型"带着资料回答"。但medRxiv最新研究给出反直觉结论:加入RAG后,医学临床文本生成的无依据声明率从5.0%飙升至43.6%,幻觉率增加8.7倍。
临床文本高度非结构化,充满上下文依赖与时间敏感信息。RAG容易检索出"语义相似但实际属于其他患者或错误时间点"的片段——找到"看起来相关"的资料,却非"真正适用"的证据,模型据此捏造虚假医学叙事。
5月13日,阿里健康推出"氢离子",一款面向临床和科研医生的医学AI。产品设计上,定语首先是"证据、循证",AI被放在最后。官方定位明确:解决"中国500万医生的一切医学问题","低幻觉、高循证"是核心能力标签——所有回答提供权威出处,支持一键溯源。
"在严重幻觉率上,我们比国内竞品领先2-3倍。"阿里健康CTO祥志给出定性结论。与传统循证工具UpToDate相比,"氢离子"使用门槛更低:医生可通过自然语言、多轮对话、语音、图片等多模态方式提问,像与同事讨论病例一样直接抛出问题。
内测数据显示,一位三甲急诊科主任医师在88天内登录高达193次,反馈关键词集中于"可信""可靠",尤其对"循证问答"评价极高。
回到凌晨1点的急诊室。医生"心电捕手"打开"氢离子",输入"急性ST段抬高型心梗合并急性心衰,PCI术后替格瑞洛剂量调整(eGFR65)"。AI明确推荐负荷剂量180mg、维持剂量90mg bid,加粗标注依据来源——中华医学会2025年最新治疗指南,点击即可查看电子化原文。
关键突破在于精准定位:不是高亮整段文本,而是定位到真正决定结论的"关键三行"。医生看到的不只是"这篇文章可能相关",而是"依据具体在哪里"。同时引入时效性("2025年")与权威性("中华医学会指南")维度,强调对全球权威指南和文献进行日更级追踪。
这回应了一个基本现实:医学证据每天都在变化。新指南、新药物、新疗法层出不穷,肿瘤、感染、心血管等领域的顶刊新结果,可能直接改变第二天的治疗策略。证据滞后即意味着判断风险——而"氢离子"试图将动态证据链与临床决策实时绑定。
从193次登录到3分钟生死决策,医学AI的终极考验不在参数规模,而在能否让500万医生确信:每一次回答,都锚定在可信证据之上。
