哈佛医学院和贝斯以色列女执事医疗中心的一项新研究显示,在特定急诊室场景中,OpenAI的一款大型语言模型在诊断准确率方面超过了参与对比的两名内科主治医生。相关论文本周发表于《科学》杂志。
研究设计与对象
研究由哈佛医学院和贝斯以色列女执事医疗中心的医生及计算机科学家共同完成。研究团队表示,他们通过多项实验,对OpenAI模型与人类医生在多种医疗情境下的表现进行了比较。
其中一项关键实验聚焦于76名进入贝斯以色列急诊室就诊的患者。研究人员将两名内科主治医生给出的诊断,与OpenAI的 o1 和 4o 模型生成的诊断进行对比。随后,另外两名主治医生在不知情诊断来源的情况下,对这些诊断进行评估,以判断其准确性和接近程度。
主要发现
论文指出,在各个诊断接触点上,o1 模型的表现“要么略优于,要么与两名主治医生和 4o 模型持平”。研究特别提到,这一差异在首次诊断接触点——即急诊初始分诊阶段——最为明显。在这一阶段,医生掌握的患者信息最少,但需要迅速作出判断。
根据研究团队在哈佛医学院新闻稿中的说明,实验中并未对数据进行预处理,人工智能模型获取的信息与医生在每次诊断时从电子病历中能够看到的信息完全一致。
在基于这些信息进行的分诊判断中,o1 模型在 67% 的病例中给出了“完全正确或非常接近的诊断”;两名内科主治医生则分别在 55% 和 50% 的病例中给出完全正确或接近的诊断。
哈佛医学院人工智能实验室负责人、该研究主要作者之一 Arjun Manrai 在新闻稿中表示,研究团队“几乎用所有基准测试了该人工智能模型,它超越了之前的模型和我们的医生基线”。

研究局限与审慎态度
研究作者在论文中强调,相关结果并不意味着人工智能已经可以在急诊室中独立作出生死攸关的临床决策。论文指出,这些发现表明“迫切需要进行前瞻性试验,以评估这些技术在真实患者护理环境中的应用”。
研究团队同时提示,本次研究仅考察了模型在处理文本信息时的表现。论文称,“现有研究表明,当前基础模型在处理非文本输入时的推理能力更有限”。
贝斯以色列女执事医疗中心医生、该研究主要作者之一 Adam Rodman 在接受《卫报》采访时表示,目前“尚无针对人工智能诊断的正式问责框架”,患者仍然“希望由人类引导他们做出生死决策和面对挑战性治疗决策”。
外部观点与专业差异
急诊医生 Kristen Panthagani 在一篇讨论该研究的文章中表示,这是一项“有趣的人工智能研究,但引发了一些被过度炒作的头条”。她指出,该研究将人工智能诊断与内科医生而非急诊专科医生进行比较。
Panthagani认为,“如果我们要比较人工智能工具与医生的临床能力,应该先与实际从事该专业的医生进行比较”。她举例称,如果一个大型语言模型在神经外科资格考试中击败皮肤科医生,“并不是特别有用的信息”。
她还表示,作为首次接诊患者的急诊医生,其主要目标并非准确预测最终诊断,而是首先判断患者是否存在可能致命的疾病。
后续更新
报道指出,相关内容及标题已作更新,以明确研究中参与对比的诊断来自内科主治医生,并补充了 Kristen Panthagani 对该研究的评论。
