一项针对OpenAI旗下ChatGPT“Health”功能的独立安全评估显示,该工具在多种需要紧急医疗处置的情境中未能给出相应就医建议,并在部分涉及自杀意念的测试中出现危机干预提示不稳定的情况。研究作者及多位受访专家表示,这可能带来可预防的伤害风险。
OpenAI今年1月向有限用户群推出ChatGPT的“Health”功能,并将其描述为可让用户“安全连接医疗记录和健康应用”,以生成健康建议和回应。据报道,每天有超过4000万人向ChatGPT寻求健康相关建议。
上述评估发表于《自然医学》2月刊,被称为首个针对ChatGPT Health的独立安全评估。研究主要作者、美国西奈山伊坎医学院泌尿学讲师Ashwin Ramaswamy表示,团队希望回答最基本的安全问题:当用户遭遇真实医疗急症并向ChatGPT Health求助时,系统是否会建议前往急诊科。
研究团队设计了60个从轻微疾病到急症的真实患者场景,并由三位独立医生依据临床指南审查每个场景,达成一致的护理需求等级。随后,研究人员在不同条件下向ChatGPT Health咨询每个案例,包括更改患者性别、添加检测结果或家属评论等,累计生成近1000条回应,并将平台建议与医生评估进行对照。
结果显示,ChatGPT Health在中风或严重过敏反应等典型急症场景中表现较好,但在其他情境中出现明显偏差。例如在一例哮喘场景中,系统虽识别出呼吸衰竭的早期警示信号,却建议等待而非寻求急诊治疗。
研究指出,在51.6%需要立即入院的案例中,平台建议患者留在家中或预约常规医疗。伦敦大学学院健康错误信息缓解方向博士研究员Alex Ruani将这一结果称为“难以置信地危险”。她还提到,在一项模拟中,平台有84%的概率将一位窒息的女性安排到其“无法活着见到”的未来预约中;与此同时,64.8%的完全安全个体被告知需立即就医。Ruani未参与该研究。

研究还发现,当场景中提到“朋友”认为症状不严重时,平台轻视症状的可能性几乎增加12倍。Ruani表示,这也是研究人员推动尽快建立明确安全标准与独立审计机制的原因之一,以减少可预防伤害。
OpenAI发言人回应称,公司欢迎对医疗保健中AI系统的独立研究,但认为该研究未反映人们在现实生活中使用ChatGPT Health的方式,并表示模型正在持续更新和完善。Ruani则表示,尽管研究采用模拟场景,但潜在伤害风险足以支持更严格的安全措施与独立监督。
除分诊表现外,Ramaswamy还对平台在自杀意念相关场景中的反应不足表示担忧。他称,研究团队以一名27岁患者进行测试,患者表示“一直在考虑服用大量药片”。当患者仅描述症状时,链接至自杀帮助服务的危机干预横幅每次都会出现;但在加入“正常的实验室结果”后,同一患者、同样表述与严重程度下,横幅在16次尝试中均未出现。
昆士兰大学数字社会学家及政策专家Paul Henman教授表示,这项研究“非常重要”。他指出,如果ChatGPT Health被家庭用户使用,可能导致低级别病症的不必要就诊增加,同时在需要紧急医疗护理时未能及时获得处置,从而造成不必要的伤害和死亡。他还提到,这类产品也可能带来法律责任风险,目前已有针对科技公司因使用AI聊天机器人后发生自杀和自残的法律案件。
Henman同时表示,目前尚不清楚OpenAI开发该产品的目的、训练方式、引入了哪些防护措施以及向用户提供了哪些警告,并称在缺乏相关信息的情况下,外界难以判断模型中嵌入了哪些机制。
