AI医疗诊断竞赛升温:OpenAI、Google与Anthropic密集发布新工具

richlovec 1500_400 (1)
 

OpenAI、Google和Anthropic本月在数日内先后公布面向医疗领域的大模型产品,集中展示专业医疗AI能力。业内人士认为,这一时间上的密集发布更多反映出竞争压力,而非偶然巧合。

尽管三家公司在对外表述中均强调“重塑医疗保健”的潜力,但目前这些工具都未被监管机构认定为医疗器械,尚未获得临床使用许可,也不能直接用于患者诊断或治疗决策。

三大产品集中亮相

OpenAI于1月7日推出“ChatGPT Health”,面向美国用户提供健康相关服务。通过与b.well、Apple Health、Function和MyFitnessPal等合作伙伴的集成,用户可将个人健康和医疗记录接入该平台。该服务以消费者订阅模式运营,EEA、瑞士和英国以外的ChatGPT Free、Plus和Pro用户可加入候补名单。

Google在1月13日发布了MedGemma 1.5,将其开放医疗AI模型扩展至医学影像等多模态场景。根据公司介绍,MedGemma 1.5能够解释三维CT和MRI扫描,以及全切片病理图像。该模型通过Google的Health AI Developer Foundations项目对外提供,开发者可在Hugging Face下载模型,或通过Google Cloud的Vertex AI进行部署。

Anthropic则在1月11日推出“Claude for Healthcare”,重点面向机构客户。该产品通过Claude for Enterprise集成进现有企业工作流程,提供符合HIPAA标准的连接器,可接入美国联邦医疗保险和医疗补助服务中心(CMS)保险数据库、ICD-10编码系统以及国家提供者标识(NPI)注册表。

三家公司均将事前授权审核、理赔处理和临床文档等工作流程视为主要应用场景,在技术路径上采用类似的多模态大型语言模型,但在产品定位和市场策略上有所区分。

开发者与企业平台,而非诊断工具

从架构上看,三款产品均基于在医学文献和临床数据集上微调的多模态大模型,并在对外说明中强调隐私保护和合规性,统一将自身定位为“辅助工具”,而非替代临床判断的诊断系统。

在部署和访问模式上,差异较为明显:

  • OpenAI ChatGPT Health:面向消费者的在线服务,通过订阅形式提供,重点连接个人健康数据和问答交互。
  • Google MedGemma 1.5:作为开放模型面向开发者发布,被定位为“开发者评估和适配其医疗用例的起点”,主要通过云平台和开源社区分发。
  • Anthropic Claude for Healthcare:通过企业版产品接入机构现有系统,聚焦医疗服务提供者、支付方等机构级客户,而非个人用户。

在合规表述上,三家公司口径基本一致。OpenAI明确指出,ChatGPT Health“并非用于诊断或治疗”。Google强调,MedGemma旨在为开发者提供构建医疗应用的基础,而非直接面向患者的诊断工具。Anthropic则表示,其输出“并非用于直接指导临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用”。

基准成绩提升与临床落地鸿沟

三家公司均公布了部分基准测试结果,显示其模型在医疗任务上的表现较此前版本有明显提升,但这些结果主要基于精选数据集,距离实际临床部署仍有差距。

Google披露,MedGemma 1.5在斯坦福的MedAgentBench医疗代理任务完成基准上取得92.3%的准确率,而此前Sonnet 3.5基线为69.6%。在内部测试中,该模型在MRI疾病分类任务上的准确率提升14个百分点,在CT影像发现任务上提升3个百分点。

Anthropic方面称,Claude Opus 4.5在启用Python代码执行的MedCalc医学计算准确性测试中得分61.3%,在MedAgentBench上的得分同样为92.3%。公司还表示,在与“事实幻觉”相关的“诚实性评估”上有所改进,但未公布具体量化指标。

OpenAI尚未发布ChatGPT Health的对比基准数据,仅表示“全球每周有超过2.3亿人通过ChatGPT咨询健康与保健相关问题”,并称这一数字基于对现有使用模式的去标识化分析。

目前披露的基准测试主要衡量模型在标准化题集和任务上的表现,而非真实世界中的临床结局。由于医疗错误可能带来严重后果,将基准准确率转化为可接受的临床实用性,被业内视为比其他AI应用领域更为复杂的挑战。

监管路径与责任边界待定

在监管层面,这类医疗AI工具的定位仍不清晰。在美国,食品药品监督管理局(FDA)对软件的监管取决于其“预期用途”。如果软件被用于“支持或向医疗专业人员提供有关疾病预防、诊断或治疗的建议”,则可能被视为医疗器械,需要接受上市前审查。目前,OpenAI、Google和Anthropic宣布的相关产品均未获得FDA批准。

责任划分同样尚无定论。Banner Health首席技术官Mike Reagin表示,该医疗系统“被Anthropic对AI安全性的关注所吸引”,但这类表态更多反映技术选型考量,而非明确的法律责任框架。

例如,如果临床医生在事前授权审核中依赖Claude的分析,最终导致患者因治疗延误而受损,现有判例法对责任如何在软件提供方、医疗机构和个人医生之间分配,尚缺乏明确指引。

各地区监管方式差异较大。美国FDA和欧洲医疗器械法规已为医疗器械软件提供基本框架,但在亚太多国,针对生成式AI诊断工具的具体监管指引仍未出台。这种不确定性在一定程度上影响了相关技术在医疗基础设施相对薄弱、原本可能更快采用新工具的市场中的落地节奏,在临床需求与监管审慎之间形成张力。

目前应用集中于行政与文档场景

从已披露的案例看,这些医疗AI工具的实际部署范围仍然有限,且主要集中在对患者直接风险较低的行政和文档处理环节。

诺和诺德内容数字化总监Louise Lind Skov表示,公司正在使用Claude进行“制药开发中的文档和内容自动化”,重点用于监管申报相关文件的处理,而非患者诊断。

台湾健保署则应用MedGemma从约3万份病理报告中提取结构化数据,用于政策分析和研究用途,而不是直接用于具体治疗决策。

这些实践表明,机构当前更倾向于在账单处理、文档撰写、方案起草等错误风险相对可控的流程中采用生成式AI,而在对患者预后影响更大的直接临床决策支持方面仍保持谨慎。

业内观察人士指出,医疗AI能力的技术演进速度,已明显快于机构在监管合规、责任分配和工作流程改造方面的调整节奏。以每月约20美元的订阅价格,即可获得具备较强医学推理能力的通用模型接入权,但这些能力能否以及如何转化为医疗服务模式的实质性变化,仍取决于目前几家厂商密集发布中尚未解答的一系列制度与实践问题。


分享:


发表评论

登录后才可评论。 去登录