Anthropic 发布经济指数:揭示大型语言模型真实使用图景

richlovec 1500_400 (1)
 

Anthropic 近日发布最新一期《经济指数》报告,基于对 Claude.ai 平台上一百万次消费者互动以及一百万次企业 API 调用的观测数据,梳理组织和个人在实际工作中如何使用大型语言模型。报告所涉数据均来自 2025 年 11 月,强调分析基于真实使用行为,而非商业决策者样本或通用问卷调查。

使用场景高度集中

报告显示,当前对 Anthropic 模型的使用集中在相对有限的任务类型上。十个最常见的任务占到消费者互动总量的近四分之一,在企业 API 流量中则接近三分之一。

在具体用途上,代码创建和修改相关任务占比突出,成为最主要的应用方向之一。报告指出,这种将大型语言模型作为软件开发工具的集中使用模式在时间维度上相对稳定,尚未观察到在其他用途上出现具有统计意义的新兴应用热点。

报告据此认为,大型语言模型的价值目前主要体现在已被验证有效的任务类型上,而并未呈现出广泛、通用用途快速扩散的迹象。

增强型使用多于完全自动化

在消费者端平台上,用户更倾向于以协作方式使用模型,即通过多轮虚拟对话迭代提问和修改,而非一次性生成可直接执行的自动化工作流。

企业端 API 使用情况则有所不同。报告显示,企业更常尝试通过自动化任务来节约成本和时间。不过,随着任务本身或任务序列的复杂度上升,以及模型需要投入的“思考时间”增加,输出质量呈下降趋势。

报告指出,自动化更适合例行、定义清晰且逻辑步骤较少的简单任务,这类任务通常可以在较短时间内完成。对于预计需要人类耗费数小时才能完成的复杂任务,模型的成功完成率明显低于短任务。要在这类长任务上获得可接受结果,用户往往需要对输出进行多轮迭代和纠正。

将大型任务拆分为多个可管理的小步骤,并分别向模型提出(无论是通过交互式对话还是 API 调用),被观察到有助于提高整体成功率。

从任务类型看,大多数向大型语言模型发出的请求与白领工作相关。报告同时提到,较贫穷国家的用户更常在学术场景中使用 Claude,这一点与美国等国家的使用结构有所不同。

报告举例称,旅行代理可以将复杂行程规划交由模型处理,自己则保留更多事务性工作;而在物业管理等岗位中,例行行政事务更容易由模型承担,需要较高判断力的工作则仍主要由人类完成。

生产率提升受可靠性约束

报告对市场上关于 AI 对生产率影响的部分说法进行了量化讨论。其引用的估算认为,若考虑验证、错误处理和返工等额外劳动与成本,将“未来十年年劳动生产率提升 1.8%”的预期调整至 1% 至 1.2% 可能更为合理。

报告指出,即便在十年期内 1% 的效率提升仍具有经济意义,但围绕 AI 使用所需的额外工作会削弱名义上的生产率增幅,企业决策者在设定预期时需考虑这一因素。

组织部署 AI 的潜在收益,还取决于模型承担的任务是对现有工作的补充,还是对人类劳动的替代。在替代场景中,模型能否成功完成任务,与任务本身的复杂程度密切相关。

报告特别强调,用户向大型语言模型发出的提示复杂度与最终结果的成功率几乎完全相关。换言之,使用方式在很大程度上决定了输出质量。

对组织管理者的提示

报告在结尾部分总结了对组织管理者的几项主要启示:

  • 在特定且定义明确的领域中推进 AI 应用,更容易在短期内产生可见价值;
  • 在复杂工作上,人机协同系统通常优于完全自动化方案;
  • 可靠性问题以及围绕 AI 使用所需的验证和返工,削弱了名义上的生产率提升空间;
  • 劳动力结构的变化更多取决于任务组合及其复杂性,而非单一岗位的名称或类别。

报告未对未来发展作出预测,而是聚焦于基于 2025 年 11 月观测数据,对当前大型语言模型在实际经济活动中的使用情况进行描述。


分享:


发表评论

登录后才可评论。 去登录