Anthropic 发布「AI 流畅性指数」:从单纯导入率转向“会不会用 AI”的新衡量标准

richlovec 1500_400 (1)
 

美国 AI 企业 Anthropic 于 2026 年 2 月 23 日发布《Anthropic Education Report: The AI Fluency Index》。在 AI 使用快速扩大的背景下,Anthropic 提出一个新指标——「AI Fluency Index(AI 流畅性指数)」,不再只看“有没有用 AI”,而是关注“能不能恰当地用好 AI”。

Anthropic 指出,AI 的社会落地正在加速推进,但“使用范围变广”与“使用得是否合适”是两件不同的事。为此,他们尝试将人与 AI 协作时的关键行为特征量化,作为今后长期追踪变化的基线数据。

用 24 项行为指标刻画“AI 流畅性”

AI 流畅性指数基于由 Rick Dakan 与 Joseph Feller 开发,并与 Anthropic 共同整理的「4D AI Fluency Framework」。

在这一框架中,研究团队将体现“安全且高效地与 AI 协作”的行为拆分为 24 个具体指标。本次报告从中选取了可以直接从 Claude.ai 对话中观察到的 11 项行为,作为分析对象。

研究数据来自 2026 年 1 月内 7 天时间里,在 Claude.ai 上产生的 9,830 组多轮对话。Anthropic 使用隐私保护型分析工具,对每一段对话逐一判断这 11 种行为是否出现,采用的是“出现 / 未出现”的二值分类方式。按语言和星期进行的偏差检验显示,整体数据并未出现明显失衡。

■ 图1:在 9,830 组 Claude.ai 对话中,各类 AI 流畅性行为的出现比例。反复迭代与改进最为常见,而事实核查行为处于最低水平

cf98cd90972577bf4dd6457682d9ee82cbf2b858-3840x2160.webp

反复迭代与改进,是高流畅性对话的核心特征

分析结果显示,“反复与改进(iteration and refinement)”与其他流畅性行为之间存在最强的正相关关系。85.7% 的对话并非在获得第一轮回答后就结束,而是通过多轮往返交流不断打磨内容。

在这类“迭代型”对话中:

  • 平均还能观察到 2.67 项额外的流畅性行为;
  • 而在非迭代型对话中,这一数字仅为 1.33 项,约为前者的一半。

尤为突出的,是与“评价与验证”相关的行为显著增加,例如:

  • 对 AI 推理过程提出质疑或追问的行为增加了 5.6 倍;
  • 指出前提或上下文信息不足的行为增加了 4 倍。

Anthropic 认为,将 AI 视为“思考伙伴”,通过来回对话共同推敲与修正,是当前最典型、也最具代表性的高流畅性使用方式。

■ 图2:对比包含反复迭代的对话与不包含迭代的对话,可以看到与评价、验证相关的行为在前者中大幅增加

995a58d356ab28738abc3c1313296b298e4b77dc-1920x1080.webp

生成“成果物”时:指示更多,验证反而更少

另一方面,当对话目标是生成应用、代码、文档等具体“成果物(artifact)”时(约占全部对话的 12.3%),则呈现出另一种使用模式。

■ 图3:在包含成果物生成的对话中,目标设定与格式指定等“指示类行为”增加,而事实核查与推理验证等“评估类行为”则有所下降

3aa718781064a7d8638ed684cec97e6903921e3c-1920x1080.webp

在这类对话中,与“向 AI 下达任务、委托工作”相关的行为明显增多,例如:

  • 明确目标的行为增加 14.7 个百分点;
  • 指定输出形式的行为增加 14.5 个百分点;
  • 提供具体示例的行为增加 13.4 个百分点;
  • 进行反复迭代的行为也增加了 9.7 个百分点。

但与此同时,与“评估与验证”相关的行为却有所减少:

  • 指出上下文信息不足的行为减少 5.2 个百分点;
  • 事实核查行为减少 3.7 个百分点;
  • 对推理过程进行检查的行为减少 3.1 个百分点。

Anthropic 提醒,外观上看起来完成度很高的成果物,往往更容易在缺乏额外验证的情况下被直接接受。随着 AI 生成内容的质量不断提升,人类对成果物进行审查与评估的能力反而会变得更加关键。

后续研究方向

Anthropic 将本次研究定位为“基线测量”,并计划在此基础上继续扩展,主要包括:

  • 对比新手用户与熟练用户的行为差异(分群 / 队列分析);
  • 对聊天界面之外的伦理与责任相关行为进行质性研究;
  • 通过实验检验“鼓励反复迭代”是否会提升验证行为,从而探索因果关系;
  • 在开发者平台「Claude Code」上进行类似分析。

研究限制与需要注意的点

Anthropic 也明确列出了本研究的局限性:

  • 样本仅覆盖一周时间,且仅限 Claude.ai 用户;
  • 24 项行为指标中,本次只观测了其中 11 项;
  • 行为采用“有 / 无”的二值判断,未区分程度强弱;
  • 对话之外发生的验证行为无法被捕捉;
  • 目前仅能说明相关性,尚不能推断因果关系。

因此,Anthropic 将 AI 流畅性指数视为“早期使用者群体的参考基线”,而非适用于所有人群、所有场景的普适评价标准。

从“会用”到“用得好”:AI 成熟度的可视化

Anthropic 预期,随着模型能力不断增强,人类一侧的“使用成熟度”也会同步演进。AI 流畅性指数的目的,并不是简单统计使用频率,而是衡量人们是否能够与 AI 进行批判性对话,并在此基础上建立安全、有效的协作关系。

未来,随着 AI 模型的进一步升级与应用范围的持续扩大,这些行为指标如何随之变化,将成为观察人机协作模式演进的重要窗口。


分享:


发表评论

登录后才可评论。 去登录