Anthropic 发布「AI 流畅性指数」：从单纯导入率转向“会不会用 AI”的新衡量标准

AI 2026-02-28 Anthropic, AI 流畅性指数, AI 教育, 人机协作, 生成式AI 48 次浏览

美国 AI 企业 Anthropic 于 2026 年 2 月 23 日发布《Anthropic Education Report: The AI Fluency Index》。在 AI 使用快速扩大的背景下，Anthropic 提出一个新指标——「AI Fluency Index（AI 流畅性指数）」，不再只看“有没有用 AI”，而是关注“能不能恰当地用好 AI”。

Anthropic 指出，AI 的社会落地正在加速推进，但“使用范围变广”与“使用得是否合适”是两件不同的事。为此，他们尝试将人与 AI 协作时的关键行为特征量化，作为今后长期追踪变化的基线数据。

用 24 项行为指标刻画“AI 流畅性”

AI 流畅性指数基于由 Rick Dakan 与 Joseph Feller 开发，并与 Anthropic 共同整理的「4D AI Fluency Framework」。

在这一框架中，研究团队将体现“安全且高效地与 AI 协作”的行为拆分为 24 个具体指标。本次报告从中选取了可以直接从 Claude.ai 对话中观察到的 11 项行为，作为分析对象。

研究数据来自 2026 年 1 月内 7 天时间里，在 Claude.ai 上产生的 9,830 组多轮对话。Anthropic 使用隐私保护型分析工具，对每一段对话逐一判断这 11 种行为是否出现，采用的是“出现 / 未出现”的二值分类方式。按语言和星期进行的偏差检验显示，整体数据并未出现明显失衡。

■ 图1：在 9,830 组 Claude.ai 对话中，各类 AI 流畅性行为的出现比例。反复迭代与改进最为常见，而事实核查行为处于最低水平

反复迭代与改进，是高流畅性对话的核心特征

分析结果显示，“反复与改进（iteration and refinement）”与其他流畅性行为之间存在最强的正相关关系。85.7% 的对话并非在获得第一轮回答后就结束，而是通过多轮往返交流不断打磨内容。

在这类“迭代型”对话中：

平均还能观察到 2.67 项额外的流畅性行为；
而在非迭代型对话中，这一数字仅为 1.33 项，约为前者的一半。

尤为突出的，是与“评价与验证”相关的行为显著增加，例如：

对 AI 推理过程提出质疑或追问的行为增加了 5.6 倍；
指出前提或上下文信息不足的行为增加了 4 倍。

Anthropic 认为，将 AI 视为“思考伙伴”，通过来回对话共同推敲与修正，是当前最典型、也最具代表性的高流畅性使用方式。

■ 图2：对比包含反复迭代的对话与不包含迭代的对话，可以看到与评价、验证相关的行为在前者中大幅增加

生成“成果物”时：指示更多，验证反而更少

另一方面，当对话目标是生成应用、代码、文档等具体“成果物（artifact）”时（约占全部对话的 12.3%），则呈现出另一种使用模式。

■ 图3：在包含成果物生成的对话中，目标设定与格式指定等“指示类行为”增加，而事实核查与推理验证等“评估类行为”则有所下降

在这类对话中，与“向 AI 下达任务、委托工作”相关的行为明显增多，例如：

明确目标的行为增加 14.7 个百分点；
指定输出形式的行为增加 14.5 个百分点；
提供具体示例的行为增加 13.4 个百分点；
进行反复迭代的行为也增加了 9.7 个百分点。

但与此同时，与“评估与验证”相关的行为却有所减少：

指出上下文信息不足的行为减少 5.2 个百分点；
事实核查行为减少 3.7 个百分点；
对推理过程进行检查的行为减少 3.1 个百分点。

Anthropic 提醒，外观上看起来完成度很高的成果物，往往更容易在缺乏额外验证的情况下被直接接受。随着 AI 生成内容的质量不断提升，人类对成果物进行审查与评估的能力反而会变得更加关键。

后续研究方向

Anthropic 将本次研究定位为“基线测量”，并计划在此基础上继续扩展，主要包括：

对比新手用户与熟练用户的行为差异（分群 / 队列分析）；
对聊天界面之外的伦理与责任相关行为进行质性研究；
通过实验检验“鼓励反复迭代”是否会提升验证行为，从而探索因果关系；
在开发者平台「Claude Code」上进行类似分析。

研究限制与需要注意的点

Anthropic 也明确列出了本研究的局限性：

样本仅覆盖一周时间，且仅限 Claude.ai 用户；
24 项行为指标中，本次只观测了其中 11 项；
行为采用“有 / 无”的二值判断，未区分程度强弱；
对话之外发生的验证行为无法被捕捉；
目前仅能说明相关性，尚不能推断因果关系。

因此，Anthropic 将 AI 流畅性指数视为“早期使用者群体的参考基线”，而非适用于所有人群、所有场景的普适评价标准。

从“会用”到“用得好”：AI 成熟度的可视化

Anthropic 预期，随着模型能力不断增强，人类一侧的“使用成熟度”也会同步演进。AI 流畅性指数的目的，并不是简单统计使用频率，而是衡量人们是否能够与 AI 进行批判性对话，并在此基础上建立安全、有效的协作关系。

未来，随着 AI 模型的进一步升级与应用范围的持续扩大，这些行为指标如何随之变化，将成为观察人机协作模式演进的重要窗口。

发表评论

登录后才可评论。去登录