Hugging Face 于 2026 年 5 月 25 日在官方博客发布文章《Harness, Scaffold, and the AI Agent Terms Worth Getting Right》,系统梳理 AI Agent 领域中常被混用的核心术语,包括「harness(ハーネス)」「scaffolding(スキャフォールディング)」「agent(エージェント)」等,并从实现与训练两个角度给出一套更清晰的概念框架。
模型本身还不是 Agent
文章首先强调,要把「模型」与「Agent 系统」区分开来。Hugging Face 将模型界定为:接收文本输入并输出文本的 LLM。本身不具备跨调用的记忆,也没有内置的执行循环。
模型可以在输出中表达「调用某个工具」的意图,但真正去执行 API、脚本或数据库查询,则需要额外的执行机制来配合。只有当模型与这些外部机制结合,能够管理任务流程并对外部环境产生影响时,才逐步接近我们通常所说的 AI Agent。
因此,在讨论 Agent 时,必须把「LLM 本体」和「围绕 LLM 搭建的系统」拆开来看:前者负责生成,后者负责记忆、控制流程、调用工具等。
Scaffold:定义行为方式的「脚手架」层
文中将「scaffolding」整理为包裹在模型周围、用于定义其行为方式的一层结构。它主要负责「模型看到什么、被如何约束、按什么规则行动」。
这一层通常包括:
- 系统提示词(system prompt):给模型的角色设定、任务目标、行为规范
- 工具说明:有哪些工具可用、如何调用、输入输出格式如何
- 响应解析方式:如何从模型输出中抽取结构化信息或下一步指令
- 上下文管理:跨多轮步骤需要保留哪些信息、如何组织对话历史
以代码生成 Agent 为例,Scaffold 可能包含:如何拆解任务、允许使用哪些命令、输出必须遵守的格式、错误时如何重试等。它不直接「执行」操作,而是为模型搭好「行为脚手架」,规定它该如何观察和思考。
Harness:驱动 Agent 运行的执行层
与 Scaffold 相对,「harness」被定义为 Agent 内部的执行层,是让整个 Agent 真正「跑起来」的部分。
Harness 负责:
- 调用模型:何时向模型发起请求、传入什么上下文
- 处理工具调用:识别模型提出的工具调用意图,并实际执行 API、代码或查询
- 控制流程:决定下一步是继续推理、调用工具、还是结束任务
- 停止条件:在什么情况下终止 Agent 的循环,认为任务完成或失败
如果说 Scaffold 主要是「给模型写规则和说明书」,Harness 则是「拿着说明书实际开机运行、调度各个步骤」的控制层。
在 Harness 的设计中,常见的关键问题包括:如何设置停止条件、如何处理异常和错误、如何通过 Guardrail(安全与约束机制)把 Agent 的行为限制在可接受范围内。

文章还提到,在评估场景中也有类似概念——例如「eval harness」,指的是在不更新模型权重的前提下,按照固定场景执行一系列任务并记录指标的评估框架。
工具、技能与子 Agent 的区分
博客还对 Agent 相关的周边概念做了进一步拆分。
「tool use(工具使用)」指的是 Agent 与外部世界交互的各种机制,例如:
- API 调用
- 代码解释器或执行环境
- 数据库查询
- Web 搜索
- 文件系统读写
这些都属于 Agent 通过工具对环境施加影响的方式。
「skills(技能)」则被定义为:为完成多步骤任务而封装的、可复用的知识或流程模块。一个 Skill 可能本身就包含若干次模型调用和工具调用,但对上层来说,它是一个可以反复调用的能力单元。
「sub-agents(子 Agent)」则是为特定子任务而设计、可以被其他 Agent 调用的独立 Agent。它们拥有自己的 Scaffold 和 Harness,用于在更大系统中承担专门角色,例如专门负责代码审查、数据清洗或法律条文检索的子 Agent。
训练相关术语:从环境到奖励
Hugging Face 还将视角扩展到训练侧,对 Agent 训练中常见的几个术语进行了梳理,包括:
- RL Environment(强化学习环境):Agent 与之交互、执行动作并获得反馈的任务环境
- Trainer:负责组织训练过程、管理数据与参数更新的组件
- Rollout:Agent 在环境中执行一段完整交互所产生的轨迹(状态、动作、奖励序列)
- Reward(奖励):用于评价 Agent 行为好坏的信号,是更新模型权重的依据
这些概念共同构成了「Agent 执行任务 → 结果被评估 → 反馈用于更新模型」的训练闭环。
为讨论建立共同前提,而非强行标准化
文章指出,随着 AI Agent 的实现方式和应用场景快速扩展,同一个词在不同产品或框架中所指的范围差异越来越大,容易造成沟通混乱。
此次 Hugging Face 给出的并不是一套「官方标准」,而是一张实用的概念地图:将模型、Scaffold、Harness、工具使用、技能、子 Agent 以及训练流程等要素清晰拆分,帮助开发者在讨论架构和实现细节时,能够有更一致的前提和更精确的表达。
