Hugging Face梳理AI Agent术语：从「模型」到「Scaffold」「Harness」的实用全景图

AI 2026-06-04 Hugging Face, AI Agent, LLM, Scaffold, Harness 14 次浏览

Hugging Face 于 2026 年 5 月 25 日在官方博客发布文章《Harness, Scaffold, and the AI Agent Terms Worth Getting Right》，系统梳理 AI Agent 领域中常被混用的核心术语，包括「harness（ハーネス）」「scaffolding（スキャフォールディング）」「agent（エージェント）」等，并从实现与训练两个角度给出一套更清晰的概念框架。

模型本身还不是 Agent

文章首先强调，要把「模型」与「Agent 系统」区分开来。Hugging Face 将模型界定为：接收文本输入并输出文本的 LLM。本身不具备跨调用的记忆，也没有内置的执行循环。

模型可以在输出中表达「调用某个工具」的意图，但真正去执行 API、脚本或数据库查询，则需要额外的执行机制来配合。只有当模型与这些外部机制结合，能够管理任务流程并对外部环境产生影响时，才逐步接近我们通常所说的 AI Agent。

因此，在讨论 Agent 时，必须把「LLM 本体」和「围绕 LLM 搭建的系统」拆开来看：前者负责生成，后者负责记忆、控制流程、调用工具等。

Scaffold：定义行为方式的「脚手架」层

文中将「scaffolding」整理为包裹在模型周围、用于定义其行为方式的一层结构。它主要负责「模型看到什么、被如何约束、按什么规则行动」。

这一层通常包括：

系统提示词（system prompt）：给模型的角色设定、任务目标、行为规范
工具说明：有哪些工具可用、如何调用、输入输出格式如何
响应解析方式：如何从模型输出中抽取结构化信息或下一步指令
上下文管理：跨多轮步骤需要保留哪些信息、如何组织对话历史

以代码生成 Agent 为例，Scaffold 可能包含：如何拆解任务、允许使用哪些命令、输出必须遵守的格式、错误时如何重试等。它不直接「执行」操作，而是为模型搭好「行为脚手架」，规定它该如何观察和思考。

Harness：驱动 Agent 运行的执行层

与 Scaffold 相对，「harness」被定义为 Agent 内部的执行层，是让整个 Agent 真正「跑起来」的部分。

Harness 负责：

调用模型：何时向模型发起请求、传入什么上下文
处理工具调用：识别模型提出的工具调用意图，并实际执行 API、代码或查询
控制流程：决定下一步是继续推理、调用工具、还是结束任务
停止条件：在什么情况下终止 Agent 的循环，认为任务完成或失败

如果说 Scaffold 主要是「给模型写规则和说明书」，Harness 则是「拿着说明书实际开机运行、调度各个步骤」的控制层。

在 Harness 的设计中，常见的关键问题包括：如何设置停止条件、如何处理异常和错误、如何通过 Guardrail（安全与约束机制）把 Agent 的行为限制在可接受范围内。

文章还提到，在评估场景中也有类似概念——例如「eval harness」，指的是在不更新模型权重的前提下，按照固定场景执行一系列任务并记录指标的评估框架。

工具、技能与子 Agent 的区分

博客还对 Agent 相关的周边概念做了进一步拆分。

「tool use（工具使用）」指的是 Agent 与外部世界交互的各种机制，例如：

API 调用
代码解释器或执行环境
数据库查询
Web 搜索
文件系统读写

这些都属于 Agent 通过工具对环境施加影响的方式。

「skills（技能）」则被定义为：为完成多步骤任务而封装的、可复用的知识或流程模块。一个 Skill 可能本身就包含若干次模型调用和工具调用，但对上层来说，它是一个可以反复调用的能力单元。

「sub-agents（子 Agent）」则是为特定子任务而设计、可以被其他 Agent 调用的独立 Agent。它们拥有自己的 Scaffold 和 Harness，用于在更大系统中承担专门角色，例如专门负责代码审查、数据清洗或法律条文检索的子 Agent。

训练相关术语：从环境到奖励

Hugging Face 还将视角扩展到训练侧，对 Agent 训练中常见的几个术语进行了梳理，包括：

RL Environment（强化学习环境）：Agent 与之交互、执行动作并获得反馈的任务环境
Trainer：负责组织训练过程、管理数据与参数更新的组件
Rollout：Agent 在环境中执行一段完整交互所产生的轨迹（状态、动作、奖励序列）
Reward（奖励）：用于评价 Agent 行为好坏的信号，是更新模型权重的依据

这些概念共同构成了「Agent 执行任务 → 结果被评估 → 反馈用于更新模型」的训练闭环。

为讨论建立共同前提，而非强行标准化

文章指出，随着 AI Agent 的实现方式和应用场景快速扩展，同一个词在不同产品或框架中所指的范围差异越来越大，容易造成沟通混乱。

此次 Hugging Face 给出的并不是一套「官方标准」，而是一张实用的概念地图：将模型、Scaffold、Harness、工具使用、技能、子 Agent 以及训练流程等要素清晰拆分，帮助开发者在讨论架构和实现细节时，能够有更一致的前提和更精确的表达。

发表评论

登录后才可评论。去登录