KAIST提出新方法：让机器人用少量视频学会类人判断

科学 2026-06-14 物理人工智能, 机器人, 自动驾驶, 机器学习, KAIST 1 次浏览

人工智能正在从“会写会画”的生成式阶段，迈向能在现实世界中自主行动的物理人工智能时代。韩国科学技术院（KAIST）的研究人员近日提出一项新技术，让机器仅凭少量视频示例就能掌握人类的判断标准，被认为攻克了物理人工智能商业化的一大关键难题。

少量视频即可学习人类判断

KAIST电气工程学院的 Chang D. Yoo 教授团队提出了 VOTP（Video-based Optimal Transport Preference，基于视频的最优传输偏好）技术。该方法不再依赖成千上万条由人类逐一标注的评估数据，而是通过少量“好”与“坏”的示例视频，让人工智能学习人类的意图和偏好标准。

当前，物理人工智能的典型应用包括：

在工厂中替代人类执行高危作业的机器人；
能够自主判断道路状况的自动驾驶车辆；
执行精细操作的医疗手术机器人。

这些系统要在现实环境中安全可靠地行动，关键在于：能否像人类一样对动作质量做出判断，并在多种可选动作中挑出最合适的一种。

物理人工智能面临的核心难题

在实际应用中，物理人工智能需要一个“奖励函数”，用来量化某个动作是否符合人类意图、是否足够理想。例如：

手术机器人缝合时，如何判断缝合是否“好”；
自动驾驶车辆通过复杂路口时，如何在多种通行策略中选出最优方案。

传统做法是由人类专家对大量动作数据逐一打分或比较，进而构建奖励函数。这不仅耗时耗力，而且成本极高，成为物理人工智能落地的重要障碍。

Yoo 教授团队受到人类学习方式的启发：人类往往只需看少量示范，就能掌握一项新任务的评判标准。基于这一思路，他们提出的 VOTP 技术，让人工智能通过少量“好/坏”示例视频，自主抽取人类偏好的动作模式。

在这种框架下，即便没有人类对海量数据进行逐条评估，系统也能推断出人类的判断标准，并将其推广到不同环境和任务中。

VOTP 的验证与泛化能力

该研究的核心目标，是让机器人或自动驾驶车辆等智能体，仅凭少量包含人类偏好的视频，就能快速把握人类的意图与偏好结构。为此，研究团队设计了相应算法，并在多种环境和任务设置下进行了广泛实验。

实验结果表明，VOTP 不仅能有效学习人类偏好，还具备良好的泛化性能：在未见过的情境中，也能做出符合人类预期的动作选择。

降低开发成本，拓展应用场景

通过显著减少对人工反馈和大规模标注数据的依赖，VOTP 有望大幅降低物理人工智能系统的开发成本和周期。机器人、自动驾驶车辆以及各类工业设备，只需少量示例视频，就能学习到更贴近人类期望的行为模式。

该技术的潜在应用范围包括：

机器人手臂控制与类人机器人；
自动驾驶车辆与智能工厂设备；
无人机与手术机器人；
直接操作计算机界面的 AI 代理等。

研究团队预计，凡是需要理解人类意图、学习人类满意度标准的物理人工智能系统，VOTP 都有望成为其基础性核心技术之一。

迈向“类人判断”的机器人时代

对于这项研究的意义，Chang D. Yoo 教授指出：“物理人工智能的核心在于，让机器理解人类意图，并据此选择正确的动作。”他进一步表示：“由于 VOTP 只需少量视频就能学习人类的判断标准，它将成为加速机器人迈向类人判断时代的关键技术之一。”

发表评论

登录后才可评论。去登录