KAIST提出新方法:让机器人用少量视频学会类人判断

richlovec 1500_400 (1)
 

人工智能正在从“会写会画”的生成式阶段,迈向能在现实世界中自主行动的物理人工智能时代。韩国科学技术院(KAIST)的研究人员近日提出一项新技术,让机器仅凭少量视频示例就能掌握人类的判断标准,被认为攻克了物理人工智能商业化的一大关键难题。

少量视频即可学习人类判断

KAIST电气工程学院的 Chang D. Yoo 教授团队提出了 VOTP(Video-based Optimal Transport Preference,基于视频的最优传输偏好)技术。该方法不再依赖成千上万条由人类逐一标注的评估数据,而是通过少量“好”与“坏”的示例视频,让人工智能学习人类的意图和偏好标准。

当前,物理人工智能的典型应用包括:

  • 在工厂中替代人类执行高危作业的机器人;
  • 能够自主判断道路状况的自动驾驶车辆;
  • 执行精细操作的医疗手术机器人。

这些系统要在现实环境中安全可靠地行动,关键在于:能否像人类一样对动作质量做出判断,并在多种可选动作中挑出最合适的一种。

物理人工智能面临的核心难题

在实际应用中,物理人工智能需要一个“奖励函数”,用来量化某个动作是否符合人类意图、是否足够理想。例如:

  • 手术机器人缝合时,如何判断缝合是否“好”;
  • 自动驾驶车辆通过复杂路口时,如何在多种通行策略中选出最优方案。

传统做法是由人类专家对大量动作数据逐一打分或比较,进而构建奖励函数。这不仅耗时耗力,而且成本极高,成为物理人工智能落地的重要障碍。

Yoo 教授团队受到人类学习方式的启发:人类往往只需看少量示范,就能掌握一项新任务的评判标准。基于这一思路,他们提出的 VOTP 技术,让人工智能通过少量“好/坏”示例视频,自主抽取人类偏好的动作模式。

在这种框架下,即便没有人类对海量数据进行逐条评估,系统也能推断出人类的判断标准,并将其推广到不同环境和任务中。

VOTP 的验证与泛化能力

该研究的核心目标,是让机器人或自动驾驶车辆等智能体,仅凭少量包含人类偏好的视频,就能快速把握人类的意图与偏好结构。为此,研究团队设计了相应算法,并在多种环境和任务设置下进行了广泛实验。

实验结果表明,VOTP 不仅能有效学习人类偏好,还具备良好的泛化性能:在未见过的情境中,也能做出符合人类预期的动作选择。

降低开发成本,拓展应用场景

通过显著减少对人工反馈和大规模标注数据的依赖,VOTP 有望大幅降低物理人工智能系统的开发成本和周期。机器人、自动驾驶车辆以及各类工业设备,只需少量示例视频,就能学习到更贴近人类期望的行为模式。

该技术的潜在应用范围包括:

  • 机器人手臂控制与类人机器人;
  • 自动驾驶车辆与智能工厂设备;
  • 无人机与手术机器人;
  • 直接操作计算机界面的 AI 代理等。

研究团队预计,凡是需要理解人类意图、学习人类满意度标准的物理人工智能系统,VOTP 都有望成为其基础性核心技术之一。

迈向“类人判断”的机器人时代

对于这项研究的意义,Chang D. Yoo 教授指出:“物理人工智能的核心在于,让机器理解人类意图,并据此选择正确的动作。”他进一步表示:“由于 VOTP 只需少量视频就能学习人类的判断标准,它将成为加速机器人迈向类人判断时代的关键技术之一。”


分享:


发表评论

登录后才可评论。 去登录