哥伦比亚大学研发机器人可通过视频学习人类唇部动作

科学 2026-01-17 机器人, 人机交互, 人工智能, 哥伦比亚大学, 科学机器人学 86 次浏览

哥伦比亚大学工程师近日表示，他们首次开发出一款能够学习并重现人类唇部动作的机器人，用于配合语言和歌唱发声。相关研究成果已发表于学术期刊《科学机器人学》（Science Robotics）。

研究团队介绍，在面对面交流中，人类有相当比例的注意力集中在对方的唇部动作和面部表情上，因此对嘴唇运动的细微差异极为敏感。此前，机器人在模仿人类唇部运动方面一直存在困难，动作常被认为不自然，容易引发所谓“恐怖谷”效应，即当机器人外观和行为接近人类却又略显不协调时，人们产生的不适感。

此次公布的系统由哥伦比亚大学创意机器实验室（Creative Machines Lab）研发。研究人员表示，这一机器人面部配备了26个马达，通过观看数小时YouTube视频，并对照镜中自身的面部反射进行练习，逐步学会如何驱动这些马达，以模仿人类的唇部动作。

团队展示称，该机器人已经能够较为清晰地用多种语言发音，并能演唱其人工智能生成的首张专辑《hello world_》中的歌曲。项目负责人之一、哥伦比亚大学创意机器实验室的霍德·利普森（Hod Lipson）表示，机器人在与人类互动的过程中会不断改进表现。

研究人员同时指出，当前系统的唇部动作仍不完美。利普森称，在发出如“B”这类爆破音，以及需要明显收拢嘴唇的“W”音时，机器人仍面临较大挑战，但他认为这些能力有望通过持续训练逐步改善。

利普森表示，目前大多数类人机器人研究主要集中在腿部和手部动作，例如行走和抓取，而面部表情对于任何涉及人机交互的应用同样关键。他认为，若机器人无法自然地移动眼睛和嘴唇，将难以摆脱“恐怖谷”效应。

该研究的第一作者、博士生胡宇航表示，当唇部同步能力与诸如ChatGPT或Gemini等对话式人工智能系统结合时，人类与机器人的互动“将达到全新的深度”。他和利普森预计，具备更自然面部表情的机器人未来可能在娱乐、教育、医疗以及老年护理等场景中被采用。一些经济学家的预测则认为，未来十年内可能会制造超过十亿个类人机器人。

利普森介绍，这项工作是其过去十年探索如何让机器人更有效与人类建立联系的一部分。他强调，这类能力应通过学习获得，而非依赖预先设定的僵硬规则。他表示，当机器人仅通过观察和聆听人类就能学会微笑或说话时，会出现“某种特别的变化”。他提到，尽管自己长期从事机器人研究，但当机器人自发地对他微笑时，他仍会本能地回以微笑。

查看原文：https://www.independent.co.uk/news/science/robot-lip-sync-watching-hours-youtube-b2901969.html

发表评论

登录后才可评论。去登录