新系统让AI代理读懂并回应人类面部表情

richlovec 1500_400 (1)
 

技术发展正让人工智能代理变得愈发逼真。如今的类人AI代理——包括虚拟助手、游戏角色,以及电影和互动媒体中愈加逼真的“元人类”数字角色——在外观上已十分接近真实人类,但在对话时的面部表现仍然僵硬、程式化。塔林大学的一篇博士论文试图弥补这一缺陷,构建出一个既能解读又能生成面部表情的系统,让AI代理在互动中展现更自然的面部行为。

基于实时互动的面部表情系统

研究员 Abdallah Hussein Sham 在论文中提出了“能动面部表情管线”(Enactive Facial Expression Pipeline,EFEP)。这一系统采用模块化摄像头架构,核心理念是:有意义的互动来自人与AI代理之间持续的动态交流,而不是对单一面部表情快照的静态识别。

EFEP 系统只需要一台普通的网络摄像头,就可以捕捉用户的面部表情,推断其自然可能引发的情绪反应,并据此合成AI代理的面部回应。也就是说,代理的表情会根据用户当前的面部状态实时调整,而非简单调用预设动画。

在数据方面,研究不仅利用了现有的面部表情数据集,还额外采集了来自 60 名参与者的新数据。这些参与者在五种不同的社交场景中进行互动,为系统提供了更贴近真实交流情境的训练样本。

一个重要发现是:与直接使用“快乐”“悲伤”等宽泛情绪标签相比,基于单个面部肌肉动作(而非整体情绪类别)来建模,可以让AI代理对自身表情反应实现更细腻、稳定的控制。这种更精细的编码方式,使代理在回应时能呈现出更自然、连贯的面部变化。

研究还特别关注模型的公平性。结果显示,当训练数据只来自单一人口群体时,系统在不同人群上的识别准确率存在明显差异;而在引入多样化人群的数据后,这种准确率差距基本消失。这表明多元数据对于提升面部表情识别与生成系统的公平性至关重要。

非语言交流带来的实际影响

这项研究具有现实意义,因为AI代理正越来越多地被部署在低风险场景中,例如互动媒体、创意工具和用户体验研究等。在这些应用中,交互质量很大程度上依赖非语言交流。如果类人AI代理能够根据用户的表情做出恰当的面部回应,而不是播放固定的表情动画,将显著提升用户对系统的沉浸感和信任感。

研究团队认为,未来可以在现有基础上进一步扩展,将语音特征和肢体语言一并纳入,使人与AI代理之间的互动在多模态层面更加自然、连贯。

根据欧盟《人工智能法案》的相关要求,该系统目前被有意限定在互动媒体和用户体验研究等低风险领域中使用,以确保技术应用在合规框架内稳步推进。


分享:


发表评论

登录后才可评论。 去登录