音频提示让纯语音 AI 更具“在场感”,但也被部分用户视为失礼

richlovec 1500_400 (1)
 

卡内基梅隆大学的研究人员正在探索:当一个人工智能代理仅通过声音,却听起来仿佛就待在用户所在的房间里时,人们会如何回应。这项研究有望影响未来面向智能眼镜、辅助设备以及其他无屏技术的纯音频 AI 系统设计。

打造“只听得见”的 AI 存在感

卡内基梅隆大学计算机科学学院的一个团队,与心理学系及多所高校的专家合作,开发了一种完全依赖音频提示的人机对话界面。他们的目标是,让聊天机器人在听觉上更像一个真实存在的人,从而更好地吸引和维持用户注意力。

“问题变成了:‘如果我有一个 AI 助手,把它的声音和声音环境做得更像真人,会发生什么?’”人机交互研究所助理教授 David Lindlbauer 说。最终的结果,甚至超出了研究团队的预期。

HCII 博士生程一飞(Yi Fei Cheng)指出,人类在交流和与环境互动时高度依赖视觉,因此以往大量研究都集中在可见界面上,比如虚拟形象或实体机器人。但在很多场景下,相关设备并不适合或无法提供视觉界面,例如只有麦克风和摄像头、却没有显示屏的智能眼镜,这时纯音频界面就显得尤为关键。

研究团队通过“空间化”和“拟音”两类音效构建纯音频界面:

  • 空间化音频:用来在房间中“定位” AI 代理,让人感觉它在某个具体方位说话、移动或执行任务。
  • 拟音效果:借鉴电影和电视后期制作中常见的音效处理,例如键盘敲击声、翻纸声、倒水声等,为 AI 的行为“配音”。

“当电影明星穿着皮夹克坐在酒吧凳上时,你会期待听到皮革摩擦声、凳子吱呀声,以及他手拍吧台的声音。”研究听觉感知与认知的心理学教授 Laurie Heller 解释说,“这些声音在现实生活中确实存在,如果电影里没有这些声音,就会显得不真实,难以让人沉浸。”

实验如何进行

为了评估这种纯音频界面的效果,研究人员安排参与者与使用不同组合的空间化和拟音效果的 AI 代理进行对话。

实验开始前,参与者被要求熟悉房间环境,辨认带有潜在音效的物品位置,例如笔记本电脑、积木、白板、书籍等。

随后,参与者坐在房间中央,与 AI 代理交谈。在对话过程中,AI 通过声音表现出在房间内移动、敲击键盘、翻书或喝水等行为。对话结束后,参与者填写问卷并接受结构化访谈,描述自己的体验和感受。

“我们发现,音频界面确实让 AI 助手显得更具人性化。”Lindlbauer 说,“统计结果清楚表明,加入空间化和拟音效果可以显著提升用户的参与度。”

更像人,也更容易被要求“守规矩”

然而,这种被感知为“更像人”的界面,也带来了意料之外的副作用:用户会自然地把人类的社交期待投射到 AI 身上。

“当参与者感觉代理在做别的事情,比如一边跟他们说话,一边打字或翻纸,他们会觉得:‘这不太好,我的代理没有专心听我说话,它分心了。’他们甚至认为这是一种无礼的行为。”Lindlbauer 说,“从计算系统的角度看,这种评价其实挺特别的。”

在实验中,许多拟音效果是自动触发的,并不直接依赖于代理与参与者之间的具体对话内容。程一飞认为,如果未来能设计出更能感知对话语境的音频提示,或许可以减少这种“被打扰”或“被忽视”的感觉。

设计启示与未来应用

虽然本次实验的界面主要围绕办公室场景设计,Lindlbauer 认为,未来的系统并不一定需要如此强的场景绑定。

“我的直觉是,可以设计很多与具体空间无关的音效,不必对环境有太多了解,也能获得类似的参与度提升。”他说。

在实验中,参与者有时会下意识地朝声音来源或笔记本电脑方向看去,尤其是在听到打字声时。尽管视觉上并没有真正看到一个人,视觉与听觉之间的这种不匹配似乎并未破坏整体体验。

“从本研究的数据来看,这些声音仍然会让人产生‘房间里还有另一个人在场’的感觉。”Heller 指出。

研究团队已在巴塞罗那举行的计算机协会人机交互大会(CHI 2026)上展示了这项成果,为未来纯音频 AI 助手、智能眼镜以及无屏交互系统的设计提供了新的思路。


分享:


发表评论

登录后才可评论。 去登录