音频提示让纯语音 AI 更具“在场感”，但也被部分用户视为失礼

科学 2026-05-21 人工智能, 人机交互, 音频界面, 听觉感知, CHI 2026 33 次浏览

卡内基梅隆大学的研究人员正在探索：当一个人工智能代理仅通过声音，却听起来仿佛就待在用户所在的房间里时，人们会如何回应。这项研究有望影响未来面向智能眼镜、辅助设备以及其他无屏技术的纯音频 AI 系统设计。

打造“只听得见”的 AI 存在感

卡内基梅隆大学计算机科学学院的一个团队，与心理学系及多所高校的专家合作，开发了一种完全依赖音频提示的人机对话界面。他们的目标是，让聊天机器人在听觉上更像一个真实存在的人，从而更好地吸引和维持用户注意力。

“问题变成了：‘如果我有一个 AI 助手，把它的声音和声音环境做得更像真人，会发生什么？’”人机交互研究所助理教授 David Lindlbauer 说。最终的结果，甚至超出了研究团队的预期。

HCII 博士生程一飞（Yi Fei Cheng）指出，人类在交流和与环境互动时高度依赖视觉，因此以往大量研究都集中在可见界面上，比如虚拟形象或实体机器人。但在很多场景下，相关设备并不适合或无法提供视觉界面，例如只有麦克风和摄像头、却没有显示屏的智能眼镜，这时纯音频界面就显得尤为关键。

研究团队通过“空间化”和“拟音”两类音效构建纯音频界面：

空间化音频：用来在房间中“定位” AI 代理，让人感觉它在某个具体方位说话、移动或执行任务。
拟音效果：借鉴电影和电视后期制作中常见的音效处理，例如键盘敲击声、翻纸声、倒水声等，为 AI 的行为“配音”。

“当电影明星穿着皮夹克坐在酒吧凳上时，你会期待听到皮革摩擦声、凳子吱呀声，以及他手拍吧台的声音。”研究听觉感知与认知的心理学教授 Laurie Heller 解释说，“这些声音在现实生活中确实存在，如果电影里没有这些声音，就会显得不真实，难以让人沉浸。”

实验如何进行

为了评估这种纯音频界面的效果，研究人员安排参与者与使用不同组合的空间化和拟音效果的 AI 代理进行对话。

实验开始前，参与者被要求熟悉房间环境，辨认带有潜在音效的物品位置，例如笔记本电脑、积木、白板、书籍等。

随后，参与者坐在房间中央，与 AI 代理交谈。在对话过程中，AI 通过声音表现出在房间内移动、敲击键盘、翻书或喝水等行为。对话结束后，参与者填写问卷并接受结构化访谈，描述自己的体验和感受。

“我们发现，音频界面确实让 AI 助手显得更具人性化。”Lindlbauer 说，“统计结果清楚表明，加入空间化和拟音效果可以显著提升用户的参与度。”

更像人，也更容易被要求“守规矩”

然而，这种被感知为“更像人”的界面，也带来了意料之外的副作用：用户会自然地把人类的社交期待投射到 AI 身上。

“当参与者感觉代理在做别的事情，比如一边跟他们说话，一边打字或翻纸，他们会觉得：‘这不太好，我的代理没有专心听我说话，它分心了。’他们甚至认为这是一种无礼的行为。”Lindlbauer 说，“从计算系统的角度看，这种评价其实挺特别的。”

在实验中，许多拟音效果是自动触发的，并不直接依赖于代理与参与者之间的具体对话内容。程一飞认为，如果未来能设计出更能感知对话语境的音频提示，或许可以减少这种“被打扰”或“被忽视”的感觉。

设计启示与未来应用

虽然本次实验的界面主要围绕办公室场景设计，Lindlbauer 认为，未来的系统并不一定需要如此强的场景绑定。

“我的直觉是，可以设计很多与具体空间无关的音效，不必对环境有太多了解，也能获得类似的参与度提升。”他说。

在实验中，参与者有时会下意识地朝声音来源或笔记本电脑方向看去，尤其是在听到打字声时。尽管视觉上并没有真正看到一个人，视觉与听觉之间的这种不匹配似乎并未破坏整体体验。

“从本研究的数据来看，这些声音仍然会让人产生‘房间里还有另一个人在场’的感觉。”Heller 指出。

研究团队已在巴塞罗那举行的计算机协会人机交互大会（CHI 2026）上展示了这项成果，为未来纯音频 AI 助手、智能眼镜以及无屏交互系统的设计提供了新的思路。

发表评论

登录后才可评论。去登录