AI模型结合声音与视觉预测360度视频中的人类注意力

科学 2026-04-27 虚拟现实, 360度视频, 人类注意力建模, 多模态AI, 空间音频 10 次浏览

虚拟现实（VR）体验和360度视频正在把观众从被动的“看客”变成沉浸在场景中的主动参与者。但随之而来的一个关键问题是：在这样可以自由环顾四周的环境中，人们的注意力究竟会集中在什么位置，又受到哪些因素影响？

由 Koç 大学计算机工程系副教授 Aykut Erdem 博士领衔的一项最新研究，给出了新的答案。相关成果发表在《IEEE 模式分析与机器智能汇刊》上。该工作由 Koç 大学与博阿齐奇大学心理学系视觉实验室、哈切特佩大学以及日本先进工业科学技术研究所（AIST）研究人员共同完成。

这项研究的核心创新在于：不再只依赖视觉信息，而是同时分析视觉和听觉线索，来预测观众在360度视频中的注意力分布。

在传统的平面视频中，摄像机的取景框天然限定了观众的视野范围，镜头语言在很大程度上引导了视线。而在360度视频中，整个场景都被呈现出来，观众可以随时向任意方向观看，注意力的走向因此变得更加难以预测。

在这种情况下，声音就变得尤为重要。类似于日常生活，当我们听到某个方向传来声音时，往往会下意识地转头去看。然而，以往针对注意力的研究大多聚焦于视觉数据，对声音如何参与塑造注意力的系统性探讨相对有限。

为弥补这一不足，研究团队构建了一个综合数据集，用于分析视觉与听觉线索之间的相互作用。该数据集包含 81 段不同场景的360度视频，并在三种音频条件下呈现：静音、单声道以及空间声音。空间声音技术可以模拟声音来自特定方向的感受，更接近真实世界中的听觉体验。研究人员通过记录 100 多名参与者的眼动轨迹，细致比较了不同听觉条件下注意力分布的变化。

在此基础上，团队提出了两种专为360度视频数据结构设计的 AI 模型：

第一种模型仅利用视觉信息进行预测；
第二种模型在视觉基础上进一步引入音频特征，从而更全面地刻画注意力分布。

借助第二种模型，系统不仅能够识别画面中视觉上显著的区域，还能捕捉那些虽然视觉上不突出，但由于声音而吸引观众视线的位置。

实验结果显示，引入音频信息后，模型在预测观众注意力方面的性能有明显提升。尤其是在使用空间声音时，模型既能准确锁定视觉显著区域，又能发现那些主要由声音驱动的注意力热点。

总体来看，这项研究表明，如果在建模时同时考虑人们如何在视觉和听觉刺激之间分配注意力，就能更贴近真实的人类注意力模式。除了理论上的贡献，这一方法在多个实际场景中也具有应用潜力，例如：视频压缩与传输优化、沉浸式内容创作、主观质量评估，以及 VR/AR 等沉浸式环境中的用户体验设计等。

发表评论

登录后才可评论。去登录