微型摄像头“装进”无线耳塞
华盛顿大学研究人员开发出一套新系统,首次将微型摄像头集成到现成的无线耳塞中,让用户可以直接对耳塞发问,由AI模型根据拍摄到的画面进行回答,帮助理解眼前的场景。
例如,用户转向一包韩式食品,说:“嘿 Vue,帮我翻译这个。”几乎一秒内,耳塞中就会传来AI的语音回复:“可见文字翻译成英文是 ‘cold noodles(冷面)’。”
这套原型系统被命名为 VueBuds,它使用低分辨率的黑白摄像头拍摄静态图像,通过蓝牙发送到手机或附近的其他设备。设备上运行的小型人工智能模型会在大约一秒内回答与图像相关的问题。
为保护隐私,所有图像处理都在本地设备上完成,不上传云端;耳塞在录制时会亮起一个小指示灯,用户也可以随时删除拍摄的图像。
该研究成果已于 4 月 14 日在巴塞罗那举行的 CHI 2026 会议上展示,并收录于《2026 年 CHI 人机交互大会论文集》。
为什么选择耳塞而不是智能眼镜?
论文资深作者、华盛顿大学保罗·G·艾伦计算机科学与工程学院教授 Shyam Gollakota 表示,人们普遍没有大规模采用智能眼镜或虚拟现实头显,一部分原因是很多人不喜欢佩戴眼镜,另一部分则是隐私顾虑,例如设备会录制高分辨率视频并上传云端处理。
相比之下,无线耳塞已经成为许多人的日常设备。团队因此尝试在体积很小、功耗受限的耳塞中加入视觉能力,同时尽量降低隐私风险。
低功耗摄像头与图像传输的权衡
摄像头的能耗远高于耳塞中常见的麦克风,因此无法直接采用智能眼镜那种高分辨率摄像头。此外,高分辨率视频会产生大量数据,难以通过蓝牙持续传输,系统也无法支持连续视频流。
研究团队的解决方案是:
- 使用大约米粒大小的 低功耗摄像头;
- 仅拍摄 低分辨率黑白静态图像;
- 通过蓝牙传输这些小体积图像;
- 在保证电池续航的前提下,维持足够的识别性能。
这种设计在功耗、带宽和功能之间取得了平衡。
摄像头放在哪里?视野会被脸挡住吗?
另一个关键问题是摄像头的安装位置。
首席作者、华盛顿大学艾伦学院博士生 Maruchi Kim 提到,团队最初的疑问之一是:
“用户的脸会不会挡住太多视线?耳塞上的摄像头能否稳定捕捉到用户前方的视野?”
实验结果显示,将每个摄像头向外倾斜 5 至 10 度,可以获得 98 至 108 度 的视野范围。虽然当物体距离用户小于约 20 厘米时,会出现一个小盲区,但人们在日常交互中很少把物体举得这么近仔细观看,因此对典型使用场景影响不大。
双耳图像“拼接”提升响应速度
研究人员还发现,视觉语言模型可以分别理解来自左右耳塞的图像,但如果逐一处理两张图像,响应时间会变长。
为此,团队让系统先将两只耳塞拍摄的图像进行 “拼接”:
- 识别两张图像的重叠区域;
- 将其合成为一张更完整的画面;
- 再交由模型进行一次性处理。
通过这种方式,系统可以在 约 1 秒内 给出回答,接近实时体验;而如果分别处理两张图像,响应时间大约需要 2 秒。
与 Ray-Ban Meta 眼镜对比测试
研究团队邀请了 74 名参与者,在一系列任务中对比 VueBuds 与 Ray-Ban Meta 眼镜的表现。
- VueBuds:使用低分辨率黑白图像,本地处理,隐私控制更强;
- Ray-Ban Meta 眼镜:拍摄高分辨率图像,并在云端进行处理。
结果显示,两者整体表现相近:
- 在 翻译任务 上,参与者更偏好 VueBuds 的输出;
- 在 计数物体 等任务上,Ray-Ban 眼镜略有优势。
此外,还有 16 名参与者 实际佩戴 VueBuds,测试其翻译和回答物体相关问题的能力。结果表明:
- 在翻译或识别物体时,VueBuds 的准确率约为 83%–84%;
- 在识别书籍作者和标题时,准确率达到 93%。
当前限制与未来方向
这项研究的主要目标,是验证在无线耳塞中集成摄像头并结合 AI 的可行性。
目前系统只拍摄 灰度图像,因此无法回答与颜色相关的问题,例如“这件衣服是什么颜色”。
团队计划在后续工作中:
- 尝试加入 彩色摄像头(但这会带来更高的能耗);
- 为特定场景(如翻译)训练 专用 AI 模型,提升在特定任务上的表现。
Kim 表示:
“这项研究展示了,仅依靠通用语言模型和带摄像头的无线耳塞,已经可以实现哪些功能。接下来,我们希望更系统地评估它在阅读书籍等应用中的表现,例如帮助视力低下或盲人用户,或者为旅行者提供文本翻译。”
