无声也能“开口”:光学颈部传感与AI重建真实语音

无声发声也能被“听见”

一项新技术正在让无声的发声动作重新“说话”。研究人员通过光学方式捕捉颈部肌肉的极微小运动,再借助人工智能将这些运动还原为可听见的真实语音。该技术由浦项科技大学(POSTECH)信息技术融合工程系、机械工程系、电气工程系及融合研究生院的研究团队共同开发,团队由朴成敏教授和机械工程系洪成旭博士领衔,相关成果已发表在期刊《Cyborg and Bionic Systems》在线版。

从颈部微运动中“读出”话语

研究起点是人类说话时颈部区域出现的细微变化。发声并不仅仅依赖声带振动,每当我们说话,颈部周围的肌肉与皮肤都会协同运动,在皮肤表面形成一张肉眼难以察觉的“运动地图”。研究团队意识到,这些微观运动中蕴含着说话者想要表达的具体内容信息。

多轴应变映射传感器:捕捉皮肤细微变化

为获取这些信息,团队设计了一种“多轴应变映射传感器”。该装置将微型摄像头与带有微小参考标记的软硅胶材料结合,可像贴片一样佩戴在颈部,实时捕捉极其细微的皮肤运动。

传感器的佩戴位置和松紧度可以根据个人情况灵活调整。即使重新佩戴位置略有变化,配套算法也能自动校正由此带来的误差,从而保证设备在日常环境中依然能稳定工作。

AI分析应变模式并合成个体化声音

传感器采集到的应变模式会被输入人工智能模型进行分析。AI首先根据这些模式推断用户想要表达的词语或句子,然后结合基于个人声纹特征训练的语音合成技术,将其转换为与本人相符的真实声音。

因此,即使用户没有发出任何声音,仅通过颈部的无声发声动作,系统也能“读懂”其言语并将其转化为可听见的语音输出。

相比传统生物信号技术的优势

以往的语音还原研究多依赖“肌电图(EMG)”或“脑电图(EEG)”等生物信号。这类系统通常设备复杂、佩戴不便,难以在日常生活中长期使用。

本研究通过可穿戴光学传感器绕开了这些限制。实验结果显示,即便在工厂等强噪声环境中,该系统依然能够以较高精度重建语音,显示出在实际场景中的应用潜力。

潜在应用场景:从医疗到无声交流

这项技术的应用前景十分广泛,包括但不限于:

  • 帮助因声带疾病或喉部手术而失声的患者进行沟通
  • 在无需麦克风或无线电设备的工业现场实现安全、隐蔽的语音交流
  • 在图书馆、会议室等需要保持安静的场所实现“无声对话”

研究者展望

朴成敏教授表示,希望这项技术能加速言语障碍患者“重新获得声音”的那一天。他指出,这一成果具有重要意义,不仅有望帮助喉切除患者恢复沟通能力,也可用于嘈杂工业环境中的交流,甚至支持在安静场合进行无声沟通,展现出广泛的应用潜力。


分享:


发表评论

登录后才可评论。 去登录