无声发声也能被“听见”
一项新技术正在让无声的发声动作重新“说话”。研究人员通过光学方式捕捉颈部肌肉的极微小运动,再借助人工智能将这些运动还原为可听见的真实语音。该技术由浦项科技大学(POSTECH)信息技术融合工程系、机械工程系、电气工程系及融合研究生院的研究团队共同开发,团队由朴成敏教授和机械工程系洪成旭博士领衔,相关成果已发表在期刊《Cyborg and Bionic Systems》在线版。
从颈部微运动中“读出”话语
研究起点是人类说话时颈部区域出现的细微变化。发声并不仅仅依赖声带振动,每当我们说话,颈部周围的肌肉与皮肤都会协同运动,在皮肤表面形成一张肉眼难以察觉的“运动地图”。研究团队意识到,这些微观运动中蕴含着说话者想要表达的具体内容信息。
多轴应变映射传感器:捕捉皮肤细微变化
为获取这些信息,团队设计了一种“多轴应变映射传感器”。该装置将微型摄像头与带有微小参考标记的软硅胶材料结合,可像贴片一样佩戴在颈部,实时捕捉极其细微的皮肤运动。
传感器的佩戴位置和松紧度可以根据个人情况灵活调整。即使重新佩戴位置略有变化,配套算法也能自动校正由此带来的误差,从而保证设备在日常环境中依然能稳定工作。
AI分析应变模式并合成个体化声音
传感器采集到的应变模式会被输入人工智能模型进行分析。AI首先根据这些模式推断用户想要表达的词语或句子,然后结合基于个人声纹特征训练的语音合成技术,将其转换为与本人相符的真实声音。

因此,即使用户没有发出任何声音,仅通过颈部的无声发声动作,系统也能“读懂”其言语并将其转化为可听见的语音输出。
相比传统生物信号技术的优势
以往的语音还原研究多依赖“肌电图(EMG)”或“脑电图(EEG)”等生物信号。这类系统通常设备复杂、佩戴不便,难以在日常生活中长期使用。
本研究通过可穿戴光学传感器绕开了这些限制。实验结果显示,即便在工厂等强噪声环境中,该系统依然能够以较高精度重建语音,显示出在实际场景中的应用潜力。
潜在应用场景:从医疗到无声交流
这项技术的应用前景十分广泛,包括但不限于:
- 帮助因声带疾病或喉部手术而失声的患者进行沟通
- 在无需麦克风或无线电设备的工业现场实现安全、隐蔽的语音交流
- 在图书馆、会议室等需要保持安静的场所实现“无声对话”
研究者展望
朴成敏教授表示,希望这项技术能加速言语障碍患者“重新获得声音”的那一天。他指出,这一成果具有重要意义,不仅有望帮助喉切除患者恢复沟通能力,也可用于嘈杂工业环境中的交流,甚至支持在安静场合进行无声沟通,展现出广泛的应用潜力。