麻省理工学院(MIT)的研究人员经过十多年的努力,致力于开发能够让机器人“透视”障碍物,发现并操作隐藏物体的技术。他们的方法利用穿透表面的无线信号,这些信号会从隐藏的物体上反射回来。
如今,研究团队借助生成式人工智能模型,突破了以往方法在精度上的瓶颈,提出了一种全新的技术,能够生成更准确的物体形状重建,从而提升机器人可靠抓取和操作被遮挡物体的能力。
这项新技术通过反射的无线信号构建隐藏物体的部分形状,再利用专门训练的生成式AI模型填补缺失部分,实现完整的形状重建。
此外,研究人员还开发了一个扩展系统,利用生成式AI准确重建整个房间的布局,包括所有家具。该系统通过一个固定的毫米波雷达发射无线信号,捕捉空间内人类移动时的信号反射。
这一方法解决了许多现有技术必须将无线传感器安装在移动机器人上扫描环境的难题。与一些基于摄像头的技术不同,该系统还能有效保护环境中人员的隐私。
这些创新有望让仓库机器人在发货前核实包装物品,减少因退货带来的浪费;也能让智能家居机器人更好地感知房间内人员位置,提升人机交互的安全性和效率。
MIT电气工程与计算机科学系副教授、MIT媒体实验室信号动力学组负责人Fadel Adib表示:“我们现在开发的生成式AI模型帮助我们理解无线信号的反射,这不仅开启了许多有趣的新应用,也在技术上实现了质的飞跃——从填补之前无法看到的空白,到能够解读反射信号并重建完整场景。我们正在用AI真正解锁无线视觉的潜力。”
Adib与首篇论文的第一作者兼研究助理Laura Dodds,以及研究助理Maisy Lam、Waleed Akbar和Yibo Cheng合作完成;第二篇论文由前博士后Kaichen Zhou领衔,Dodds和研究助理Sayed Saad Afzal参与。两篇论文均将在IEEE计算机视觉与模式识别会议上发表。
克服镜面反射的挑战
此前,Adib团队已展示了利用毫米波(mmWave)信号准确重建隐藏3D物体形状的技术,例如埋在堆叠物品下的遗失钱包。这类信号与Wi-Fi使用的频段相同,能穿透石膏板、塑料和纸板等常见障碍物,并从隐藏物体反射回来。
然而,毫米波信号通常呈镜面反射,即波在撞击表面后沿单一方向反射,导致大面积表面将信号反射到传感器之外,使这些区域“隐形”。
Dodds解释:“在重建物体时,我们只能看到顶部表面,无法看到底部或侧面。”
此前研究团队依赖物理原理解释反射信号,但这限制了3D形状重建的准确度。
新论文中,研究人员利用生成式AI模型填补部分重建中缺失的区域,突破了这一限制。
Adib指出:“挑战在于如何训练模型来填补这些空白。”

通常,训练生成式AI模型需要庞大的数据集,这也是Claude和Llama等模型表现出色的原因之一。但毫米波领域缺乏足够大的数据集。
因此,研究团队将大型计算机视觉数据集中的图像经过改造,模拟毫米波反射的特性和噪声,生成合成数据集用于训练。
Lam表示:“我们模拟了镜面反射和反射噪声的特性,使现有数据集适用于毫米波领域。收集足够的新数据将耗费数年时间。”
研究人员将毫米波反射的物理特性直接嵌入改造后的数据中,训练生成式AI模型实现合理的形状重建。
整个系统名为Wave-Former,它基于毫米波反射提出一组潜在物体表面,输入生成式AI模型完成形状填充,然后不断优化表面,直至完成完整重建。
Wave-Former成功生成了约70种日常物品的逼真重建,如罐头、盒子、餐具和水果,准确率较现有最先进方法提升近20%。这些物体被隐藏在纸板、木材、石膏板、塑料和织物后面或下面。
识别“幽灵”信号
团队还利用相同方法构建了一个扩展系统RISE,通过毫米波反射捕捉室内人类移动,完整重建室内场景。
人类运动产生多路径反射,即毫米波信号先反射到人体,再反射到墙壁或物体,最终返回传感器。
Dodds解释:“这些二次反射形成所谓的‘幽灵信号’,它们是原始信号的反射副本,随着人移动位置变化。通常这些信号被视为噪声丢弃,但其实包含了房间布局信息。”
“通过分析这些反射随时间的变化,我们可以初步了解周围环境。但直接解读这些信号的准确度和分辨率有限。”
研究人员采用类似训练方法,教生成式AI模型理解多路径毫米波反射的行为,完善初步场景重建,最终完成整个场景的重建。
他们用单个毫米波雷达捕捉100多条人体轨迹,测试RISE系统。结果显示,RISE生成的重建精度约为现有技术的两倍。
未来,研究团队计划提升重建的细节和精度,并构建类似GPT、Claude和Gemini那样的大型无线信号基础模型,开拓更多应用场景。
该研究部分由美国国家科学基金会(NSF)、MIT媒体实验室和亚马逊资助支持。