想象在晚高峰穿行于城市街道:汽车与自行车从身边疾驰而过,行人挤满人行道,视线一会儿被橱窗强光照亮,一会儿又落入地下通道的昏暗之中。尽管环境瞬息万变,我们的大脑却在毫无意识的情况下,持续完成极其复杂的处理——实时构建出一个动态场景的三维精确模型,不断估算形状各异、大小不同、材质多样的物体之间的距离与空间关系。
让机器拥有“超人类”的三维视觉
人类轻而易举完成的三维感知,对机器来说却是巨大挑战。配备三维感知系统的设备——例如自动驾驶汽车——必须在充满各种反射特性的真实环境中,准确测量周围物体的位置与形状。
亚利桑那大学计算三维成像与测量实验室的研究团队在《自然通讯》上发表论文称,他们在这一方向上跨出关键一步,向“赋予机器超越人类的三维视觉”目标更近了一步。该实验室主任、亚利桑那大学怀恩特光学科学学院副教授弗洛里安·威洛米策(Florian Willomitzer)介绍了相关进展。
团队并非只是简单模仿人类的三维视觉,而是提出一种显著增强三维传感器性能的方案,使其在更高分辨率和更快速度下获取图像,同时在高度反光表面等复杂条件下依然保持稳定表现。
“人类自带一个三维摄像系统——也就是双眼立体视觉,”威洛米策说,“我们的目标之一,是让计算机和机器在三维感知方面超越人类,这对许多技术应用至关重要,比如自动驾驶汽车的可靠导航、机器人手术中的精确引导,以及工业检测和生物医学成像中更出色的感知能力。”

混合反射场景为何难倒三维成像
要实现上述目标,三维成像首先要解决一个长期存在的难题:目前大多数先进的三维传感器,要么针对“漫反射”(哑光)表面优化,要么针对“镜面反射”(高光、反光)表面优化。
然而,真实世界的场景往往由介于两者之间的各种表面组成,既有强烈反光的材质,也有粗糙、无光泽的材质,还有大量介于中间的复杂反射特性。这正是许多三维成像系统表现不佳的根源。
“想想汽车内部或客厅,”威洛米策举例说,“这些环境里既有镜子、玻璃、抛光金属等镜面材料,也有墙壁、织物、家具等漫反射表面。”
机器人手术场景同样复杂:手术区域往往包含闪亮的液体、湿润的组织,以及类似皮肤这样的漫反射表面。要开发一种能对所有这些表面都进行同等精度测量的三维感知技术,难度极高。
团队的思路源自对“偏转测量法”的扩展。偏转测量是一种成熟技术,通过观察屏幕上图案在镜面表面上的反射变形,来反推出该镜面表面的形状。但威洛米策指出,要用偏转测量法测量形状高度复杂的物体,屏幕必须足够大,以覆盖各种不同的表面朝向角度。

例如,在检测新喷漆的汽车车身时,往往需要搭建类似隧道的大型屏幕结构,才能覆盖整辆车。这类系统造价高昂、体积庞大、不易移动,而且通常只能用于特定任务。
把整个房间“变成”虚拟屏幕
威洛米策团队提出的解决方案既直接又高效:不再依赖实体大型屏幕,而是将待测镜面物体周围的整个环境“转化”为一个虚拟屏幕。
“我们用激光扫描仪捕捉房间内的一切,包括带有镜面、光泽和哑光表面的物体,以及哑光墙壁。”该研究第一作者 Aniket Dashpute 介绍说。他与威洛米策在西北大学期间启动了这项工作,目前是莱斯大学的博士生。“随后,我们通过算法将漫反射表面与镜面表面区分开来,最终把所有测得的漫反射场景部分,当作镜面部分进行偏转测量时所需的虚拟屏幕。”
“这实际上让我们可以把房间里所有东西重新利用为一个巨大的显示屏——本质上,你周围的一切都变成了虚拟屏幕。”威洛米策补充道。
事件相机加速三维视频捕获
在成像设备选择上,研究人员没有采用传统相机那种逐帧捕捉整幅画面的方式,而是使用所谓的神经形态事件相机。这类相机只在画面中发生“变化”的位置产生数据,并以极高的时间分辨率记录这些变化,从而大幅减少冗余信息。

借助事件相机,团队能够以高帧率获取混合反射场景中运动物体的三维视频。
“事件相机可以应对极其宽广的光照范围——从非常暗到极其明亮。”论文第二作者、怀恩特光学科学学院博士后研究员王家璋表示,“这使我们能够在表面反射率差异巨大的情况下,依然高精度测量场景中所有物体的表面。”
目前,这一方法已在桌面级实验室环境中完成验证,但威洛米策指出,该技术可以根据不同应用需求进行放大或缩小。
“可扩展性是三维成像在各类应用中被广泛采用的关键条件,”他说,“无论是手术中测量细小而光亮的血管,还是对整个房间乃至整栋建筑进行数字化,这种方法都具备拓展潜力。”
