单张照片往往蕴含大量信息,但要从二维图像中可靠推断出三维空间结构仍然十分困难。尽管已有不少研究尝试从单张快照中同时重建深度与清晰的彩色图像,但在精度和稳定性方面仍存在明显不足。
近日,大阪大学研究团队在《IEEE计算成像汇刊》上发表论文,提出了一种基于散焦深度估计的新方法。该方法通过分析图像中的模糊程度来推断物体与相机之间的距离。研究人员将专门设计的相机硬件与基于扩散模型的人工智能(AI)算法相结合,实现了从单张图像中更准确地估计深度,并显著减少了现有方法中常见的错误。
传统的深度估计通常依赖多台相机(如立体视觉)或在不同视角、不同条件下拍摄的多张图像。与之相比,基于散焦的深度估计只需一张照片,通过利用不同距离物体在成像中呈现出的模糊差异来恢复深度信息。然而,要精确解析这些模糊模式并不容易,对算法和成像模型的要求都很高。

第一作者河内穗高指出:“传统的重建方法在低纹理区域往往表现不佳,但借助AI技术,我们现在有可能实现更加稳定的重建效果。”
不过,单纯依赖AI也存在问题。当前主流的深度学习方法在实际成像条件与训练数据分布不一致时,性能可能急剧下降。有时AI系统会生成看似合理却与真实场景不符的结构,这种现象被称为“幻觉”。
资深作者中村智也表示:“我们的目标是把基于扩散模型的现代AI优势,与基于物理成像的可靠性结合起来。通过强制重建结果与真实观测图像保持一致,我们能够抑制许多其他方法中出现的幻觉现象。”

为验证这一思路,研究团队搭建了配备专门设计编码光圈的原型相机,并在模拟环境和真实场景中对方法进行了系统评估。在多种拍摄条件下,新方法都能稳定输出精确的深度图和高质量图像,而对比方法的性能则明显下降。
“我们的重建结果不仅保留了物体的形状和细微纹理细节,同时也严格符合原始测量数据。”河内补充道,“相比之下,一些现有方法在相同条件下会产生伪影,或者给出不准确的深度估计。”
研究团队认为,这项工作是迈向实用计算成像系统的重要一步。此类系统可依托相对简单的硬件,恢复场景中丰富的空间信息。通过将编码光圈光学设计与新型重建算法相结合,研究人员有望为观察和理解三维世界提供一种全新的技术路径。
