听声辨位过时了！这个AI系统仅凭光回声就能得到3D图像

借助光回声获得时间信息，利用机器学习从看似噪声的信息中挖掘模式。这项研究登上光学期刊 Optica。

利用光回声和机器学习制作 3D 影像（左），右图来自 3D 相机。左图分辨率低于右图，但它仅基于光回声执行，且能够展示人物的形状。

想象一下，你闭着眼睛朝一只动物大吼，然后根据回声就能判断这只动物是猫是狗。听起来是不是很不可思议？

来自英国格拉斯哥大学计算科学学院的研究者最近就做了一项类似的成像技术。他们通过计算光反射到一个简单探测器所需的时间，来获得场景的 3D 图像。当然，仅仅依靠光提供的信息是不够的，这项被称为「时域成像」（temporal imaging）的新技术还借助机器学习方法，从噪声中挖掘模式。

加州大学伯克利分校计算机科学家 Laura Waller 评论道：「这个系统竟然可以获得图像，这令我感到震惊，因为它提取到的信息远远不够。这展示了机器学习在解决看似无解问题上的能力。」Laura Waller 并未参与此项研究。

在传统摄影中，环境光从物体上反射，镜头将其聚焦在一个由微型感光元素或像素组成的屏幕上。这幅图像是由反射光所形成的亮点和暗点的集合。相比之下，一种名为「飞行时间相机（time-of-flight camera，ToF camera）」的设备可以为图像加上深度信息，通过计算物体反射回来的一束光到达不同像素的精确时间来生成 3D 图像。

最近几十年来，研究人员创造了很多精妙的方式，来使用单像素检测器捕捉图像。为此，他们不把物体置于均匀照明中，而是置于不同光模式的光束中，这有点类似于外包装上的条形码。每个模式反射物体的不同部分，这样像素度量到的光强度随着模式的变化而变化。通过追踪这些变化，研究人员能够成功重建物体的图像。

现在，来自英国格拉斯哥大学的数据科学家 Alex Turpin、物理学家 Daniele Faccio 及其同事提出了一种使用单个像素生成 3D 图像的新方式，但它不需要具备模式的光。

利用快如闪电般的单光子检测器，他们描述了具备统一光的场景，并度量其反射时间。该检测器可以精确到 1/4 纳秒，计算光子数量随着时间的变化情况。仅基于这一信息，研究人员即可重建该场景的图像。

Waller 认为，这一结果令人吃惊，因为原则上场景中的物体陈设和时间信息之间不存在一对一关系。例如，当检测器距离任意表面 3 米远时，反射该表面的光子将在 10 纳秒内到达，不管它位于表面的什么方向。乍一看，这种模糊性似乎使问题无解。「我第一次听到『单像素成像』的概念时，想的是『这应该奏效』。而对于这个，我想的是『应该不会有用』。」

为了解决这一问题，Turpin 及其同事使用神经网络，来检测输入和输出之间的微妙关联。研究人员使用光束和检测器，录制一两个人在固定、不对称的背景场景前移动的数据。同时，他们还使用 ToF 相机记录场景的真实 3D 图像。

上周，研究人员在光学期刊 Optica 上发表了这篇论文，表明在使用以上两个数据集训练神经网络之后，神经网络能够自行对场景中移动的人建模。与 ToF 相机拍摄的图像相比，时域图像比较模糊，且缺乏细节。但是，它们能够清晰地展示人物的形状。

该神经网络能够解码模糊信号，这要感谢训练过程，该网络尝试回忆与训练过程中见过的场景和物体类似的事物。不过这意味着该系统存在缺陷：它必须在将要观察的场景中进行训练。

Turpin 表示：「我们需要背景，没有背景网络将无法正常运转。」在面对全新场景时，该系统可能生出错误的图像，而它与训练过程中见过的场景类似。

Turpin 表示，该时域成像系统相比普通成像系统具备多项优势。例如，新系统速度很快，能够以每秒 1000 帧的速率运行。Turpin 称，这种粗糙但迅速的 3D 成像技术有很多应用场景。同时，该系统价格低廉、构造简单。理论上，技术爱好者使用一台普通的笔记本电脑和无线电路由器的天线，就可以监控房间。

不过，Waller 表示，目前尚不清楚这一系统的效果如何，毕竟现有的相机价格也不算昂贵。她认为，该研究实验提出了一个有趣的概念性问题：神经网络是如何学习创建合理图像的？「它的运行原理是什么？其背后的物理学是什么？」Waller 认为，真正的挑战在于，不再把神经网络作为黑箱，而是真正探讨它的原理。

以下是论文内容的详细介绍：

论文地址：https://www.osapublishing.org/optica/abstract.cfm?uri=optica-7-8-900

单点 3D 成像方法详解

这项研究采取了一种不同的方法，通过基于包含目标检索图像类型的数据集的先验知识提供额外信息，并且为这一目标训练了一种监督式机器学习算法。

具体而言，如下图 1 所示，这种 3D 成像方法共包含三个部分：(i) 脉冲光源，(ii) 单点时间分辨传感器， (iii) 图像检索算法。利用脉冲光源对场景进行泛光照明，然后用传感器收集由此产生的反向散射光子。

该研究通过结合使用单点 SPAD 检测器和时间相关单光子计数（TCSPC）电子器件，将光子到达场景中不同位置物体的时间形成时间直方图（temporal histogram，参见图 1b），不同形状的物体为传感器提供到达时间的不同分布。

图 1：基于单点时间分辨传感器的 3D 成像。

该方法包括两个步骤：a）数据收集，b）部署。在第一步中，用脉冲激光束照射场景，用单点传感器（此处是 SPAD）采集反射光，SPAD 通过 TCSPC 提供时间直方图。同时，ToF 相机记录来自场景的 3D 图像，该相机独立于 SPAD 和脉冲激光系统运行。SPAD 时间直方图和 ToF 3D 图像被用来训练图像检索神经网络。步骤 2 仅在神经网络训练完成后进行。在该部署阶段，只需使用脉冲激光源和 SPAD：仅基于时间直方图提取 3D 图像。

实验结果

图 3 中的实验结果显示了该系统在不同情况下从时间直方图恢复 3D 图像的性能。

第一列显示使用 SPAD 传感器和 TCSPC（a-d 行）或雷达收发器（e 行）记录的时间直方图。最后一列代表直接用 ToF 相机度量的 3D 图像，用于与重建图像（第二列）进行对比。彩色条描述的是颜色编码深度图。

详细信息参见以下视频：

Visualization 1。

Visualization 2。

参考链接：https://www.sciencemag.org/news/2020/08/time-camera-generates-3d-images-echoes-light

理论机器学习成像技术3D重建AI