编辑 | 萝卜皮
计算成像(CI)取得了重大进展,其中深度卷积神经网络 (CNN) 已经证明可以重建稀疏散斑图案。然而,由于卷积算子的「局部」内核大小有限,对于空间密集的模式,例如通用人脸图像,CNN 的性能是有限的。
在这里,上海科技大学团队提出了一种「非局部」模型,称为 Speckle-Transformer (SpT) UNet,用于提取通用人脸图像的散斑特征。值得注意的是,轻量级的 SpT UNet 与 Pearson 相关系数(PCC)和结构相似性度量(SSIM)分别超过 0.989 和 0.950,表现出高效率和强对比性能。
该研究以「High performance 『non-local』 generic face reconstruction model using the lightweight Speckle-Transformer (SpT) UNet」为题,于 2022 年 10 月 8 日发布在《Opto-Electronic Advances》。
通过散点成像是一个经典的逆问题。作为一种直接的正向建模方法,深度学习(DL)最近在计算成像(CI)中实施,它为多个 CI 问题提供了高质量的解决方案。开创性的工作表明,深度卷积神经网络(CNN)可以提取散斑图案的统计特征。与支持向量回归(SVR)相比,深度卷积 UNet 架构在稀疏特征提取和一定的泛化能力方面表现出更好的性能。
由 S. Li 团队首次提出的 UNet 架构 IDiffNet 实现了散斑图像重建,尤其是针对稀疏模式。Y. Li 团队展示了一个可扩展扩散器的网络,该网络具有用于不同稀疏图案重建的各种微结构。PDSNet 由 E. Guo 团队提出,用于稀疏特征提取。
对于通用人脸数据集,网络使用 SSIM 实现的准确度要低得多,约为 0.75。换句话说,深度卷积 UNet 在空间密集散斑特征提取和重建上的性能是有限的。
由于卷积核的大小有限,CNN 是一种「局部」模型。作为一种「非局部」机制,注意力会权衡输入数据的每一部分的重要性,并提取特征图的长期依赖关系。注意力机制的泛化能力在稀疏模式的散斑重建中显示出优异的性能。Transformers 是完全依赖注意力机制的模块,可以很容易地并行化。此外,与深度学习中的卷积和循环对应物相比,Transformers 假设关于问题结构的先验知识最少。在视觉方面,Transformer 已成功用于图像识别、对象检测、分割、图像超分辨率、视频理解、图像生成、文本图像合成等。然而,在这之前没有一项研究探索过 CI 中 Transformers 的性能,例如散斑重建。
在这里,上海科技大学的研究人员提出了一种高性能的「非局部」通用特征提取和重建模型——SpT UNet。该网络是一个 UNet 架构,包括高级 Transformers 编码器和解码器块。为了更好的特征保留/提取,研究人员提出并演示了三个关键机制,即批前归一化(pre-BN),多头注意力/多头交叉注意力(MHA/MHCA)中的位置编码,以及自建的上/下采样管道。
图示:用于空间密集特征重建的 SpT UNet 架构。(来源:论文)
对于「可扩展」数据采集,考虑了 40 mm 检测范围内的四种不同粒度的漫射器。他们进一步使用皮尔逊相关系数(PCC)、结构相似性度量(SSIM)、杰卡德指数(JI)和峰值信噪比(PSNR)四个科学指标对网络性能进行定量评估。与视觉中其他最先进的 Transformers 模型相比,SpT UNet 显示出更少的计算复杂性和更好的重建和泛化能力。
图示:各种条件下的数据采集概述以及 SpT UNet 的训练/测试/验证。(来源:论文)
虽然研究人员只考虑了二值通用人脸图像的重建,但未来可以考虑使用 SpT UNet 重建灰度空间密集图像。对于生物医学成像,该团队相信该网络可以进一步应用于复杂组织成像,以提高图像对比度和范围深度。对于光子计算,作为并行处理模型,SpT UNet可以进一步实现为全光衍射神经网络,具有超越特征提取能力、光速甚至更低的能耗。
论文链接:https://www.oejournal.org//article/doi/10.29026/oea.2023.220049
相关报道:https://techxplore.com/news/2022-10-energy-efficient-light-weight-deep-learning-algorithm-future.html