2022/10/20 17:57

上科大团队开发了一种面向未来光学AI的节能、轻量级、深度学习算法

编辑 | 萝卜皮

计算成像（CI）取得了重大进展，其中深度卷积神经网络 (CNN) 已经证明可以重建稀疏散斑图案。然而，由于卷积算子的「局部」内核大小有限，对于空间密集的模式，例如通用人脸图像，CNN 的性能是有限的。

在这里，上海科技大学团队提出了一种「非局部」模型，称为 Speckle-Transformer (SpT) UNet，用于提取通用人脸图像的散斑特征。值得注意的是，轻量级的 SpT UNet 与 Pearson 相关系数（PCC）和结构相似性度量（SSIM）分别超过 0.989 和 0.950，表现出高效率和强对比性能。

该研究以「High performance 『non-local』 generic face reconstruction model using the lightweight Speckle-Transformer (SpT) UNet」为题，于 2022 年 10 月 8 日发布在《Opto-Electronic Advances》。

通过散点成像是一个经典的逆问题。作为一种直接的正向建模方法，深度学习（DL）最近在计算成像（CI）中实施，它为多个 CI 问题提供了高质量的解决方案。开创性的工作表明，深度卷积神经网络（CNN）可以提取散斑图案的统计特征。与支持向量回归（SVR）相比，深度卷积 UNet 架构在稀疏特征提取和一定的泛化能力方面表现出更好的性能。

由 S. Li 团队首次提出的 UNet 架构 IDiffNet 实现了散斑图像重建，尤其是针对稀疏模式。Y. Li 团队展示了一个可扩展扩散器的网络，该网络具有用于不同稀疏图案重建的各种微结构。PDSNet 由 E. Guo 团队提出，用于稀疏特征提取。

对于通用人脸数据集，网络使用 SSIM 实现的准确度要低得多，约为 0.75。换句话说，深度卷积 UNet 在空间密集散斑特征提取和重建上的性能是有限的。

由于卷积核的大小有限，CNN 是一种「局部」模型。作为一种「非局部」机制，注意力会权衡输入数据的每一部分的重要性，并提取特征图的长期依赖关系。注意力机制的泛化能力在稀疏模式的散斑重建中显示出优异的性能。Transformers 是完全依赖注意力机制的模块，可以很容易地并行化。此外，与深度学习中的卷积和循环对应物相比，Transformers 假设关于问题结构的先验知识最少。在视觉方面，Transformer 已成功用于图像识别、对象检测、分割、图像超分辨率、视频理解、图像生成、文本图像合成等。然而，在这之前没有一项研究探索过 CI 中 Transformers 的性能，例如散斑重建。

在这里，上海科技大学的研究人员提出了一种高性能的「非局部」通用特征提取和重建模型——SpT UNet。该网络是一个 UNet 架构，包括高级 Transformers 编码器和解码器块。为了更好的特征保留/提取，研究人员提出并演示了三个关键机制，即批前归一化（pre-BN），多头注意力/多头交叉注意力（MHA/MHCA）中的位置编码，以及自建的上/下采样管道。

图示：用于空间密集特征重建的 SpT UNet 架构。（来源：论文）

对于「可扩展」数据采集，考虑了 40 mm 检测范围内的四种不同粒度的漫射器。他们进一步使用皮尔逊相关系数（PCC）、结构相似性度量（SSIM）、杰卡德指数（JI）和峰值信噪比（PSNR）四个科学指标对网络性能进行定量评估。与视觉中其他最先进的 Transformers 模型相比，SpT UNet 显示出更少的计算复杂性和更好的重建和泛化能力。

图示：各种条件下的数据采集概述以及 SpT UNet 的训练/测试/验证。（来源：论文）

虽然研究人员只考虑了二值通用人脸图像的重建，但未来可以考虑使用 SpT UNet 重建灰度空间密集图像。对于生物医学成像，该团队相信该网络可以进一步应用于复杂组织成像，以提高图像对比度和范围深度。对于光子计算，作为并行处理模型，SpT UNet可以进一步实现为全光衍射神经网络，具有超越特征提取能力、光速甚至更低的能耗。

论文链接：https://www.oejournal.org//article/doi/10.29026/oea.2023.220049

相关报道：https://techxplore.com/news/2022-10-energy-efficient-light-weight-deep-learning-algorithm-future.html

理论深度学习神经网络

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

图像重建技术

通过物体外部测量的数据，经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用，显示人体各部分的图像，即计算机断层摄影技术，简称CT技术，后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

来源：百度百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode