2019/10/29 15:25

ICCV 2019丨微软亚洲研究院精选论文解读

编者按：ICCV 2019 正于10月27-11月2日在韩国首尔举行。微软亚洲研究院有15篇论文入选本届 ICCV，内容涵盖空间注意力机制、图像深度估计、医学图像配准等多个前沿主题。本文将为大家介绍其中的5篇论文。

递归级联网络：基于无监督学习的医学图像配准

Recursive Cascaded Networks for Unsupervised Medical Image Registration

论文链接：https://arxiv.org/abs/1907.12353

GitHub链接：https://github.com/microsoft/Recursive-Cascaded-Networks

医学图像配准具有重要的临床意义，是医学图像处理任务中的关键步骤。待配准的图像可来自不同的模态、不同的时间点、不同的被试或者不同的成像视角。监督学习的配准方法需要大量准确成对的相关像素点标注；即便对医学专家来说，医学图像配准的成对相关像素点也非常难以标注。无监督算法克服了标注的困难，然而现有算法只能学习将运动图像一次性对齐到固定图像，对于变形大、变化复杂的配准效果较差。

本文提出了一种深度递归级联的神经网络结构，可以显著提高无监督配准算法的准确率。图1是用于肝脏配准的递归级联网络效果图。运动图像通过一次一次微小的递归配准，最后与固定图像对齐。每个子网络的输入都是变形后的图像和固定图像，预测一个流场Φ。通过深度的递归迭代，最终的流场可以被分解为简单、轻微的渐进变化，大大降低了每个子网络的学习难度。

图1：用于肝脏配准的递归级联网络效果图被这种现象所启发，我们提出了一种递归级联的神经网络结构。递归级联网络可以构建于任何已有的基础网络之上，通过无监督、端到端的方式学习到深度递归的渐进配准。除此之外，我们还提出了一种 shared-weight 级联技术，可以在测试中直接增加递归深度并提高准确率。

我们在 CT 的肝脏图像和 MRI 的脑图像上都做了算法评测，使用了多样的评价指标（包括 Dice 和关键点）。我们的实验证明递归级联的结构对于两种基础网络（VTN 和 VoxelMorph）的作用都非常显著，并且在所有数据集上都超过了包括 ANTs 和 Elastix 在内的传统算法。

对深度神经网络中空间注意力机制的经验性研究

An Empirical Study of Spatial Attention Mechanisms in Deep Networks

论文链接：https://arxiv.org/abs/1904.05873

空间注意力（Spatial Attention）机制，特别是基于 Transformer 的注意力机制在最近取得了广泛的成功与应用，但是对该机制本身的理解和分析仍然匮乏。本论文对空间注意力机制进行了详尽的经验性分析，取得了更深入的理解与一些全新的观点，这些分析表明空间注意力机制的设计存在很大的改进空间。

论文 Transformer-XL 中提出，注意力权重可以按使用的特征因子被拆解为四项:（E1）query 内容特征和 key 内容特征；（E2）query 内容特征和 query-key 相对位置；（E3）仅 key 的内容特征；（E4）仅 query-key 相对位置。如图2所示。

图2：不同的注意力项的描述。采样点上方的颜色条表示其内容特征。当图中存在内容特征或相对位置时，表明该项将它们用于注意力权重计算。受此启发，我们使用广义注意力形式（公式1）来统一不同的注意力机制：

在此形式下，Transformer、可变形卷积（Deformable Convolution）和动态卷积（Dynamic Convolution）均可被视为空间注意力的不同实例，其区别仅在于如何计算注意力权重 A_m (q,k,z_q,x_k )。我们在此形式下对影响空间注意力机制的各种因素进行了详尽的分析与研究。

图3：不同特征因子对 Transformer 的性能影响通过分析 Transformer 中不同特征因子对性能的影响（图3），我们发现：

1）在 Self-Attention 中，query 无关项（E3）比 query 敏感项（E1、E2、E4）更重要，且 E2 与 E3 的组合是最重要的，而 E1 对精度的影响则可以忽略。

2）在 Encoder-decoder Attention 中，建模 Query 与 Key 在内容上的关系（E1）至关重要。

该研究表明，建模 Query 和 Key 内容特征间的关系（E1）在 Self-Attention 中并不重要，甚至可以删除，这与人们的普遍认知相反。

此外，我们还探索了不同注意力机制间的关系（表1、2）。结果表明可变形卷积优于仅使用 E2 的 Transformer，且通过与仅使用 Key 内容项（E3）的 Transformer 进行组合，可以达到最佳的精度-效率权衡。而动态卷积在机器翻译任务中与仅使用 E2 的 Transformer 达到了相当的精度，但效率更低。在物体检测与语义分割任务中动态卷积则劣于 Transformer。

表1：可变形卷积与 Transformer 中 E2 项的比较

表2：动态卷积与 Transformer 中 E2 项的比较这些结果表明 Transformer 仍具有巨大的改进空间。

基于视频的无监督单帧图像深度估计

Unsupervised High-Resolution Depth Learning from Videos With Dual Networks

论文链接：https://arxiv.org/abs/1910.08897

Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

论文链接：https://arxiv.org/abs/1910.08898

三维视觉技术需要获取除了传统二维图像的以外的深度维度的信息，是计算机视觉的基础任务之一，在三维显示、增强现实、人机交互、无人驾驶和机器人等领域都有着非常重要且深远的应用前景。尽管可以通过深度相机或者双目/多目的方法采集场景深度信息，但是受到硬件设备和成本限制，以及广泛存在的海量图像数据，单目图像深度估计是实际应用中非常必需的计算机视觉技术。

针对单目图像深度估计问题，我们利用海量的视频数据，在无需直接深度信息监督的条件下，进行了如下两个方向的研究：

(1)高分辨率图像深度估计

自监督深度学习以目标视角图像和视频中由临近帧合成的目标视角图像之间的图像表征差异作为监督信息。由于所有的监督信号均来源于图像本身，因此训练数据的图像分辨率对模型的性能具有非常重要的影响，高分辨率的图像含有更为细节的场景信息，可以提供更准确的监督信号。受到计算设备的内存和计算性能限制，目前用于深度估计训练的图像输入都经过了降采样处理，丢失了图像的细节信息。由此，本文提出一种基于双网络结构的高效的网络结构，使用全分辨率的图像作为深度网络训练的输入以保留监督信号的完整性。本文使用深度较深的网络处理低分辨率的图像输入，提取图像的全局特征，使用较浅的网络处理高分辨率的图像，提取局部的细节特征，同时使用一种基于自组织注意力机制的模块用来处理低纹理区域将上述的两部分特征进行结合预测深度值。本文在 KITTI 数据集上验证了该方法的有效性，取得了最优的效果，特别是在一些细节物体上效果提升明显，例如杆状物和物体边缘。

图4：双网络结构的单帧图像深度估计网络

图5：深度估计结果示意图。我们的结果在精细区域（如杆状物，物体边缘）提升明显。(2)首次实现室内情景下稳定的深度估计

由于室内情景下，深度的分布比室外更复杂，包含大量的纹理缺失区域，并且拍摄视频的相机具有更为复杂的运动，因此传统的用于室外深度自学习的方法无法用于室内训练。我们提出在室内环境下使用更为鲁棒的光流作为监督信息，从稀疏点的光流传播得到密集光流再对深度网络进行监督，从而首次实现室内情景下稳定的深度估计。针对相机运动复杂的问题，我们使用光流这一比相机运动更为直接的信息作为预测相机位姿的输入，提升了相机运动的精度。

图6：网络结构与监督信号对比：（a）基于图像像素与（b）基于光流。通过空间注意力机制提升人群计数精度

Learning Spatial Awareness to Improve Crowd Counting

论文链接：https://arxiv.org/abs/1909.07057

人群计数的目的是利用人体头部的中心位置标注点信息来估计图像中的人数。随着深度卷积神经网络的发展，这一领域在近几年来取得了可喜的进展，现有的方法普遍采用均方误差损失函数 L2 Loss。然而，这一方法存在两个主要的缺点：（1）这种损失函数在空间意识的学习上存在困难（空间认知障碍）；（2）这种损失函数对人群计数中的各种噪声高度敏感，如零噪声、头部尺寸变化、遮挡等。Lempitsky 等人提出的 Maximum Excess over SubArrays (MESA) loss 通过从预测密度图中找到与 ground truth 差别最大的矩形子区域来解决了上述问题。然而，由于该方法不能使用梯度下降法求最优解，因此难以在深度学习框架中使用。

受MESA Loss的启发，我们提出了一种新的框架 SPatial Awareness Network (SPANet)，通过结合空间语义信息，保留密度图的 high-frequency spatial variations，提高人群计数精度。该方法与 MESA Loss 寻找差异矩形子区域不同，而是通过 MEP Loss 来优化与 ground truth 存在较大差异的像素级子区域。为了得到这个像素级子区域，我们采用了一个多分支架构，在每个分支中通过两个 mask（其中一个 mask 是另一个 mask 的子区域）利用弱监督排序信息来发现差异大的像素，然后通过模仿显著性区域检测利用整个图像进行差异检测，从而获得与 ground truth 具有较大差异的像素级子区域S。该框架可以集成到现有的深度人群计数方法中，并且 end-to-end training。
图7：SPatial Awareness Network（SPANet）框架图我们在 MCNN、CSRNet 和 SANet 三种深度卷积网络上融入了该方法，并借助 ShanghaiTech、UCF CC 50、WorldExpo'10和 UCSD 四个数据集进行了实验。实验结果表明，我们的方法显著地改进了所有基线，并且优于其他先进方法。这一结果充分说明了 SPANet 的有效性，不管是密集还是稀疏人群场景，都可以提供精确的密度估计。
表3：SPANet 在不同数据集上与 baseline 方法的实验对比图8：SPANet 与 baseline 方法的预测密度图比较

理论ICCV 2019微软亚洲研究院论文

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

增强现实技术

增强现实，是指透过摄影机影像的位置及角度精算并加上图像分析技术，让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升，增强现实的用途也越来越广。

来源：维基百科

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理（multi-rate digital signal processing）系统中采样率转换（sample rate conversion）技术的一种，或指代用来降低信号采样率的过程，与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生，系统中具有降采样功能的部分称为降频器（decimator）。

来源：Lyons, Richard (2001). Understanding Digital Signal Processing. Prentice Hall. p. 304. ISBN 0-201-63467-8.

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正，这项前沿研究是2019年1月份公布。一般而言，Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%，无论在长序列还是短序列中都得到了更好的结果，而且在评估时比标准 Transformer 快 1800 多倍。

来源：机器之心