2019/10/17 09:29

干货！8篇ICCV2019录用论文解读

本文整理了ICCV2019收录的8篇论文，有来自上海交通大学的有关图匹配方向的研究，北京大学语言分割的研究成果，以及Facebook对于动作识别的研究进展等。

Learning Combinatorial Embedding Networks for Deep Graph Matching

作者：Runzhong Wang,Junchi Yan, Xiaokang Yang（上海交通大学）

论文地址：https://arxiv.org/abs/1904.00597

相关代码：https://github.com/rogerwwww/PCA-GM

这篇论文聚焦于计算机视觉领域一项历久弥新的问题：图匹配问题。在计算机视觉中，图匹配旨在利用图结构信息，寻找物体之间节点与节点的对应关系。已有的研究工作通常从数学优化的角度求解图匹配的数学形式，而忽视了机器学习、尤其是深度学习在图匹配问题上的巨大潜力。

该文提出了一种基于嵌入方法的深度图匹配算法PCA-GM。PCA-GM是基于嵌入的图结构建模以及基于交叉熵的排列损失函数。在仿真数据集以及真实图片数据集上的实验证明了基于嵌入的深度图匹配算法的优越性。这篇文章为图匹配，尤其是深度图匹配研究提供了全新的思路。

Pose-aware Multi-level Feature Network for Human Object Interaction Detection

作者：Bo Wan， Desen Zhou， Yongfei Liu， Rongjie Li， Xuming He

论文地址：https://arxiv.org/abs/1909.08453

本文提出了一种新颖的人-物体交互检测模型，在多个数据集上该方法展现出大大优于现有最佳方法的性能。在人-物体交互检测任务中，人与物体交互方式的多样性以及交互场景的复杂性，相比于传统的视觉任务存在更多挑战。研究人员提出了一种多层级（multi-level）的交互关系识别策略，包括交互区域、物体、人体语义三个层级。

具体来说，本文提出了一种多分枝网络结构的模型，该模型利用人体姿态信息，通过基于注意力的机制动态放大（Zoom-in）交互关系相关的人体语义区域以增强该区域的特征，并在此基础之上对全局特征进行融合，从而进一步提高模型对于人-物体交互的细粒度检测能力与健壮性。

人物交互模型结构总览，模型的主要输入为输入图片的特征图和人和物体交互关系的几何信息以及人体的关键点。这两大信息将由Holistic model和Zoom-in module 在多层级上对特征进行处理和融合，最后对特征进行融合并给出预测。

Liquid Warping GAN：A Unified Framework for Human Motion Imitation， Appearance Transfer and Novel View Synthesis

作者：Wen Liu， Zhixin Piao， Jie Min， Wenhan Luo， Lin Ma， Shenghua Gao

论文地址：https://arxiv.org/abs/1909.12224

该文提出了一套适用于人体动作迁移、人体换衣和人体新视角生成的统一框架。该框架由人体三维网格估计模块和对抗生成网络模块组成。以人体动作迁移为例，三维人体网格估计模块首先对输入的图片（人物A和B）中的人体进行三维网格建模（只包含身体部分），然后并对其可见部分进行纹理提取。因为A和B的三维网格拥有相同的拓扑结构，所以同时取出B三维网格的形态参数和纹理参数，而取出A的姿态参数，最后根据这些参数渲染出一个合成人。由于渲染出的合成人只有身体部分的网格信息（没有头发和衣服），并且只包含可见部分的纹理信息，因此该渲染出的合成人的结果是不真实和不自然的。

为此，该文通过一个对抗生成网络对上一步的合成人进行修复，使得最后的结果更加自然和真实。三维人体网格估计模块是一个预训练好的网络模型，而对抗生成网络是需要从头开始训练的模型。在训练阶段，对一个视频中的同一个人随机采样两张图片构成一个样本对（A和B）。而在测试阶段，输入一张目标图片A（或者一个视频），输入一张原始图片B，该方案就能产生比较自然真实的任务B在模仿任务A的图片或者视频。

统一框架的训练示意图。该框架一共包含三个子模块，分别是（a）人体三维网格估计模块，（b）变化流计算模块，以及（c）生成对抗网络模块。

Expectation-Maximization Attention Networks for Semantic Segmentation

作者：Xia Li， Zhisheng Zhong， Jianlong Wu， Yibo Yang， Zhouchen Lin， Hong Liu

论文地址：https://arxiv.org/abs/1907.13426

近年来，自注意力机制在自然语言处理领域取得卓越成果。本文所提出的期望最大化注意力机制（EMA），摒弃了在全图上计算注意力图的流程，转而通过期望最大化（EM）算法迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。其中，E 步更新注意力图，M 步更新这组基。E、M 交替执行，收敛之后用来重建特征图。本文把这一机制嵌入网络中，构造出轻量且易实现的 EMA Unit，并在多个数据集上取得了较高的精度。

DeepGCNs：Can GCNs Go as Deep as CNNs？

作者：Guohao Li， Matthias Müller， Ali Thabet， Bernard Ghanem

论文地址：https://arxiv.org/abs/1904.03751

相关代码：https://github.com/lightaime/deep_gcns

卷积神经网络（CNN）在各种领域取得了令人瞩目的成果。他们的成功得益于能够训练非常深的CNN模型。尽管取得了积极的成果，但CNN未能正确解决非欧几里德数据的问题。为了克服这一挑战，图卷积网络（GCN）构建图来表示非欧几里德数据，借用CNN的相关概念并应用它们来训练这些模型。GCN显示出不错的结果，但由于梯度消失问题，它们仅限于非常浅的模型。因此，大多数最先进的GCN算法都不过3或4层。

作者提出了成功训练深层GCN的新方法。他们借用CNN的概念，主要是Residual、Dense connections（残差、密集连接）和Dilated convolutions（膨胀卷积），使它们能够适应GCN架构。大量的实验表明这些深层GCN框架的积极作用。最后，作者成功将GCN从3/4层拓展到56层，训练超级深层的图卷积神经网络，并展示它如何在点云语义分割任务中显著地提升了性能（与最先进技术相比提高了3.7%mIoU）。

Sampling Salient Clips from Video for Efficient Action Recognition

作者：Bruno Korbar， Du Tran， Lorenzo Torresani（Facebook AI）

论文地址：https://arxiv.org/abs/1904.04289

虽然许多动作识别数据集由包含相关动作的简短剪辑视频集合组成，但现实世界（例如，在Youtube上）中的视频显示出非常不同的特性：它们通常有几分钟长，其中简短的相关剪辑通常与包含很少变化的长时段交织在一起。密集地将动作识别系统应用于此类视频中的每个时间片段是非常昂贵的。此外，正如作者在实验中所显示的，这导致了次优的识别精度，因为对视频中有信息量的相关剪辑的有意义的预测结果次数没有对无信息量的长视频片段的被无意义的预测结果次数多。

本文介绍了一种轻量级的“clip-sampling”模型，该模型能够有效地识别长视频中最显著的时间片段。经过证明，仅在这些最显著的片段上调用识别，可以显著降低未剪辑视频上动作识别的计算成本。此外，作者还表明，与分析所有片段或随机/均匀选择的片段相比，该方法在识别精度上有显著提高。在Sports1m上，他们的clip采样方案将一个非常先进的动作分类器的精度提高了7%，并将其计算成本降低了15倍以上。

Learn to Scale：Generating Multipolar Normalized Density Maps for Crowd Counting

作者：Chenfeng Xu， Kai Qiu， Jianlong Fu， Song Bai， Yongchao Xu， Xiang Bai

论文地址：https://arxiv.org/abs/1907.12428

密集人群计数旨在通过计算密度图的图像像素的积分，从图像中预测大量的人类实例的个数。现有方法主要受到严重的密度变化的影响，这样的密度模式变化甚至对于集成的多尺度模型也提出了挑战。

该文提出了一种基于尺度学习模块的密度图回归模型，用于解决静态图中的人群密度分布与人数统计任务，有效提升了在极其密集下的人群个数统计准确率以及在不同场景下模型的泛化性能，在相关数据集的自动评测中都取得了超过现今最优效果的方法。

A Closed-form Solution to Universal Style Transfer

作者：Ming Lu， Hao Zhao， Anbang Yao， Yurong Chen， Feng Xu， Li Zhang

论文地址：https://arxiv.org/abs/1906.00668

相关代码：https://github.com/lu-m13/OptimalStyleTransfer

通用样式转换试图减少特征空间中的损失，因此不需要对任何预定义样式进行训练。它通常使用不同层次的VGG网络作为编码器，训练多个解码器将特征转化为图像。因此，风格转换的效果是通过特征变换来实现的。虽然已有很多方法被提出，但对特征变换的理论分析仍然缺乏。

在这篇文章中，作者首先提出一个新的解释，把它看作是最优运输问题。然后，证明了作者的公式与以前的工作，如AdaIN和WCT的关系。最后，该文通过考虑Gatys的内容损失，得到了一个闭式的OST。相比之下，该文的解决方案可以保留更好的结构，并取得令人满意的视觉效果。该方法简单有效，在定性和定量上都显示了其优越性。

AMiner学术头条

AMiner平台由清华大学计算机系研发，拥有我国完全自主知识产权。系统2006年上线，吸引了全球220个国家/地区800多万独立IP访问，数据下载量230万次，年度访问量1000万，成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/

理论ICCV 2019论文

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

VGG技术

2014年，牛津大学提出了另一种深度卷积网络VGG-Net，它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野，而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好，常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量，VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层，每一层都有4096个神经元，可想而至这之间的参数会有多么庞大。

来源：7大类深度CNN架构创新综述

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

梯度消失问题技术

梯度消失指的是随着网络深度增加，参数的梯度范数指数式减小的现象。梯度很小，意味着参数的变化很缓慢，从而使得学习过程停滞，直到梯度变得足够大，而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文：「Learning long-term dependencies with gradient descent is difficult」，目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

来源：机器之心 Vanishing gradient problem

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

图卷积神经网络技术

图卷积神经网络（Graph Convolutional Network）是一种能对图数据进行深度学习的方法。GCN的三个主要特征：它是卷积神经网络在 graph domain 上的自然推广；它能同时对节点特征信息与结构信息进行端对端学习；适用于任意拓扑结构的节点与图；

来源：机器之心

图卷积网络技术

假设有一张图，要做分类，传统方法需要手动提取一些特征，比如纹理啊，颜色啊，或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器，给到一个输出标签，告诉它是哪个类别。而深度学习是输入一张图，经过神经网络，直接输出一个标签。特征提取和分类一步到位，避免了手工提取特征或者人工规则，从原始数据中自动化地去提取特征，是一种端到端（end-to-end）的学习。相较于传统的方法，深度学习能够学习到更高效的特征与模式。

来源：图卷积网络

流计算技术

Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window。

来源：juejin

干货！8篇​ICCV2019录用论文解读

干货！8篇ICCV2019录用论文解读