Learning Combinatorial Embedding Networks for Deep Graph Matching
作者:Runzhong Wang,Junchi Yan, Xiaokang Yang(上海交通大学)
论文地址:https://arxiv.org/abs/1904.00597
相关代码:https://github.com/rogerwwww/PCA-GM
这篇论文聚焦于计算机视觉领域一项历久弥新的问题:图匹配问题。在计算机视觉中,图匹配旨在利用图结构信息,寻找物体之间节点与节点的对应关系。已有的研究工作通常从数学优化的角度求解图匹配的数学形式,而忽视了机器学习、尤其是深度学习在图匹配问题上的巨大潜力。
该文提出了一种基于嵌入方法的深度图匹配算法PCA-GM。PCA-GM是基于嵌入的图结构建模以及基于交叉熵的排列损失函数。在仿真数据集以及真实图片数据集上的实验证明了基于嵌入的深度图匹配算法的优越性。这篇文章为图匹配,尤其是深度图匹配研究提供了全新的思路。
Pose-aware Multi-level Feature Network for Human Object Interaction Detection
作者:Bo Wan, Desen Zhou, Yongfei Liu, Rongjie Li, Xuming He
论文地址:https://arxiv.org/abs/1909.08453
本文提出了一种新颖的人-物体交互检测模型,在多个数据集上该方法展现出大大优于现有最佳方法的性能。在人-物体交互检测任务中,人与物体交互方式的多样性以及交互场景的复杂性,相比于传统的视觉任务存在更多挑战。研究人员提出了一种多层级(multi-level)的交互关系识别策略,包括交互区域、物体、人体语义三个层级。
具体来说,本文提出了一种多分枝网络结构的模型,该模型利用人体姿态信息,通过基于注意力的机制动态放大(Zoom-in)交互关系相关的人体语义区域以增强该区域的特征,并在此基础之上对全局特征进行融合,从而进一步提高模型对于人-物体交互的细粒度检测能力与健壮性。
人物交互模型结构总览,模型的主要输入为输入图片的特征图和人和物体交互关系的几何信息以及人体的关键点。这两大信息将由Holistic model和Zoom-in module 在多层级上对特征进行处理和融合,最后对特征进行融合并给出预测。
Liquid Warping GAN:A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis
作者:Wen Liu, Zhixin Piao, Jie Min, Wenhan Luo, Lin Ma, Shenghua Gao
论文地址:https://arxiv.org/abs/1909.12224
该文提出了一套适用于人体动作迁移、人体换衣和人体新视角生成的统一框架。该框架由人体三维网格估计模块和对抗生成网络模块组成。以人体动作迁移为例,三维人体网格估计模块首先对输入的图片(人物A和B)中的人体进行三维网格建模(只包含身体部分),然后并对其可见部分进行纹理提取。因为A和B的三维网格拥有相同的拓扑结构,所以同时取出B三维网格的形态参数和纹理参数,而取出A的姿态参数,最后根据这些参数渲染出一个合成人。由于渲染出的合成人只有身体部分的网格信息(没有头发和衣服),并且只包含可见部分的纹理信息,因此该渲染出的合成人的结果是不真实和不自然的。
为此,该文通过一个对抗生成网络对上一步的合成人进行修复,使得最后的结果更加自然和真实。三维人体网格估计模块是一个预训练好的网络模型,而对抗生成网络是需要从头开始训练的模型。在训练阶段,对一个视频中的同一个人随机采样两张图片构成一个样本对(A和B)。而在测试阶段,输入一张目标图片A(或者一个视频),输入一张原始图片B,该方案就能产生比较自然真实的任务B在模仿任务A的图片或者视频。
统一框架的训练示意图。该框架一共包含三个子模块,分别是(a) 人体三维网格估计模块,(b) 变化流计算模块,以及(c)生成对抗网络模块。
Expectation-Maximization Attention Networks for Semantic Segmentation
作者:Xia Li, Zhisheng Zhong, Jianlong Wu, Yibo Yang, Zhouchen Lin, Hong Liu
论文地址:https://arxiv.org/abs/1907.13426
近年来,自注意力机制在自然语言处理领域取得卓越成果。本文所提出的期望最大化注意力机制(EMA),摒弃了在全图上计算注意力图的流程,转而通过期望最大化(EM)算法迭代出一组紧凑的基,在这组基上运行注意力机制,从而大大降低了复杂度。其中,E 步更新注意力图,M 步更新这组基。E、M 交替执行,收敛之后用来重建特征图。本文把这一机制嵌入网络中,构造出轻量且易实现的 EMA Unit,并在多个数据集上取得了较高的精度。
DeepGCNs:Can GCNs Go as Deep as CNNs?
作者:Guohao Li, Matthias Müller, Ali Thabet, Bernard Ghanem
论文地址:https://arxiv.org/abs/1904.03751
相关代码:https://github.com/lightaime/deep_gcns
卷积神经网络(CNN)在各种领域取得了令人瞩目的成果。他们的成功得益于能够训练非常深的CNN模型。尽管取得了积极的成果,但CNN未能正确解决非欧几里德数据的问题。为了克服这一挑战,图卷积网络(GCN)构建图来表示非欧几里德数据,借用CNN的相关概念并应用它们来训练这些模型。GCN显示出不错的结果,但由于梯度消失问题,它们仅限于非常浅的模型。因此,大多数最先进的GCN算法都不过3或4层。
作者提出了成功训练深层GCN的新方法。他们借用CNN的概念,主要是Residual、Dense connections(残差、密集连接)和Dilated convolutions(膨胀卷积) ,使它们能够适应GCN架构。大量的实验表明这些深层GCN框架的积极作用。最后,作者成功将GCN从3/4层拓展到56层,训练超级深层的图卷积神经网络,并展示它如何在点云语义分割任务中显著地提升了性能(与最先进技术相比提高了3.7%mIoU)。
Sampling Salient Clips from Video for Efficient Action Recognition
作者:Bruno Korbar, Du Tran, Lorenzo Torresani(Facebook AI)
论文地址:https://arxiv.org/abs/1904.04289
虽然许多动作识别数据集由包含相关动作的简短剪辑视频集合组成,但现实世界(例如,在Youtube上)中的视频显示出非常不同的特性:它们通常有几分钟长,其中简短的相关剪辑通常与包含很少变化的长时段交织在一起。密集地将动作识别系统应用于此类视频中的每个时间片段是非常昂贵的。此外,正如作者在实验中所显示的,这导致了次优的识别精度,因为对视频中有信息量的相关剪辑的有意义的预测结果次数没有对无信息量的长视频片段的被无意义的预测结果次数多。
本文介绍了一种轻量级的“clip-sampling”模型,该模型能够有效地识别长视频中最显著的时间片段。经过证明,仅在这些最显著的片段上调用识别,可以显著降低未剪辑视频上动作识别的计算成本。此外,作者还表明,与分析所有片段或随机/均匀选择的片段相比,该方法在识别精度上有显著提高。在Sports1m上,他们的clip采样方案将一个非常先进的动作分类器的精度提高了7%,并将其计算成本降低了15倍以上。
Learn to Scale:Generating Multipolar Normalized Density Maps for Crowd Counting
作者:Chenfeng Xu, Kai Qiu, Jianlong Fu, Song Bai, Yongchao Xu, Xiang Bai
论文地址:https://arxiv.org/abs/1907.12428
密集人群计数旨在通过计算密度图的图像像素的积分,从图像中预测大量的人类实例的个数。现有方法主要受到严重的密度变化的影响,这样的密度模式变化甚至对于集成的多尺度模型也提出了挑战。
该文提出了一种基于尺度学习模块的密度图回归模型,用于解决静态图中的人群密度分布与人数统计任务,有效提升了在极其密集下的人群个数统计准确率以及在不同场景下模型的泛化性能,在相关数据集的自动评测中都取得了超过现今最优效果的方法。
A Closed-form Solution to Universal Style Transfer
作者:Ming Lu, Hao Zhao, Anbang Yao, Yurong Chen, Feng Xu, Li Zhang
论文地址:https://arxiv.org/abs/1906.00668
相关代码:https://github.com/lu-m13/OptimalStyleTransfer
通用样式转换试图减少特征空间中的损失,因此不需要对任何预定义样式进行训练。它通常使用不同层次的VGG网络作为编码器,训练多个解码器将特征转化为图像。因此,风格转换的效果是通过特征变换来实现的。虽然已有很多方法被提出,但对特征变换的理论分析仍然缺乏。
在这篇文章中,作者首先提出一个新的解释,把它看作是最优运输问题。然后,证明了作者的公式与以前的工作,如AdaIN和WCT的关系。最后,该文通过考虑Gatys的内容损失,得到了一个闭式的OST。相比之下,该文的解决方案可以保留更好的结构,并取得令人满意的视觉效果。该方法简单有效,在定性和定量上都显示了其优越性。