6 月 14-19 日,大家期待已久的国际计算机视觉与模式识别顶级会议 CVPR 2020 将举行。
本届CVPR共收到6656篇投稿,有1470篇论文被接收,录用率约22%,创下十年以来的最低记录。
虽然论文录用难度增大,但在CVPR 2020上,优必选悉尼大学人工智能研究中心再次展示计算机视觉研究实力,一共有12篇论文入选!
让我们来了解一下此次入选的12篇论文。
- 1. 基于姿态引导可见部分匹配下的遮挡行人重识别方法
摘要:遮挡环境下的行人重新识别是一项极具挑战性的任务,因为不同类型的障碍物会使行人外观发生巨大变化,特别是在密集人群场景中。为了解决这一问题,我们提出一种基于姿势引导的可见部分匹配(PVPM)方法。该方法结合姿势引导的注意力来学习更具判别性的特征,并在端到端框架中自挖掘个身体部位的可见性。具体来说,我们提出的 PVPM 方法包括两个关键部分:1) 基于姿势引导的注意力(PGA)方法, 用于提取更具判别性的身体局部特征;2) 基于姿势引导的可见性预测器(PVP),用于估计身体部位是否被遮挡。由于没有被遮挡部分的可见性标注作为训练真值,因此我们利用正样本对的身体部位间的相关性,通过图匹配的方式自挖掘部位间的相关值。然后我们将生成得到的相关值作为可见性预测器(PVP)的伪标签。实验结果表明,与现有方法相比,我们建议的方法具有竞争优势。源代码参见:https://github.com/hh23333/PVPM
特征图:提议的 PVPM 方法的流程图。
参考文献:
Shang Gao, et al., “Pose-guided Visible Part Matching for Occluded Person ReID”, CVPR 2020.
论文地址:https://arxiv.org/abs/2004.00230
- 2. 一种利用语法预测动作的视频字幕生成方法
摘要:视频描述旨在使用自然语言描述视频中的物体及其之间的关系。现有方法大多关注所生成的字幕中物体类别预测的准确性,但很少强调物体之间交互的预测(一般表示为所生成的句子中的动作/谓语)。与句子中的其他成分(比如主语、宾语、冠词等)不同,谓语既依赖于视频中的静态场景(比如主语物体的类别),又与相关物体具体的运动有关。由于忽略了该特性,现有方法预测的谓语可能在很大程度上取决于物体的同现(co-occurrence)。例如,当视频中同时有人和汽车被检测到时,模型往往会在生成的字幕中预测出“开车”这一动作。在本文中,我们提出在普通seq2seq模型中嵌入一个利用语法预测动作(SAAT)的模块,该模块通过参考主语物体类别和视频动态特征来预测动作,进而指导字幕生成。具体而言,我们先通过判断视频中多个物体间的全局依赖关系来确定主语物体,然后结合主语类别和视频动态特征预测动作。在两个公共数据集上的对比实验表明,该模块提高了所生成的视频字幕中动作预测的准确性,以及与视频中动态内容的语义一致性。源代码参见:https://github.com/SydCaption/SAAT.
特征图:提议的模块的示例。
参考文献:
Qi Zheng, et al., “Syntax-Aware Action Targeting for Video Captioning”, CVPR 2020.
- 3. PuppeteerGAN:实现任意人像视频合成的语义感知外观转换算法
摘要:人像视频合成旨在使用从目标视频帧中检测的人物动作、表情来驱动给定的静态人像,以生成栩栩如生的视频。该技术是许多现实娱乐应用的核心和基础。近年来,尽管相关的算法在合成或控制人像方面取得了非常逼真的效果,但对于任意给定人像的视频合成仍然面临以下挑战:1)生成人像的身份(脸型,发型)不匹配问题;2)有限的训练数据的限制;3)实际应用中低效率的重新训练或微调训练。为了解决这些挑战,在本文中,我们提出了一种两阶段的、名为PuppeteerGAN的新算法。具体来说,我们首先训练模型对人像的语义分割结果进行动作视频生成,该过程保留了给定人像的脸型、发型等身份信息。作为一种通用表示方法,语义分割结果可以适用于不同的数据集、环境条件或外观变化。因此,我们得以在任何种类的人像之间完成动作、表情的迁移。随后,我们对所得到的语义分割结果进行纹理和色彩的填充。为此,我们设计了一个外观转换网络,通过结合语义表征的形变技术和给定条件的生成技术,该网络可以得到理想的高保真人像输出。在完成训练后,上述两个网络可以直接对新输入的人像进行端到端推理,无需进行任何再训练或微调训练。在对不同身份,不同种类和不同分辨率的人像视频合成实验中,所提出的PuppetterGAN 在生成质量和执行速度上都取得了优于现有算法的表现。
特征图:提议的 PuppeteerGAN 制作动画人像的示例。
参考文献:
Zhuo Chen, et al., “PuppeteerGAN: Arbitrary Portrait Animation with Semantic-aware Appearance Transformation”, CVPR 2020.
- 4. FeatureFlow:基于结构到纹理生成的鲁棒视频插帧算法
摘要:视频插帧算法旨在合成目标视频中两个连续帧之间未被记录的帧。现有的基于光流的视频插帧算法虽然取得了不错的表现,但在处理复杂的动态场景时,例如遮挡、模糊、亮度突变等,仍面临着很大的挑战。其主要原因是这些复杂的视频动态会破坏光流估计的基本假设,即平滑性和一致性。在本文中,我们提出了一种新型的结构到纹理生成框架,该框架将视频插帧分为两个阶段:结构引导的插帧和纹理细化。在第一阶段,具有结构感知的深度网络表征被用于预测两个连续视频帧之间的表征流,并据此生成中间帧的结构指导图像。在第二阶段,根据所得到的结构指导图像,一个纹理细化补偿网络进一步进行纹理细节的填充。据我们所知,这是第一个通过融合深度网络表征直接进行视频插帧的算法。在基准数据集和具有挑战性的遮挡情况下进行的实验表明,我们所提出的框架优于现有最先进的方法。源代码请参见: https://github.com/CM-BF/FeatureFlow。
特征图:提议的视频插值框架生成的示例。
参考文献:
Shurui Gui, et al., “FeatureFlow: Robust Video Interpolation via Structure-to-texture Generation”, CVPR 2020.
- 5. 低质量图像分类的深度退化先验
摘要:目前最先进的基于卷积神经网络(CNN)的图像分类算法通常是在高质量图像的大型有标注数据集上训练的。当将其应用于低质量图像时,由于图像退化破坏了邻域内像素的结构和统计特性,其性能会有显著的下降。针对这一问题,本文提出了一种用于低质量图像分类的全新的深度退化先验。该方法基于统计观察,即在深度表示空间中,结构相似的图像块的分布也是均匀的,即使他们来自不同的图像。并且,在相同退化条件下,低质量和高质量图像中相应图像块的分布具有一致的间隔。因此,我们提出了一个特征去漂移模块(FDM)来学习低质量和高质量图像的深度表示之间的映射关系,并将其作为低质量图像分类的深度退化先验(DDP)。由于统计特性与图像内容无关,因此我们可以在没有语义标签的少量图像训练集上学习深度退化先验,并以“插件”模块的形式提高现有分类网络在退化图像上的性能。在基准数据集ImageNet-C上的实验评估表明,在各种退化条件下,我们提出的DDP可以将预训练网络模型的准确性提高20%以上。即使在仅使用CUB-C数据集中的10张图像训练DDP的极端情况下,我们的方法也能将VGG16模型在ImageNet-C上的分类准确度从37%提高到55%。
特征图:提议的模块的分布图。
参考文献:
Yang Wang, et al., “Deep Degradation Prior for Low-quality Image Classification”, CVPR 2020.
- 6. 针对基于骨架的动作识别的上下文感知图卷积
摘要:图卷积模型在基于骨架的人类动作识别任务中取得了令人瞩目的成功。由于图卷积是一种局部操作,它不能充分的考虑对动作识别至关重要的非局域关节。例如,像打字和拍手这样的动作需要两只手的配合,而在人体骨架图中,两只手彼此相距很远。因此,多个图卷积层往往叠加在一起。这样做虽然增加了感受野,但计算效率低,优化难度大,仍然不能保证相距较远的关节(如,双手)能够很好地结合在一起。在本文中,我们提出了一个上下文感知的图卷积网络(CA-GCN)。除了计算局部图卷积外,CA-GCN 还通过整合所有其他节点的信息来为每个节点生成一个上下文项。因此,关节之间的远距离依赖关系自然地集成在上下文信息中,从而免去了为扩大感受野而堆叠多层的需求,并大大简化了网络。此外,我们进一步提出了一种非对称的相关性度量,和一种更高抽象层次的表示来计算上下文信息以获得更大的灵活性和更好的性能,从而得到改进版 CA-GCN。除了关节特征外,我们的 CA-GCN 还可以扩展到处理具有边(肢体)特征的图像。在两个真实数据集上进行的大量实验证明了上下文信息的重要性以及 CA-GCN 在基于骨架的动作识别中的有效性。
特征图:提议的方法的说明。
参考文献:
Xikun Zhang, et al., “Context Aware Graph Convolution for Skeleton-Based Action Recognition”, CVPR 2020.
- 7. 生成对抗网络(GAN)中的正例和无标记样本分类问题
摘要:本文定义了一个标准生成对抗网络的正例和无标记样本分类问题 (positive and unlabelled classification),从而提出了一种稳定生成对抗网络中判别器训练的新技术。传统上,真实数据被视为是正分类,而生成的数据则被视为负分类。在判别器的整个学习过程中,这个正负分类标准一直保持不变,没有考虑到生成数据质量的逐步提高,即使有时生成的数据可能比真实数据更真实。相比之下,更合理的做法是将生成的数据视为未标记分类,根据其质量,可以是正分类也可以是负分类。因此,判别器是针对这类正未标记分类问题的一个分类器,由此我们得到一个新的正未标记生成对抗网络(PUGAN)。我们从理论上讨论了该模型的全局最优性和等效最优目标。通过实验我们发现,PUGAN 可以达到的性能与那些复杂的判别器稳定方法相当甚至更好。
特征图:通过提议的方法获得的生成样本。
参考文献:
Tianyu Guo, et al., “On Positive-Unlabeled Classification in GAN”, CVPR 2020.
论文地址:https://arxiv.org/abs/2002.01136
- 8. 通过层次分解和组合学习看不见的概念
摘要:从已知的子概念中组合和识别新概念是一项具有挑战性的基础视觉任务,这主要是由于:1)子概念的多样性;2)子概念与其对应的视觉特征之间错综复杂的上下文关系。然而,目前的大多数方法只是简单地将上下文关系视为死板的语义关系,而未能捕获细粒度的上下文关联。我们建议以分层分解和组合的方式来学习看不见的概念。考虑到子概念的多样性,我们的方法将每个可见的图像按照其标签分解成视觉元素,并在其各自的子空间中学习相应的子概念。为了对子概念及其视觉特征之间复杂的上下文关系进行建模,我们从这些子空间以三种层次形式生成组合,并在统一的组合空间中学习组合的概念。为了进一步细化捕获的上下文关系,我们定义了自适应半正概念,然后利用伪监督技术从生成的组合中学习。我们在两个具有挑战性的基准上验证了所提出的方法,并证明了其优于目前最先进的方法。
特征图:提议的方法的流程图。
参考文献:
Muli Yang, et al., “Learning Unseen Concepts via Hierarchical Decomposition and Composition”, CVPR 2020.
- 9. 学习 Oracle 注意力以实现高保真面部补全
摘要:高保真人脸补全是一个具有挑战性的任务,因为要涉及丰富和微妙的面部纹理。更复杂的是面部不同要素之间的相互关系,例如,两只眼睛之间的纹理和结构的对称性。最近的研究虽然采用了注意力机制来学习面部元素之间的语境关系,但在很大程度上忽略了注意力分数不准确带来的灾难性影响;此外,这些研究人员并未充分关注完成结果在很大程度上决定了人脸图像的真实性的面部要素。因此,我们在本文中设计了一个基于 U-Net 结构的人脸补全综合框架。具体来说,我们提出了一个用来从多个尺度有效学习面部纹理之间的相互关系的双重空间注意力模块;此外,我们还为注意力模块提供了一个用来确保获得的注意力分数是合理的 Oracle 监控信号。此外,我们还将人脸元素的位置作为先验知识,并对这些区域施加一个多重判别器,从而显著提高了面部元素的保真度。在包括 CelebA-HQ 和 Flickr-Faces-HQ 在内的两个高分辨率人脸数据集上进行的大量实验表明,我们所提出的方法在很大程度上优于目前最先进的方法。
特征图:提议的模型的整体架构。
参考文献:
Tong Zhou, et al., “Learning Oracle Attention for High-fidelity Face Completion”, CVPR 2020.
论文地址:https://arxiv.org/abs/2003.13903
- 10. 从图卷积网络中提取知识
摘要:现有的知识提取方法侧重于卷积神经网络(convolutional neural networks, CNNs),即图像等输入样本位于一个网格域中,而在很大程度上忽略了处理非网格数据的图卷积网络(graph convolutional networks, GCN)。在本文中,以我们所知,是我们首次提出采用一个专门方法从一个预先训练的 GCN 模型中提取知识。为了实现知识从教师 GCN 到学生 GCN 的转移,我们提出了一个显式解释了教师 GCN 的拓扑语义的局部结构保留模块。在此模块中,来自教师 GCN 和学生 GCN 的局部结构信息被提取为分布,因此,这些分布之间的距离降到了最低,使得来自教师 GCN 的拓扑感知的知识得以实现转移,从而生成一个紧凑的、高性能的学生 GCN 模型。此外,我们提出的方法可以很容易扩展到教师 GCN 和学生 GCN 的输入图像可能不同的动态图模型。我们使用不同架构的 GCN 模型在两个不同的数据集上对所提出的方法进行了评估。结果证明,我们的方法让 GCN 模型的知识提取性能达到了目前的最高水准。
特征图:提议的 GCN 知识提取方法的框架。
参考文献:
Yiding Yang, et al., “Distillating Knowledge from Graph Convolutional Networks”, CVPR 2020.
论文地址:https://arxiv.org/abs/2003.10477
- 11. GPS 网络:用于场景图生成的图像属性感知网络
摘要:场景图生成(SGG)的目的是检测图像中的对象及其两两关系。三个关键的场景图属性在最近的研究中尚未得到充分的探索,即边缘方向信息、节点之间优先级的差异以及关系的长尾分布。因此,我们在本文中提出了一种可以充分挖掘 SGG 的这三种属性的图像数据属性感知网络(GPS-Net)。首先,我们提出了一种新的消息传递模块,其利用特定于节点的上下文信息来增强节点特征,并通过一个三线性模型对边缘方向信息进行编码。其次,我们引入了一个节点优先级敏感损耗来反映节点之间在训练过程中的优先级差异。这通过设计一个可以在焦损中调整聚焦参数的映射函数来实现。第三,由于关系的频率受到长尾分布问题的影响,我们通过首先软化分布,然后根据每个主-客体对的视觉外观对其进行调整来缓解这个问题。系统性实验验证了该方法的有效性。此外,我们的模型在三个数据集(OpenImage、Visual Genome、VRD)上都达到了目前最优结果,在不同的设置和指标下均有显著提高。源代码和模型参见:https: //github.com/taksau/GPS-Net。
特征图:提议的网络的架构。
参考文献:
Xin Lin, et al., “GPS-Net: Graph Property Sensing Network for Scene Graph Generation”, CVPR 2020.
论文地址:https://arxiv.org/abs/2003.12962
- 12. 利用递归特征推理修复图像
摘要:现有的图像修补方法在修复常规或微小图像缺陷方面取得了良好的效果。然而,由于缺乏对孔洞中心的限制,连续大孔的填充仍然很困难。我们在本文中设计了一个主要由一个即插即用的递归特征推理模块和一个知识一致注意力(KCA)模块构成的递归特征推理(RFR)网络。类似于人类解决难题的方式(即先解决较简单的部分,然后将结果用作解决困难部分的补充信息),RFR 模块递归地推导出卷积特征图的孔洞边界,然后以此作为线索进行进一步推断。该模块逐步加强了对孔洞中心的限制,让结果变得明确。为了从 RFR 的特征图中捕获远处的信息,我们进一步开发了 KCA 模块,并将其纳入 RFR 网络中。实验上,我们首先将 RFR 网络与现有的主干网络进行比较,证明 RFR 网络更为有效。例如,对于相同的模型大小,结构相似度(SSIM)提高了 4%。然后,我们将 RFR 网络置于当前最先进的环境中,在这种环境中,其性能表现更好。相应的源代码参见:https://github.com/jingyuanli001/RFR-Inpainting.
特征图:提议的修复方案概述。
参考文献:
Jingyuan Li, et al., “Recurrent Feature Reasoning for Image Inpainting”, CVPR 2020.