全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开。本届大会总共录取来自全球论文1299篇。中国团队表现不俗,此次,腾讯公司有超过58篇论文被本届CVPR大会接收,其中腾讯优图实验室25篇、腾讯AI Lab33篇,相比过去两年成绩大幅提升。
作为计算机视觉领域级别最高的研究会议,CVPR2019录取论文代表了计算机视觉领域在2019年最新和最高的科技水平以及未来发展潮流。CVPR官网显示,今年有超过5165篇的大会论文投稿,最终录取1299篇。这些录取的最新科研成果,涵盖了计算机视觉领域各项前沿工作。2019年腾讯公司有超过58篇论文被本届CVPR大会接收 ,其中腾讯AI Lab33篇、腾讯优图实验室25篇。而2018年总计被收录31篇,2017年被收录18篇。2019年的录取数量相比前两年都有大幅提高,成绩斐然。
腾讯此次被收录的论文涵盖深度学习优化原理、视觉对抗学习、人脸建模与识别、视频深度理解、行人重识别、人脸检测等热门及前沿领域。全球领先的科研成果,展示了腾讯在计算机视觉领域强大的人才储备、科研底蕴和创新能力。这些新颖的计算机视觉算法不仅有着丰富的应用场景,使得更多的计算机视觉算法能应用于日常生活之中,还为后续研究提供了可贵的经验和方向。
以下介绍部分腾讯优图入选CVPR2019的论文:
软多标签学习的无监督行人重识别
相对于有监督行人重识别(RE-ID)方法,无监督RE-ID因其更佳的可扩展性受到越来越多的研究关注,然而在非交叠的多相机视图下,标签对(pairwise label)的缺失导致学习鉴别性的信息仍然是非常具有挑战性的工作。为了克服这个问题,我们提出了一个用于无监督RE-ID的软多标签学习深度模型。该想法通过将未标注的人与辅助域里的一组已知参考者进行比较,为未标注者标记软标签(类似实值标签的似然向量)。基于视觉特征以及未标注目标对的软性标签的相似度一致性,我们提出了软多标签引导的hard negative mining方法去学习一种区分性嵌入表示(discriminative embedding)。由于大多数目标对来自交叉视角,我们提出了交叉视角下的软性多标签一致性学习方法,以保证不同视角下标签的一致性。为实现高效的软标签学习,引入了参考代理学习(reference agent learning)。我们的方法在Market-1501和DukeMTMC-reID上进行了评估,显著优于当前最好的无监督RE-ID方法。
基于自适应空间加权相关滤波的视觉跟踪研究
Adversarial Attacks Beyond the Image Space
超越图像空间的对抗攻击
在分类和视觉问答问题的任务中,我们在接收2D输入的神经网络前边增加一个渲染模块来拓展现有的神经网络。我们的方法的流程是:先将3D场景(物理空间)渲染成2D图片(图片空间),然后经过神经网络把他们映射到一个预测值(输出空间)。这种对抗性干扰方法可以超越图像空间。在三维物理世界中有明确的意义。虽然图像空间的对抗攻击可以根据像素反照率的变化来解释,但是我们证实它们不能在物理空间给出很好的解释,这样通常会具有非局部效应。但是在物理空间的攻击是有可能超过图像空间的攻击的,虽然这个比图像空间的攻击更难,体现在物理世界的攻击有更低的成功率和需要更大的干扰。
基于上下文图网络的行人检索模型
近年来,深度神经网络在行人检索任务中取得了较大的成功。但是这些方法往往只基于单人的外观信息,其在处理跨摄像头下行人外观出现姿态变化、光照变化、遮挡等情况时仍然比较困难。本文提出了一种新的基于上下文信息的行人检索模型。所提出的模型将场景中同时出现的其他行人作为上下文信息,并使用卷积图模型建模这些上下文信息对目标行人的影响。我们在两个著名的行人检索数据集CUHK-SYSU和PRW的两个评测维度上刷新了当时的世界纪录,取得了top1的行人检索结果。
基于深度学习优化光照的暗光下的图像增强
Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
基于同态隐空间插值的不成对图片到图片转换
生成对抗网络在不成对的图像到图像转换中取得了巨大成功。循环一致性允许对没有配对数据的两个不同域之间的关系建模。在本文中,我们提出了一个替代框架,作为潜在空间插值的扩展,在图像转换中考虑两个域之间的中间部分。该框架基于以下事实:在平坦且光滑的潜在空间中,存在连接两个采样点的多条路径。正确选择插值的路径允许更改某些图像属性,而这对于在两个域之间生成中间图像是非常有用的。我们还表明该框架可以应用于多域和多模态转换。广泛的实验表明该框架对各种任务具有普遍性和适用性。X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks
基于生成对抗网络的双平面X光至CT生成系统