Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

欧洲计算机视觉会议开幕在即,Facebook将展示哪些视觉新技术

ECCV_header.png

本周第 14 届机器视觉欧洲大会(European Conference on Computer Vision(ECCV))将在阿姆斯特丹召开。作为机器视觉的顶级大会,Facebook 研究员们正在着手向他们的同辈们学习,并通过文献、海报、把特殊兴趣小组召集到专题研讨会和教程中(点击这里下载全部论文)。


Facebook 人工智能研究(FAIR)的科学家 Pedro O. Pinheiro、Tsung-Yi Lin、Ronan Collobert 和 Piotr Dollár 将展示他们的论文「学习精炼对象分割(Learning to Refine Object Segments)」,这篇论文在今年早期的一篇博客中被强调。这篇论文提出了用一个全新的自上而下(top-down)的精炼方法来增强前馈网络并进行图像分割。通过这种简单、快速、高效的方法,这篇论文展示了自下而上/自上而下的结构是怎样高效的生成高保真图像掩码(mask)的。


除了展示论文,Facebook 团队还作了DeepMask+SharpMask 以及 MultiPathNet的代码和演示,并将它们公开,希望能够对机器视觉领域的发展起到帮助。


值得注意的是,今年是第二届 ImageNet 和 COCO 视觉识别挑战联合研讨会(ImageNet and COCO Visual Recognition Challenges Joint Workshop),由 Facebook 人工智能研究的研究员 Ross Girshick 和 Piotr Dollár,康奈尔大学的 Tsung-Yi Lin 和 Yin Cui,布朗大学的 Genevieve Patterson,以及 Caltech 的 Matteo Ruggero Ronchi 联合举办。「对于我,研讨会是大会中最有意思的环节,它让我看到领域中最前沿的工作,特别是那些具有挑战的工作。」Ross Girshick 说,「这些竞争性挑战是在学界和业界广泛的研究合作中产生的,能帮助确定视觉识别未来研究的方向。」


研讨会的目的是展示 2016 年 ImageNet 大尺度视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge(ILSVRC))和常见对象 2016 识别挑战赛(Common Objects in Context (COCO) 2016 Detection Challenge)的方法和成果。具有最成功和创新性方法的挑战赛参与者被邀请到会场,向众多研究者分享他们的研究成果。另外,今年 COCO 大会的挑战赛是关键点挑战(2016 Keypoint Challenge),这个挑战赛要求在没有控制的条件下,定位出人的关键点。此次关键点挑战赛使用了一个相对低探索设置(under-explored setting),包含了探测出人和定位他们的关键点,所以我们可以期待最后的结果。


Facebook 人工智能研究科学家 Laurens van der Maaten 也被邀请在研讨会期间的网络和社交媒体平台上发表演讲,演讲的题目为「不通过注释数百万图像而学习解决视觉(Learning to Solve Vision without Annotating Millions of Images)」。

Facebook ECCV 论文:

  • 论文:Learning to Refine Object Segments

  • 作者:Pedro Pinheiro、Tsung-Yi Lin、Ronan Collobert、Piotr Dollar

摘要:对象分割同时需要对象级别的信息(object-level information)和低级别像素数据(low-level pixel data)。这对于前馈神经网络来说是一个挑战:卷积网络的浅层(lower layers)捕获丰富的空间信息,而深层(upper layers)编码对象级别的内容,同时深层(upper layers)编码对象级别的内容(但是对如姿势和外形等因素是不变的)。在这篇论文中,我们提出了一种全新的自上而下(top-down)的精炼方法来增强用来图像分割的前馈网络。这种自下而上/自上而下的结构能够高效生成高保真对象掩码(mask)。与跳过连接相似,我们的方法最大化的使用了网络中所有层的特征。与跳过连接不同的是,我们的方法不尝试在每一层输出独立的预测。取而代之的是,我们首先在一个前馈网络传递(feedforward pass)中输出一个粗糙的『掩码编码』(mask encoding),然后在一个自上而下的传递中精炼这个掩码编码,在依次的浅层中利用特征。这个方法简单、快速、高效。建立在用最近的 DeepMask 网络生成对象的基础上,我们展示了在不同设置下表示精确度的平均召回率(recall)有 10-20% 的提升。除此以外,通过优化全局的网络结构,我们的方法 SharpMask 比原来的 DeepMask 网络快了 50%(在 .8s 一张图片的速度下)。


  • 论文:Polysemous Codes

  • 作者:Matthijs Douze、Herve Jegou、 Florent Perronnin

摘要:这篇论文考虑了在压缩空间中近似最近邻搜索的问题。我们引入了多义编码(polysemous code), 它同时提供了产品量化的距离估计质量和用 Hamming 距离的二进制编码的有效对比。这个设计是由 90 年代提出用来建立信道优化的量化矢量器(vector quantizers)的算法启发的。在搜索时间上,这个双重方法加速了搜索。大多数索引化的向量被 Hamming 距离过滤,使得只有部分向量被一个非对称距离估计器排序。这个方法是对如反向多索引(inverted multi-index)的特征空间粗糙分区的一个补充。


  • 论文:Learning Visual Features from Large Weakly Supervised Data

  • 作者:Armand Joulin, Laurens van der Maaten, Allan Jabri, and Nicolas Vasilache, Facebook AI Research

摘要:在大型有监督数据集上训练的卷积网络可以生成视觉特征,这些特征构成了当前许多最先进的计算机视觉问题的基础。这些视觉特征的进一步提升很可能将需要甚至更大型的人工标注的数据集,这极大地限制了进步的速度。在这篇论文中,我们探索了利用大规模弱标注图像集学习良好的视觉特征的潜力。我们在一个包含了 1 亿张 Flickr 照片和评论的数据集上训练了卷积网络,结果发现这些网络可以得出在许多视觉问题上表现良好的特征。我们还表明这些网络可以适当地获取词相似度(word similarity)和学习不同语言之间的对应。


  • 论文:Revisiting Visual Question Answering Baselines

  • 作者:Allan Jabri、Armand Joulin、Laurens van der Maaten

摘要:视觉问题回答(VQA,Visual question answering)是目前评估图像理解系统能力与缺陷的一种有趣学习设定。最近提出的很多 VQA 系统包括注意力或记忆机制,用来进行「推理」。此外,对多选择 VQA 任务而言,几乎所有的这些系统都训练一个多类的图像分类器和问题特征,来预测答案。此论文质疑这些常见实践的价值,并基于二分类开发出一种简单的备用模型。该方法不再是将答案作为竞争选择的结果,我们的模型将答案作为输入并预测 image-question-answer 三重态是否正确。我们在 Visual7W Telling 和 VQA Real Multiple Choice 任务上评估该模型,发现该模型的简单版本也相当具有竞争力。我们最好的模型在 Visual7W Telling 任务上取得了 65.8% 的准确率,可相比于面向 VQA Real Multiple Choice 任务提出的最复杂的系统。此外,我们探索了该模型的变体,并研究模型在这两个数据集上的迁移性。我们也给出了最好模型的误差分析,结果表明如今 VQA 系统的关键问题在于缺乏问题和答案中产生的概念的可视化 grounding 和 Localization。


  • 论文:Shuffle and Learn: Unsupervised Learning using Temporal Order Verification

  • 作者:Ishan Misra、Larry Zitnick、Martial Hebert

摘要:在此论文中,我们提出一种从视频中的源时空信号(raw spatiotemporal signals)学习视觉表征的方法。我们的表征是在没有监督语义标签的情况下学习的。我们将此方法制定为无监督时序验证任务,即我们测定来自视频的画面序列是否是正确的时序。在此任务中,没有语义标签,我们使用卷积神经网络学习强大的视觉表征。这些表征包含对从 ImageNet 这样的监督数据集中学到的表征的补充信息。保质的结果显示我们的方法能捕捉时间上变化的信息,比如人类的动作。当被用为动作识别的预训练时,我们的方法在没有 UCF 101 或者 HMDB51 这样的外部数据的情况下,能在学习上有重大收获。为了证明它对人类姿势的敏感性,我们在 FLIC 和 MPII 数据集上展示了对人类姿势动作评估的结果,可与使用更具监督性的方法相抗衡或者有更好的结果。我们的方法也能与监督表征相结合,更大的提高准确率。

理论Facebook论文理论ECCV 2016ECCV
暂无评论
暂无评论~