自 CVPR 2018 公布接收论文以来,机器之心为大家介绍了多篇论文,而之后计划发布的这一篇竟然中了 CVPR 2018 的最佳论文(小编眼拙啊),所以提前推荐给了大家。
引言
目标识别、深度估计、边缘检测、姿态估计等都是研究界认为有用的和已解决的常见视觉任务的例子。其中一些任务之间有着明显的相关性:我们知道曲面法线和深度是相关的(其中一个是另外一个的导数),或者空间中的灭点(vanishing point)对于定位是有帮助的。其他任务相关性不太明显:关键点检测和空间中的阴影如何共同执行姿态估计。
计算机视觉领域发展至今,确实没有明确地使用这些相关关系。我们通过开发先进的学习器(如 ConvNets)已经取得了显著的进展,这些学习器能够在给定训练数据即多组满足 x ∈ X,y ∈ Y 的(x,y)时,找到从 X 到 Y 的复杂映射关系。这通常被称为是完全监督学习,并且常常可以独立地解决问题。主题分类任务使得训练新任务或综合感知系统成为一个西绪弗斯式的挑战,每项任务都需要单独从头开始学习。这样做,忽略了任务之间可量化的相关性,导致了对大量标记数据的需求。
另外,结合了任务之间相关性的模型只需要较少的监督,使用更少的计算并以更可预测的方式运行。结合这样的一种架构是开发可被证明有效的综合/通用感知模型 [34, 4] 的第一块垫脚石,也就是说,这种模型能够在对监督或计算的需求变得棘手之前解决大量任务。然而,这个任务空间的结构及其影响在很大程度上仍然是未知的。这些相关性是重要的,然而因为我们的学习模型和优化器还不完善,所以找到它们变得十分复杂。
在本文中,研究者试图揭示这个底层结构,并提出一个映射视觉任务空间的框架。这里所说的「结构」指的是一组通过计算发现的相关关系,其指定哪些任务向另一个任务提供有用的信息,以及提供多少信息(见图 1)。
为此,通过将神经网络作为计算函数类,研究者采用了一种完全计算的方法。在一个前馈网络中,每一层相继生成输入的更抽象表征,这些表征包含从输入到输出的映射所需的信息。然而,若假设任务以某种形式相互关联 [83, 19, 58, 46],则这些表征可以传输对解决其他输出(任务)有益的统计量。本文方法的基础:基于一项任务的解决方案是否可以足够轻易地从另一项任务训练的表征中读出,以计算任务之间的亲和矩阵。这样的迁移是完全抽样的,并且通过一个二进制整数规划范式从中提取一个全局有效的迁移策略。结果表明,相比于独立地学习任务,这个模型可以使用更少的数据来解决任务,同时最终得到的结构对常用数据集一样有效(ImageNet [78] 和 Places [104])。
本文提出的完全计算和基于表征的方法避免了在任务空间上施加先验(可能是错的)假设。这是至关重要的,因为有关任务之间相关性的先验通常源于人的直觉或分析性知识,然而神经网络并不需要遵循相同的原理运行 [63, 33, 40, 45, 102, 88]。比如,尽管我们可能预期深度可以更好的迁移到曲面法线(求导是容易的),但发现在一个计算框架中反向迁移更好(即更适合神经网络)。
论文:Taskonomy: Disentangling Task Transfer Learning(任务分类法:解构任务迁移学习)
论文地址:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
视觉任务之间是否相关?例如,能否使用曲面法线简化估计图像深度的过程?直觉上对这些问题的正面回答暗示着在各种视觉任务之间存在一种结构。了解这种结构具有巨大的价值;它是迁移学习背后的概念,且可为识别任务间的冗余提供了一种有理可依的方法,比如,为了在相关任务间无缝地重复使用监督或在一个系统中解决多个任务而不增加复杂度。
我们提出了一种完全计算的方法来建模视觉任务的空间结构,通过在一个位于隐空间内的 26 个二维、2.5 维、三维和语义任务中寻找(一阶或更高阶)迁移学习依赖关系来实现。其成品是用于任务迁移学习的计算分类图。我们研究了这个结构的成果,比如出现的非平凡相关关系,并利用它们减少对标注数据的需求。比如,我们展示了解决一组 10 个任务所需的标注数据点总数可以减少约 2/3(与独立训练相比),同时保持性能几乎一致。我们提供了一套计算和探测这种分类结构的工具,包括一个求解器,用户可以用它来为其用例设计有效的监督策略。