2019/12/19 11:21

NeurIPS 2019 | 显著提升图像语义分割性能，滴滴携手伯克利提出多源对抗域聚合网络

在深度学习的发展过程中，领域自适应和知识迁移受到越来越多研究者的关注。他们希望一个领域数据集中学习的知识可以迁移到新的领域中。针对这一目的，滴滴和加州大学伯克利分校的研究者提出一种新的多源领域自适应模型，该模型能够同时利用和学习多个不同源域的训练样本，进而显著提升了图像语义分割的性能。

随着深度学习的发展，研究者们希望深度学习模型不但可以从特定领域训练集中学习监督知识，更希望能够进行领域自适应（domain adaptation）和知识迁移技术（knowledge transfer techniques），将在一个领域数据集中学习的知识迁移到新的领域中。那么能否同时利用多个不同领域的训练样本，提高在新领域上的语义理解能力呢？

来自滴滴地图事业部和加州大学伯克利分校的研究员提出一种新的多源领域自适应模型，对多个不同源域的有标注合成数据和目标域的无标注真实数据进行联合学习，显著提高了图像语义分割的性能。据悉，这是多源领域自适应第一次应用在语义分割任务上。相关研究以「Multi-source Domain Adaptation for Semantic Segmentation」（基于多源领域自适应的语义分割）为题发表在神经计算和机器学习领域的顶级会议—第 33 届神经信息处理系统大会（NeurIPS 2019）上。

一、研究背景

语义分割为图像中的每个像素分配一个语义标签（如汽车、自行车、行人、道路），如图 1 所示。这个计算机视觉内核在许多应用中起着至关重要的作用，比如自动驾驶、机器人控制、医学成像和时尚推荐等。

图 1 语义分割任务示例。

1、研究动机

随着深度学习的出现，特别是卷积神经网络（convolutional neural networks, CNNs），人们提出了多种端到端的语义分割方法 [1]。虽然这些方法取得了良好的效果，但也存在一定的局限性。一方面，训练这些方法需要使用像素级标注的大规模数据，这是非常昂贵和耗时的。例如，在 Cityscapes 数据集中标注每幅图像大约需要 90 分钟。另一方面，由于存在领域偏移（domain shift）或数据集偏差（dataset bias），他们不能很好地将所学知识迁移到新的域或数据集。为了避免数据收集和标注的成本，图形学和仿真软件的发展使得研究者们可以使用 CARLA 和 GTA-V 等模拟器所生产的无限量合成标注数据。

为了减少不同领域之间的差距，研究者们提出了领域自适应（domain adaptation, DA）或知识迁移技术（knowledge transfer techniques），并进行了理论分析和算法设计。语义分割的领域自适应算法在自动驾驶等领域具有重要的作用。现有的工作主要关注于单个源域的场景，很难处理实际中具有不同分布的多个源域的情况。在这篇论文中，研究者们研究了基于多源领域自适应的语义分割。

2、现有领域自适应方法在图像分割上的挑战

除了传统的有标注源域上的任务损失外，深度无监督领域自适应（UDA）方法通常还会训练其他损失函数来处理领域偏移，如差异损失（discrepancy loss）[2]、对抗损失（adversarial loss）[3]、重构损失（reconstruction loss）[3] 等。目前语义分割任务上从合成数据到真实场景的领域自适应方法都集中在单数据源设置上，没有考虑从多个不同分布的数据源收集数据这一更实际的场景。简单地将不同的源组合成一个源并直接使用单一源 DA 不会有很好的效果，因为来自不同源域的图像在学习过程中可能会相互干扰。早期对多源 DA（multi-source DA, MDA）的研究使用了浅层模型。

近年来，人们提出了一些多源深度 UDA 方法，这些方法主要针对图像分类 [4]。由于以下原因，直接将这些 MDA 方法从分类扩展到分割可能不会有很好的效果。(1) 分割是一个结构化的预测任务，其决策函数比分类更复杂，因为它必须在指数大的标签空间中解析预测 [5]。(2) 目前的 MDA 方法主要关注特征级对齐，只对高层次的信息进行对齐。这对于粗粒度的分类任务来说可能足够了，但是对于细粒度的语义分割来说显然是不够的，因为分割是像素级的预测。(3) 这些 MDA 方法只将每个源域和目标域对齐。虽然不同的源域被匹配到目标域，但在不同的源域之间可能存在显著的不一致。

二、所提出的多源对抗域聚合网络算法

针对上述挑战，基于对抗生成式网络（GAN）[11] 和循环对抗生成式网络（CycleGAN）[6]，本文提出了一种新的端到端的多源对抗域聚合网络（Multi-source Adversarial Domain Aggregation Network, MADAN），框架如图 2 所示。MADAN 主要包括三个模块：（1）动态对抗图像生成模块（Dynamic Adversarial Image Generation），（2）对抗域聚合模块（Adversarial Domain Aggregation），（3）分割特征语义对齐模块（Feature Aligned Semantic Segmentation）。

图 2：MADAN 框架图。

首先，对于每个源域，文章使用循环对抗生成式网络（CycleGAN）[6] 生成一个动态保持语义并且具有像素级一致性的自适应域；其次，文章提出了子域聚合判别器（Sub-domain Aggregation Discriminator）和跨域循环判别器（Cross-domain Cycle Discriminator），以使不同的自适应域更紧密地聚合；最后，在训练分割网络的同时，对聚合域和目标域进行特征层面的对齐。

通过 MADAN，不同的适应域可以更好地聚合为一个更统一的域。基于聚合域对分割模型进行训练，能够更好地提升分割模型在目标域上的表现。从合成的 GTA[7] 和 SYNTHIA[8] 到真实的 Cityscapes[9] 和 BDDS[12] 数据集上的大量实验证明，文章所提出的 MADAN 模型比当前最先进的方法表现得更好。表 1 展示了 MADAN 和其他当前主流的领域自适应模型的比较。

表1：本文提出的 MADAN 和其他主流领域自适应方法的比较。

1、文章的主要贡献点

文章的贡献主要有三个方面：（1）提出了语义分割的多源领域自适应方法。这是第一个多源领域自适应在语义分割任务上的工作。（2）设计了一个新的框架 MADAN 来做多源领域自适应的语义分割。除了特征级（feature level）对齐外，还考虑了像素级（pixel level）对齐，即为每个源循环生成一个自适应域，这与动态语义一致性损失是一致的。提出了子域聚合判别器和跨域循环判别器，以更好地匹配不同的自适应域。（3）进行了大量的实验，从合成的 GTA [7] 和 SYNTHIA [8] 到真实的 Cityscapes [9] 和 BDDS 数据集 [12]，结果证明了文章所提出的 MADAN 模型的有效性。

2、动态对抗图像生成模块

DAIG 模块的主要作用在于使得来自不同源域的图像经过生成器转换为在视觉表示上具有目标域风格特征的图像。这在单源域自适应工作 CyCADA [10] 中被证明是有效的。为了在多源域状态下达到这个目标，对于每个源域 S_i, 使用生成器将源域的图像转换为具有目标域 T 风格的图像。这个生成器的作用是欺骗判别器D_T , 主要用于在像素级别的对抗训练，D_T 在对抗训练的过程中目标是正确区分转换后的图像与目标域的真实图像。

3、对抗式域聚合模块

可以分别在不同的自适应域上训练语义分割模型，然后将这些结果结合起来预测目标域图像的分割结果，或者是简单地将各个自适应域合并到一起，然后训练一个语义分割模型，从而对目标域进行预测。对于前者，如何在不同的源域上选择合适的权重是一个十分复杂的事情。对于后者，要对齐的图像分布在一个很高维度的空间，尽管自适应域和目标域进行了一定的对齐，但是不同的自适应域之间仍然没有对齐，这在训练的过程中会相互干扰，从而导致训练难以收敛且不能达到很好的效果。

为了解决这个问题，文章提出了对抗式域聚合的方式进行多源域数据集的训练。具体地，文章提出了两个判别器来使得不同自适应域之间相互对齐，即域的聚合。首先是子域聚合判别器（Sub-domain Aggregation Discriminator），直接判断来自不同自适应域的图像是否可分。另一个是跨域循环判别器（Cross-domain Cycle Discriminator），用以区分第个自适应域通过第生成的图像和源域S_i 的图像。

子域聚合判别器的损失函数如下：

跨域聚合判别器的损失函数如下：

4、特征对齐的语义分割模块

在经过了对抗式聚合模块之后，不同源域转换后的图像聚合到了一起，使得生成的图像在风格和高维空间的分布上都与目标域更加的一致。同时，动态语义一致性使得转换前后的图像在语义和像素级信息上均具有一致性。此外，文章引入了特征层面的判别器，这部分的损失函数如下：

三、实验结果

为了验证所提出的方法的有效性，文章进行了详细的对比实验结果和可视化结果展示。

1、对比实验结果

在域自适应实验中，文章使用了合成数据集 GTA[7] 以及 SYNTHIA[8] 作为源域，真实数据集 Cityscapes[9] 和 BDDS[12] 作为目标域。提出的 MADAN 模型以及当前主流的单源域、多源域自适应模型等的性能比较如表 2 和表 3 所示。

下表 2 展示了使用 GTA 和 Synthia 作为源域、Cityscapes 作为目标域的结果对比。

下表 3 展示了使用 GTA 和 Synthia 作为源域、BDDS 作为目标域的结果对比。

2、可视化结果

下图 3 定性展示了所提出的模型中不同模块所产生的语义分割结果。可以清楚地看到经过领域自适应的过程，分割结果有了较大的提升。

图 3：多源域自适应后的语义分割可视化结果的定性对比，从左到右分别为：（a）原图，（b）真实标注，（c）仅在 GTA 上训练，（d）使用 CycleGAN 在 Synthia 和 GTA 上训练，（e）+DSC 和 CCD 模块，（f）+DSC 和 SAD 模块，（g）+DSC+CCD+SAD，（h）+DSC+CCD+SAD+Feat（MADAN）

下图 4 中展示了 SYNTHIA 和 GTA 数据集使用所提出的 ADA 模块后生成的图像，其中（f）是所提出的最终的模型结果。可以看到，最终成功地将源域上的图像转换至目标域，其中风格、纹理、语义信息经过了自适应模块后，成功学习到了 Cityscapes 数据集的特征，在此同时源域图像的类别也得到了较好的保持（车和人经过转换仍然是车和人）。

图 4：从左到右分别是（a）原始源域图像，（b）CycleGAN，（c）CycleGAN + DSC，（d）CycleGAN + CCD + DSC，（e）CycleGAN + SAD + DSC，（f）CycleGAN + CCD + SAD + DSC，（g）Cityscapes 图像。上面两行是 GTA 到 Cityscapes 的转换，下面两行是 SYNTHIA 到 Cityscapes 的转换。

四、结论

本文研究了从合成数据到真实数据的多源领域自适应语义分割问题。提出了一种新的多源对抗域聚合网络（MADAN）。对于每个源域，文章生成了具有动态语义一致性的自适应图像。在此基础上，使用子域隔离判别器和跨域循环判别器，以更好地综合不同的源域的数据。在多个数据集的大量实验结果表明，文章所提出的 MADAN 模型具有较好的有效性。

了解更多技术细节，请查看论文Multi-source Domain Adaptation for Semantic Segmentation：https://arxiv.org/abs/1910.12181
论文代码已公布：https://github.com/Luodian/MADAN

参考文献：

[1] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition, pages 3431– 3440, 2015.

[2] Mingsheng Long, Yue Cao, Jianmin Wang, and Michael Jordan. Learning transferable features with deep adaptation networks. In International Conference on Machine Learning, pages 97–105, 2015.

[3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680, 2014.

[4] Muhammad Ghifary, W Bastiaan Kleijn, Mengjie Zhang, and David Balduzzi. Domain general- ization for object recognition with multi-task autoencoders. In IEEE International Conference on Computer Vision, pages 2551–2559, 2015.

[5] Yang Zhang, Philip David, and Boqing Gong. Curriculum domain adaptation for semantic segmentation of urban scenes. In IEEE International Conference on Computer Vision, pages 2020–2030, 2017.

[6] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In IEEE International Conference on Computer Vision, pages 2223–2232, 2017.

[7] Stephan R Richter, Vibhav Vineet, Stefan Roth, and Vladlen Koltun. Playing for data: Ground truth from computer games. In European Conference on Computer Vision, pages 102–118, 2016.

[8] German Ros, Laura Sellart, Joanna Materzynska, David Vazquez, and Antonio M Lopez. The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In IEEE Conference on Computer Vision and Pattern Recognition, pages 3234–3243, 2016.

[9] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In IEEE Conference on Computer Vision and Pattern Recognition, pages 3213–3223, 2016.

[10] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A Efros, and Trevor Darrell. Cycada: Cycle-consistent adversarial domain adaptation. In Interna- tional Conference on Machine Learning, pages 1994–2003, 2018.

[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, SherjilOzair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680, 2014.

[12] Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan, and Trevor Darrell. Bdd100k: A diverse driving video database with scalable annotation tooling. arXiv:1805.04687, 2018.

入门滴滴加州伯克利大学NeurIPS 2019语义分割