PaperWeekly原创

2020/12/14 10:43

皓波作者

最新综述：多标签学习的新趋势

这里给大家带来一篇武大刘威威老师、南理工沈肖波老师和 UTS Ivor W. Tsang 老师合作的 2020 年多标签最新的 Survey，我也有幸参与其中，负责了一部分工作。

论文链接：

https://arxiv.org/abs/2011.11197

上半年在知乎上看到有朋友咨询多标签学习是否有新的 Survey，我搜索了一下，发现现有的多标签 Survey 基本在 2014 年之前，主要有以下几篇：

1. Tsoumakas 的《Multi-label classification: An overview》(2007)

2. 周志华老师的《A review on multi-label learning algorithms》(2013)

3. 一篇比较小众的，Gibaja 《Multi‐label learning: a review of the state of the art and ongoing research》2014

时过境迁，从 2012 年起，AI 领域已经发生了翻天覆地的变化，Deep Learning 已经占据绝对的主导地位，我们面对的问题越来越复杂，CV 和 NLP 朝着各自的方向前行。模型越来越强，我们面对的任务的也越来越复杂，其中，我们越来越多地需要考虑高度结构化的输出空间。多标签学习，作为一个传统的机器学习任务，近年来也拥抱变化，有了新的研究趋势。因此，我们整理了近年多标签学习在各大会议的工作，希望能够为研究者们提供更具前瞻性的思考。

关于单标签学习和多标签学习的区别，这里简单给个例子：传统的图片单标签分类考虑识别一张图片里的一个物体，例如 ImageNet、CIFAR10 等都是如此，但其实图片里往往不会只有一个物体，大家随手往自己的桌面拍一张照片，就会有多个物体，比如手机、电脑、笔、书籍等等。在这样的情况下，单标签学习的方法并不适用，因为输出的标签可能是结构化的、具有相关性的（比如键盘和鼠标经常同时出现），所以我们需要探索更强的多标签学习算法来提升学习性能。

本文的主要内容有六大部分：

Extreme Multi-Label Classification
Multi-Label with Limited Supervision
Deep Multi-Label Classification
Online Multi-Label Classification
Statistical Multi-Label Learning
New Applications

接下去我们对这些部分进行简单的介绍，更多细节大家也可以进一步阅读 Survey 原文。另外，由于现在的论文迭代很快，我们无法完全 Cover 到每篇工作。我们的主旨是尽量保证收集的工作来自近年已发表和录用的、高质量的期刊或会议，保证对当前工作的整体趋势进行把握。如果读者有任何想法和意见的话，也欢迎私信进行交流。

1. Extreme Multi-Label Learning (XML)

在文本分类，推荐系统，Wikipedia，Amazon 关键词匹配 [1] 等等应用中，我们通常需要从非常巨大的标签空间中召回标签。比如，很多人会 po 自己的自拍到 FB、Ins 上，我们可能希望由此训练一个分类器，自动识别谁出现在了某张图片中。

对 XML 来说，首要的问题就是标签空间、特征空间都可能非常巨大，例如 Manik Varma 大佬的主页中给出的一些数据集 [2]，标签空间的维度甚至远高于特征维度。其次，由于如此巨大的标签空间，可能存在较多的 Missing Label（下文会进一步阐述）。最后，标签存在长尾分布 [3]，绝大部分标签仅仅有少量样本关联。

现有的 XML 方法大致可以分为三类，分别为：Embedding Methods、Tree-Based Methods、One-vs-All Methods。近年来，也有很多文献使用了深度学习技术解决 XML 问题，不过我们将会在 Section 4 再进行阐述。XML 的研究热潮大概从 2014 年开始，Varma 大佬搭建了 XML 的 Repository 后，已经有越来越多的研究者开始关注，多年来 XML 相关的文章理论和实验结果并重，值得更多的关注。

2. Multi-Label with Limited Supervision

相比于传统学习问题，对多标签数据的标注十分困难，更大的标签空间带来的是更高的标注成本。随着我们面对的问题越来越复杂，样本维度、数据量、标签维度都会影响标注的成本。因此，近年多标签的另一个趋势是开始关注如何在有限的监督下构建更好的学习模型。本文将这些相关的领域主要分为三类：

MLC with Missing Labels（MLML）：多标签问题中，标签很可能是缺失的。例如，对 XML 问题来说，标注者根本不可能遍历所有的标签，因此标注者通常只会给出一个子集，而不是给出所有的监督信息。文献中解决该问题的技术主要有基于图的方法、基于标签空间（或 Latent 标签空间）Low-Rank 的方法、基于概率图模型的方法。

Semi-Supervised MLC：MLML 考虑的是标签维度的难度，但是我们知道从深度学习需要更多的数据，在样本量上，多标签学习有着和传统 AI 相同的困难。半监督 MLC 的研究开展较早，主要技术和 MLML 也相对接近，在这一节，我们首先简要回顾了近年半监督 MLC 的一些最新工作。

但是，近年来，半监督 MLC 开始有了新的挑战，不少文章开始结合半监督 MLC 和 MLML 问题。毕竟对于多标签数据量来说，即使标注少量的 Full Supervised 数据，也是不可接受的。因此，许多文章开始研究一类弱监督多标签问题 [4]（Weakly-Supervised MLC，狭义），也就是数据集中可能混杂 Full labeled/missing labels/unlabeled data。我们也在文中重点介绍了现有的一些 WS-MLC 的工作。

Partial Multi-Label Learning (PML)：PML 是近年来多标签最新的方向，它考虑的是一类 “难以标注的问题”。比如，在我们标注下方的图片（Zhang et. al. 2020[5]）的时候，诸如 Tree、Lavender 这些标签相对是比较简单的。但是有些标签到底有没有，是比较难以确定的，对于某些标注者，可能出现：“这张图片看起来是在法国拍的，好像也可能是意大利？”。这种情况称之为 Ambiguous。究其原因，一是有些物体确实难以辨识，第二可能是标注者不够专业（这种多标签的情况，标注者不太熟悉一些事物也很正常）。

但是，很多情况下，标注者是大概能够猜到正确标签的范围，比如这张风景图所在国家，很可能就是 France 或者 Italy 中的一个。我们在不确定的情况下，可以选择不标注、或者随机标注。但是不标注意味着我们丢失了所有信息，随机标注意味着可能带来噪声，对学习的影响更大。所以 PML 选择的是让标注者提供所有可能的标签，当然加了一个较强的假设：所有的标签都应该被包含在候选标签集中。

在 Survey 中，我们将现有的 PML 方法划分为 Two-Stage Disambiguation 和 End-to-End 方法（我们 IJCAI 2019 的论文 DRAMA[6] 中，就使用了前者）。关于 PML 的更多探讨，我在之前的知乎回答里面也已经叙述过，大家也可以在我们的 Survey 中了解更多。

Other Settings：前文说过，多标签学习的标签空间纷繁复杂，因此很多研究者提出了各种各样不同的学习问题，我们也简单摘要了一些较为前沿的方向：

MLC with Noisy Labels (Noisy-MLC).
MLC with Unseen Labels. (Streaming Labels/Zero-Shot/Few-Shot Labels)
Multi-Label Active Learning (MLAL).
MLC with Multiple Instances (MIML).

3. Deep Learning for MLC

相信这一部分是大家比较关心的内容，随着深度学习在越来越多的任务上展现了自己的统治力，多标签学习当然也不能放过这块香饽饽。不过，总体来说，多标签深度学习的模型还没有十分统一的框架，当前对 Deep MLC 的探索主要分为以下一些类别：

Deep Embedding Methods：早期的 Embedding 方法通常使用线性投影，将 PCA、Compressed Sensing 等方法引入多标签学习问题。一个很自然的问题是，线性投影真的能够很好地挖掘标签之间的相关关系吗？同时，在 SLEEC[3]的工作中也发现某些数据集并不符合 Low-Rank 假设。因此，在 2017 年的工作 C2AE [7] 中，Yeh 等将 Auto-Encoder 引入了多标签学习中。由于其简单易懂的架构，很快有许多工作 Follow 了该方法，如 DBPC [8] 等。

Deep Learning for Challenging MLC：深度神经网络强大的拟合能力使我们能够有效地处理更多更困难的工作。因此我们发现近年的趋势是在 CV、NLP 和 ML 几大 Community，基本都会有不同的关注点，引入 DNN 解决 MLC 的问题，并根据各自的问题发展出自己的一条线。

1. XML 的应用：对这个方面的关注主要来自与数据挖掘和 NLP 领域，其中比较值得一提的是 Attention（如 AttentionXML[9]）机制、Transformer-Based Models（如 X-Transformer[10]）成为了最前沿的工作。

2. 弱监督 MLC 的应用：这一部分和我们弱监督学习的部分相对交叉，特别的，CVPR 2019 的工作 [11] 探索了多种策略，在 Missing Labels 下训练卷积神经网络。

3. DL for MLC with unseen labels：这一领域的发展令人兴奋，今年 ICML 的工作 DSLL[12]探索了流标签学习，也有许多工作 [13] 将 Zero-Shot Learning 的架构引入 MLC。

Advanced Deep Learning for MLC：有几个方向的工作同样值得一提。首先是 CNN-RNN[14]架构的工作，近年有一个趋势是探索 Orderfree 的解码器 [15]。除此之外，爆火的图神经网络 GNN 同样被引入 MLC，ML-GCN[16] 也是备受关注。特别的，SSGRL[17]是我比较喜欢的一篇工作，结合了 Attention 机制和 GNN，motivation 比较强，效果也很不错。

总结一下，现在的 Deep MLC 呈现不同领域关注点和解决的问题不同的趋势：

从架构上看，基于 Embedding、CNN-RNN、CNN-GNN 的三种架构受到较多的关注。
从任务上，在 XML、弱监督、零样本的问题上，DNN 大展拳脚。
从技术上，Attention、Transformer、GNN 在 MLC 上的应用可能会越来越多。

4. Online Multi-Label Learning

面对当前这么复杂而众多的学习问题，传统的全数据学习的方式已经很难满足我们现实应用的需求了。因此，我们认为 Online Multi-Label Learning 可能是一个十分重要，也更艰巨的问题。当前 Off-line 的 MLC 模型一般假设所有数据都能够提前获得，然而在很多应用中，或者对大规模的数据，很难直接进行全量数据的使用。一个朴素的想法自然是使用 Online 模型，也就是训练数据序列地到达，并且仅出现一次。

然而，面对这样的数据，如何有效地挖掘多标签相关性呢？本篇 Survey 介绍了一些已有的在线多标签学习的方法，如 OUC[18]、CS-DPP[19]等。在弱监督学习的部分，我们也回顾了近年一些在线弱监督多标签的文章[20]（在线弱监督学习一直是一个很困难的问题）。Online MLC 的工作不多，但是已经受到了越来越多的关注，想要设计高效的学习算法并不简单，希望未来能够有更多研究者对这个问题进行探索。

5. Statistical Multi-Label Learning

近年，尽管深度学习更强势，但传统的机器学习理论也在稳步发展，然而，多标签学习的许多统计性质并没有得到很好的理解。近年 NIPS、ICML 的许多文章都有探索多标签的相关性质。一些值得一提的工作例如，缺失标签下的低秩分类器的泛化误差分析 [21]、多标签代理损失的相合性质[22]、稀疏多标签学习的 Oracle 性质[23] 等等。相信在未来，会有更多工作探索多标签学习的理论性质。

6. New Applications

讲了这么多方法论，但追溯其本源，这么多纷繁复杂的问题依然是由任务驱动的，正是有许许多多现实世界的应用，要求我们设计不同的模型来解决尺度更大、监督更弱、效果更强、速度更快、理论性质更强的 MLC 模型。因此，在文章的最后一部分，我们介绍了近年多标签领域一些最新的应用，如 Video Annotation、Green Computing and 5G Applications、User Profiling 等。在 CV 方向，一个趋势是大家开始探索多标签领域在视频中的应用 [24]。在 DM 领域，用户画像受到更多关注，在我们今年的工作 CMLP[25] 中（下图），就探索了对刷单用户进行多种刷单行为的分析。不过，在 NLP 领域，似乎大家还是主要以文本分类为主，XML-Repo[2]中的应用还有较多探索的空间，所以我们没有花额外的笔墨。

总结

写这篇文章的过程中，我跟着几位老师阅读了很多文章，各个领域和方向的工作都整理了不少，尽管无法 cover 到所有工作，但是我们尽可能地把握了一些较为重要的探索的方向，也在文中较为谨慎地给出了一些我们的思考和建议，希望能够给想要了解多标签学习领域的研究者一点引领和思考。

参考

Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.
http://manikvarma.org/downloads/XC/XMLRepository.html
Bhatia K, Jain H, Kar P, et al. Sparse local embeddings for extreme multi-label classification[C]//Advances in neural information processing systems. 2015: 730-738.
Chu H M, Yeh C K, Frank Wang Y C. Deep generative models for weakly-supervised multi-label classification[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 400-415.
Zhang M L, Fang J P. Partial multi-label learning via credible label elicitation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
Wang H, Liu W, Zhao Y, et al. Discriminative and Correlative Partial Multi-Label Learning[C]//IJCAI. 2019: 3691-3697.
C. Yeh, W. Wu, W. Ko, and Y. F. Wang, “Learning deep latent space for multi-label classification,” in AAAI, 2017, pp. 2838–2844.
X. Shen, W. Liu, Y. Luo, Y. Ong, and I. W. Tsang, “Deep discrete prototype multilabel learning,” in IJCAI, 2018, pp. 2675–2681.
You R, Zhang Z, Wang Z, et al. Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification[C]//Advances in Neural Information Processing Systems. 2019: 5820-5830.
Chang W C, Yu H F, Zhong K, et al. Taming Pretrained Transformers for Extreme Multi-label Text Classification[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 3163-3171.
Durand T, Mehrasa N, Mori G. Learning a deep convnet for multi-label classification with partial labels[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 647-657.
Z. Wang, L. Liu, and D. Tao, “Deep streaming label learning,” in ICML, 2020.
C. Lee, W. Fang, C. Yeh, and Y. F. Wang, “Multi-label zero-shot learning with structured knowledge graphs,” in CVPR, 2018, pp. 1576–1585.
Wang J, Yang Y, Mao J, et al. Cnn-rnn: A unified framework for multi-label image classification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2285-2294.
Yazici V O, Gonzalez-Garcia A, Ramisa A, et al. Orderless Recurrent Models for Multi-label Classification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13440-13449.
Chen Z M, Wei X S, Wang P, et al. Multi-label image recognition with graph convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5177-5186.
T. Chen, M. Xu, X. Hui, H. Wu, and L. Lin, “Learning semanticspecific graph representation for multi-label image recognition,” in ICCV, 2019, pp. 522–531.
M. J. Er, R. Venkatesan, and N. Wang, “An online universal classifier for binary, multi-class and multi-label classification,” in IEEE International Conference on Systems, Man, and Cybernetics, 2016, pp. 3701–3706.
H. Chu, K. Huang, and H. Lin, “Dynamic principal projection for cost-sensitive online multi-label classification,” Machine Learning, vol. 108, no. 8-9, pp. 1193–1230, 2019.
S. Boulbazine, G. Cabanes, B. Matei, and Y. Bennani, “Online semi-supervised growing neural gas for multi-label data classification,” in IJCNN, 2018, pp. 1–8.
H. Yu, P. Jain, P. Kar, and I. S. Dhillon, “Large-scale multilabel learning with missing labels,” in Proceedings of the 31th International Conference on Machine Learning, ICML 2014, Beijing, China, 21-26 June 2014, 2014, pp. 593–601.
W. Gao and Z. Zhou, “On the consistency of multi-label learning,” Artificial Intelligence, vol. 199-200, pp. 22–44, 2013.
W. Liu and X. Shen, “Sparse extreme multi-label learning with oracle property,” in ICML, 2019, pp. 4032–4041.
X. Zhang, H. Shi, C. Li, and P. Li, “Multi-instance multi-label action recognition and localization based on spatio-temporal pretrimming for untrimmed videos,” in AAAI. AAAI Press, 2020, pp. 12 886–12 893.
H. Wang, Z. Li, J. Huang, P. Hui, W. Liu, T. Hu, and G. Chen, “Collaboration based multi-label propagation for fraud detection,” in IJCAI, 2020.

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论多标签学习

相关技术

静止机器人

周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘等领域的研究工作。主持多项科研课题，出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012)，在一流国际期刊和顶级国际会议发表论文百余篇，被引用三万余次。

来源：个人页面 Zhou, Z.

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

概率图模型技术

在概率论和统计学中，概率图模型（probabilistic graphical model，PGM），简称图模型（graphical model，GM），是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型

来源：nndl.github.io

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

5G技术

第五代移动通信系统（5th generation mobile networks），简称5G，是4G系统后的延伸。美国时间2018年6月13日，圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制，5G 的网络也将会与其他通信技术并用，包含长距离的其他传统电信波段。

用户画像技术

用户画像（persona）的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表，是建立在一系列属性数据之上的目标用户模型。

来源：jiqizhixin