2019/12/18 18:11

曾文军作者

多模态学习研讨会：预训练是AI未来所需要的全部吗？

编者按：文字、图片、语音、视频……我们的日常生活充满了不同模态的数据，涉及不同模态数据交互的任务也越发普遍。最近，微软亚洲研究院举办了一场多模态表征学习与应用研讨会，与来自亚太高校的多位学者深度探讨了多模态学习的现状与未来趋势。

今天，我们生活在一个由大量不同模态内容（文本、图像、视频、音频、传感器数据、3D 等）构建而成的多媒体世界中，这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多，涉及多个模态的数据的交互，例如图像和视频的检索，字幕，视频摘要，文本到图像和视频的预测与合成，语言驱动的时空动作定位，以及视觉常识推理等等。

因此，跨模态学习日益引起了学术界和工业界的关注。跨模态学习进行联合特征学习和跨模态关系建模，旨在有效地利用不同模态内容的相关性进行系统性能优化。对多模态内容的深入理解主要依赖于特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术。

近日，微软亚洲研究院举行多模态表征学习与应用研讨会，与来自首尔国立大学、台湾大学、清华大学和中科院的学者们深度探讨了多模态表征学习在多媒体应用服务方面的最新研究进展和未来发展趋势，以推动整个领域向更好的方向发展。

多模态表征学习与应用研讨会

预训练的崛起

多模态学习在多媒体领域并不新鲜。早在20世纪90年代中期，多媒体领域开始“起飞”之时，人们就开始研究多模态学习的问题。那么，为什么它最近再次成为研究热点呢？

通常，技术的崛起很大程度上取决于底层技术的发展和突破。多模态学习对于实际系统的性能优化至关重要，同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中，以便进行对齐、比较和融合。在早期，人们使用手工方法，根据先验知识和常识寻找一个良好的嵌入空间，但如何找到最佳嵌入空间是一个极其困难的问题。而现在，借助深度学习技术已经能够轻松寻找良好的嵌入空间，但是目前大多数深度学习方法依赖于大量有标注的数据，要想获得更好的性能，就必须拥有更多的有标注数据，这成为了一个主要瓶颈。在实践中，对大量数据进行标注并使训练收敛到最佳位置，其困难程度丝毫不亚于手工制作一个良好的嵌入空间。对于多模态学习更是如此，因为它需要同步标注对齐的多模态数据，例如图像和语音对齐。

2018 年，用于自然语言表示建模的 BERT 技术（即由变型器组成的双向编码器表示技术） [1] 的出现，为深度学习摆脱对有标注数据的依赖提供了一种新选择。理论上，基于 BERT 技术可以利用无限量的未标注数据作预训练，然后再利用针对特定任务的少量有标注数据进行微调，进而实现对不同任务（如问题解答和语言推理）的优化。此后，类似 BERT 的无监督预训练技术在许多自然语言处理任务中取得了突破性进展。

事实上，预训练技术在计算机视觉任务的有监督学习中早已得到广泛应用。例如，把为 ImageNet 分类任务预先训练的网络作为初始状态来训练其他视觉任务（如目标检测和语义分割）是非常流行的做法，并可以显著提高性能。当预训练技术在 BERT 中应用时发挥出了极高的应用效能，因为它可以借助无限量的无标注数据，以无监督的方式预训练好各种功能。这从根本上解决了大数据问题。

提供大量有标记多模态数据一直是解决多模态学习问题（如理解、转换和生成）的一个重大挑战，类似 BERT 的无监督预训练技术很好的解决了这一难题，并且可以显著提高系统整体性能。例如，在本次研讨会上，微软亚洲研究院的研究人员展示了在视觉语言任务中的通用表示预训练 [2]、具有视觉内容的多模态自然语言处理 [3]，以及视频语言跨模态任务的预训练 [4] 等方面所取得的重大进展。其中，部分技术成果已经转化到微软核心产品中，取得了良好的应用效果。

然而，挑战依然存在。掌握大量匹配的多模态数据仍然是少数大公司的一项特权，不同模态之间的精细对齐问题，以及多模态预训练的有效架构，这些问题依然具有挑战性。例如，我们是否应该对多模态模型进行联合预训练？亦或是应该先对各个模态分别进行预训练，然后再找到融合的方法？对于大多数研究机构而言，计算和存储能力是有效开展预训练主要瓶颈。正如此次研讨会所展示的，大多数预训练相关工作是由来自谷歌、微软和 Facebook 等少数行业巨头的研究人员完成的。学术界很难具备预训练所需的计算和存储能力。于是，他们更注重通过结合更多的模态，有效和高效的网络架构设计，以及有效利用人类知识来提高系统性能。也有研究人员开始尝试通过更好的架构和更小的模型实现更快的预训练，从而降低对计算和存储能力的需求。

预训练是 AI 未来所需要的全部吗？

本次研讨会也对这个问题进行了深入的讨论。计算和存储能力的挑战是一个普遍存在的问题，即使对于业界公司来说，足够的计算和存储资源也是重大瓶颈。

我们一致认为，预训练将是未来 AI 的非常重要的组成部分，但我们需要的不止这些。人类丰富的先验知识需要有效地集成到系统中，以减少我们对大数据、模型和计算的依赖。此外，学术界与工业界可以密切合作，充分发挥双方的优势。例如，高校开设了许多学科，因此在跨学科研究方面具有天然优势，而工业界在数据收集和计算资源方面实力雄厚。如果有更多的开源项目，让更多的人能够参与到相关研究中并做出贡献，必将有力推动技术快速向前发展。

另外，应该重视 AI 系统的可解释性。无监督的预训练在很大程度上是由数据驱动，这意味着它存在黑箱算法的局限性，如果不了解黑匣子里发生了什么，那么将来研究人员和实践者有可能构建出不能明确解释的系统，这显然存在较高的风险且令人担忧。

本文融入了多模态表示学习与应用研讨会中诸位专家表达的观点。感谢参加此次研讨会的各位来宾和主讲嘉宾曹越研究员、陈熙霖教授、段楠研究员、徐宏民教授、纪蕾研究员、Gunhee Kim教授、鲁继文教授和罗翀研究员，感谢他们为推动这个领域向前发展所作的贡献和巨大努力。

参考文献：

[1] Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long and Short Papers), 4171–4186.

[2] Su, W.; Zhu X.; Cao, Y.; Li, B.; Lu, L.; Wei, F.; Dai, J. 2019. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. arXiv:1908.08530 [cs.CV].

[3] Li, G.; Duan,N.; Fang, Y.; Jiang, D., Zhou, M. 2019. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training. To appear in AAAI 2020. arXiv:1908.06066 [cs.CV].

[4] Shi, B.; Ji, L.; Liang, Y.; Niu, Z.; Duan, N.; Zhou, M. 2019. Dense Procedure Captioning in Narrated Instructional Videos. ACL, 2019.

微软研究院AI头条

专注科研19年，盛产黑科技

产业多模态学习预训练

相关技术

区块链技术云计算机器学习

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如，图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机（deep boltzmann machines）.另外一个隐藏层被放置在两个玻尔兹曼机上层，以给出联合表示。

来源：Wikipedia

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

语义分割技术

语义分割,简单来说就是给定一张图片，对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。

来源：CSDN博客

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心

常识推理技术

常识推理是人工智能（AI）的一个分支，它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性，目的，意图和行为的判断，以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学（人类对人们的行为和意图进行推理的天生能力）和天真物理学（人类对物理世界的自然理解）的结论。

来源：维基百科