2018/12/13 18:50

武广作者合肥工业大学硕士生学校图像生成研究方向

NeurIPS 2018 | 基于自监督学习的视听觉信息同一性判断

视觉和听觉存在着紧密的关联，同时空下视觉和听觉不仅在语义上存在着一致性，在时序上也是对齐的。失聪患者可以利用视觉信息做出判断，盲人也可以利用听觉信息做出判断，而一般正常人对事物的决策往往是结合视觉和听觉协同完成的。

达特茅斯学院和 Facebook 联合发表于 NeurIPS 2018 的这篇文章正是通过对视觉和听觉信息做同一性判断，在整体上优化视觉特征和听觉特征提取网络，在独立模态下也提高了各自的任务准确率。不同于我们之前说的 Look, Listen and Learn [1]，这篇论文不仅仅在语义上判断视觉和听觉的一致性，还在时序上做了严格对齐判断。

论文引入

日常休闲娱乐很多人喜欢看电影，有时看电影的过程中会出现画面和音频对不上的情况，这会大大降低观影体验。为什么我们会察觉到画面和音频对不上呢？

这就是人类潜意识里已经建立了视觉和听觉上对应的关系，一旦客观现象中视觉和听觉信息对应不上，我们立马就会发现哪里出现了问题。人类不仅仅可以察觉画面和音频对应不上，结合已有的知识甚至可以推断是画面延迟了还是音频延迟了。

目前机器学习大部分还是停留在单一模态下信息的分析和学习，比如计算机视觉是一个大的研究方向，音频分析和处理又是一个方向。然而，机器如果想更进一步的智能化，必须要像人类一样，利用多模态去分析和学习，结合不同模态下的信息和联系做出判断和决策。

已经有越来越多的研究者关注到了多模态信息的学习，跨模态检索、迁移学习、多模态信息联合决策、跨模态转换等。视觉和听觉这两个模态，本身就是严格关联的，只要物体运动了，视觉上的变化势必会带来听觉上声音的产生，如何结合视觉和听觉信息去提高视觉任务和听觉任务的处理，正是我们今天要看的这篇论文的核心。

如何去结合视觉和听觉信息呢？论文采用的方式是“视听觉时间同步”英文缩写为 AVTS (Audio-Visual Temporal Synchronization)，就是在语义和时序上对视觉和听觉信息做对齐判断，如果视觉信息和听觉信息不仅在语义上是关联的（视频和声音是可以对上的）而且在时序上也是对齐的（视频和声音不存在延迟，是对齐关系的）就判断为同步信息，否则认为是非同步。优化决策结果，则会提高视觉和听觉特征提取网络，特征提取好了自然在独立的任务上可以取得改善。

笔者在之前的论文解读中对 Look, Listen and Learn 一文简称为做过分析 [2]，也是对视觉和听觉信息做关联性判断，但是判断视觉和听觉关联上仅仅是通过语义上是否关联判断的，而论文 AVTS 则是在此基础上考虑到视频的时序信息，进一步严格了视觉和听觉的同步性判断。

利用视频和音频之间的相关性作为特征学习的方法，在训练过程中是不引入人为标签的，拿来视频和音频只需要知道是否是同步的不需要任何其它的标签就可以优化整体网络，这种方式符合自监督学习方法，所以论文的标题特意强调文章是在自监督下完成同步性判断的。

这对于处理视频这样的大数据集是可观的，一旦利用 AVTS 自监督方式预训练好特征提取网络可以在微调阶段发挥出更好的效果的同时，不引入额外的标注开销。

总结一下 AVTS 的优势：

视觉听觉在语义和时序同步性判断；
视听觉相关性判断，实现了自监督学习特征提取；
预训练 AVTS 模型在视觉信息和听觉信息独立任务上取得了提高。

AVTS模型

VTS 模型是对视觉信息和听觉信息在语义和时序上同步性的判断，判断结果是二分类问题，要么同步要么不同步，我们先看一下模型框架：

由上图 (a) 所示，AVTS 模型采取的是双流结构，一路是视频特征提取网络，一路是音频特征提取网络，对提取得到的特征利用对比度损失进行优化。

整体上看 AVTS 还是很容易理解的，我们要强调一下具体的实现。

我们先从模型优化的训练集说起。整体训练集定义为由 N 个标记的音频视频对组成。其中 a(n) 表示音频第 n 个样本，v(n) 表示视频第 n 个样本（视频由连续帧组成），标签 y(n)∈{0,1} 表示视频和音频是否同步，0 为不同步，1 为同步。

训练集选择同一视频下时序对应的视频和音频为同步的正例，对于负例，定义不同视频下视频和音频为简单负例，同一视频下时序不同步的为硬（“hard”）负例，硬负例下时序相差太远的定义为超硬负例，我们由下图可以进一步理解正负例定义原则。

优化 AVTS 模型中，论文作者一开始直接采用交叉熵损失进行优化，发现从头开始学习时很难在这种损失下实现模态间的融合，通过最小化对比度损失可以获得更一致和稳健的优化，在正对上产生小距离，在负对上产生更大距离：

其中为视频提取的特征表示，为音频提取的特征表示，对于标签 y(n)=1 时，此时最小化对比度损失E时需要与尽可能相近，也就是希望同步的视频特征和音频特征尽量相近。

对于非同步的视频-音频对，即 y(n)=0 时，对应到公式的后一项，只有当与距离越远的时候，才会比 0 要小，此时 max 达到最佳值 0，其中 η 为边际超参数。

对于视频特征提取网络 (b)，文章采用 2D 和 3D 卷积网络结合实现，我们简单分析一下 3D 卷积网络，对于 (b) 图中对应的是前 2 个卷积块，后 3 个卷积块为 2D 卷积网络，最后一层为全连接层。

3D 卷积网络下视频输入是包含帧的，这里输入的视频帧为 3，长宽为 7 × 7，通道数为 3，batchsize 为 64。论文解释为在特征提取的后半部分将不再依靠时间轴，这时候可以直接利用 2D 卷积网络，论文称这种方法为混合卷积架构（MC），实验也验证了混合架构性能要好些。

对于音频信息，先要对音频信息提取对应的声谱图然后再对其利用2D卷积网络做特征提取，网络结构为 (c) 图展示。

课程方式训练

论文在训练模型的时候发现，如果一开始对负例的选择上简单负例和硬负例按 3:1 训练时，训练效果很一般。论文认为一开始让模型去区分硬负例有些太难了，文章采用循序渐进增进难度的方式。

论文实验发现在前 50 个 epoch 下负例只选择简单负例，在 51-90 epoch 下简单负例和硬负例按 3:1 训练时，模型效果最佳。这个也符合人类的学习方式，一上来就做难题不仅打击自信，基础也不能打扎实，只有掌握了充分的基础知识后，再做些难题才能锦上添花。

论文对比了设置课程的效果：

实验

训练上边际超参 η 为 0.99，训练在四块 GPU 机器上完成，每个 GPU 有一个小批量的 16 个样本。每次损失值在超过 5 个时期内没有减少时，学习率将缩放 0.1。

在验证视觉信号和听觉信号同步性问题，论文做了与的对比：

在评估视觉特征性能时，正如预期的那样，使用动作类标签对 Kinetics 数据集进行预训练可以提高 UCF101 和 HDMB51 的准确度。但是，这会占用 500K 视频剪辑上手动标记的巨大成本。相反，AVTS 预训练是自监督的，因此它可以应用于更大的数据集而无需额外的人工成本。

在评估听觉特征性能时，直接在音频特征提取的 conv_5 AVTS 功能上训练多类一对一线性 SVM，以对音频事件进行分类。通过对样本中的分数求平均来计算每个音频样本的分类分数，然后预测具有较高分数的类。

可以看到，AVTS 在音频分类任务上取得了比人工稍好的效果。更多实验，可以进一步阅读原文。

总结

视听觉时间同步（AVTS）的自监督机制可用于学习音频和视觉领域的模型，通过视觉和听觉上的相关性实现视觉和听觉上性能的提高，视觉和听觉上的关联，对于视觉下运动分析可以很好的结合听觉上的特征信息进一步提高判别和识别的准确。可以想象。视听觉结合对于提高分类和识别任务上还有进一步提升空间。

参考文献

[1] Relja Arandjelović and Andrew Zisserman. ook, Listen and Learn. In ICCV 2017.

[2] www.paperweekly.site/papers/notes/594

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论计算机视觉NIPS 2018论文

相关数据

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.