机器之心翻译

2018/07/07 16:01

乾树晓坤参与

优于VAE，为万能近似器高斯混合模型加入Wasserstein距离

近日，来自伦敦大学学院和阿兰·图灵学院等机构的研究者提出了一种新型的生成模型算法。他们利用离散和连续的隐变量提高生成模型的能力，并且表明在特定情况下使用最优传输（OT）训练生成模型可以比传统 VAE 方法更有效。

1 引言

使用生成式隐变量模型的无监督学习提供了一种强大且通用的方法来从大型无标签数据集中学习潜在的低维结构。通常训练该模型的两种最常见的技术是变分自编码器（VAE）[17,25] 和生成对抗网络（GAN）[8]。两者各有优缺点。

VAE 提供了使在训练中以及将数据编码到隐空间的分布过程中都稳定的对数似然的有意义下界。然而，由于 VAE 的结构并没有明确学习产生真实样本的目标，它们只是希望生成和真实样本最接近的数据，因此这样就会产生模糊的样本。

另一方面，GAN 很自然地使用了具有明确定义的样本的确定性生成模型，但是训练过程的稳定性差很多 [1]。

基于最小化生成模型分布和数据分布之间的最佳传输（OT）距离 [29]，人们开发了一种相对较新的生成模型训练方法。OT 法为训练生成模型提供了一个通用框架，它在某些最优的 GAN 和 VAE 中效果不错。尽管 [2,26,27] 给出了第一个有趣的结果，但用于生成建模的 OT 法仍然处于初级阶段。

我们的贡献有两方面：我们寻求利用离散和连续的隐变量提高生成模型的能力，并且表明在特定情况下使用 OT 训练生成模型可以比传统 VAE 方法更有效。

因为离散性在自然界以及离散数据组成的数据集中无处不在，所以离散的隐变量模型对于开发无监督学习至关重要。但是，他们比连续隐变量更难训练。对此已经有多种解决办法（例如，直接降低高方差离散样本 [7,18]，将连续分布参数化为离散分布 [13,21,28]、利用共轭的模型设计 [14] 等）。

然而，即使在简单的情况下，其中混合体（mixture）的数量少到可以避免离散隐变量的蒙特卡洛采样，训练仍然有问题。例如，[5] 中研究了一个高斯混合隐变量模型（GM-LVM），作者在没有大幅改变 VAE 目标函数时不能使用变分推理在 MNIST 上训练他们的模型。

之后很可能发生的是，模型很快学会通过压缩离散的隐变量分布来「破解」VAE 的目标函数。这个问题只发生在无监督环境中，因为在 [16] 中，一旦他们标记了离散隐空间的样本，就可以在同一问题的半监督版本中学习离散隐变量。

用于训练生成模型（特别是 Wasserstein 距离）的 OT 法会在分布空间上产生较弱的拓扑结构，使得分布比用 VAE 更容易收敛 [3]。因此，有人可能会推测 OT 法比 VAE 更容易训练 GM-LVM。我们提供的证据表明确实如此，它表明 GM-LVM 可以在无监督环境下用 MNIST 训练，并进一步启发 OT 在生成模型中的价值。

2 高斯混合 Wasserstein 自编码器

我们考虑一个两层隐变量的分层生成模型 p_G，其中最高层的变量是离散的。具体来说，如果我们用密度 p_D（D 表示离散）表示离散隐变量 k，和密度 p_C（C 表示连续）表示连续的隐变量 z，生成模型由下式给出：

在这项研究中，我们选了一个类别分布 p_D = Cat(K) 和一个连续分布 p_C (z|k) = N (µ_0^k ; Σ_0^k )。当它被当做 VAE 训练时我们称 GM-LVM 为 GM-VAE，当它被当做 Wasserstein 自编码器训练时我们称其为 GM-WAE。

以前在这样的结构中都假设数据由 K 个不同类别的对象组成。例如在图像中，虽然数据位于连续的低维流形中，但每个出现的对象都将在此流形内以独立模式描述。

在传统的 VAE 框架（GM-VAE）中训练 GM-LVM 将涉及最大化数据平均的证据下界（ELBO）。这些模型通常很难训练 [5]。

图 1：（a）、（b）、（c）是前 35 个训练步后 GM-VAE 的快照。（a）是损失曲线，（b）是离散变分分布，其中行代表 E _{x | label（x）=l} q_D（k | x），（c）展示了 GM-VAE 的重建。类似地，（d）、（e）、（f）是大约 1000 次训练步后同一 GM-VAE 的快照。

3 结果

在这项研究中，我们主要试图展示 GM-LVM 的潜力以及如何用 OT 技术有效地实现训练。因此，我们使用相对简单的神经网络架构在 MNIST 上训练。

图 2：（a）是从推理的隐变量 k〜q_D（k | x）和 z〜q_C（z | k,x）中重建的测试数据图片。奇数行是原始数据，偶数行则是相应的重建图。（b）是每个离散隐变量 k 的数字样本 x〜p_G（x | z）p_C（z | k），（c）展示了更接近于先验模式的样本。

由于离散先验 p_D（k）是均匀的，（b）中的样本是先前研究的生成图的代表，只有以离散的隐藏值排序的列。为了使（c）中的样本接近先前工作的每个众数，我们使用从与 p_C（z | k）相同的高斯分布采样的 z 值，除了标准差减少 1/2 以外。

图 4：（a）使用我们训练的 WAE 的参数初始化的未训练的 VAE 的重建图。（b）根据 VAE 目标函数，在几百个训练步后生成的相同的重建图。（c）这次训练的学习曲线。

图 5：变分分布的可视化。（a）中每行显示 E _{x | label（x）=l} q_D（k | x）。（b）表示使用 UMAP 降维的 z | x〜∑_ k q_C（z | k,x）q_D（k | x）。使用 1000 个编码的测试集数字和 1000 个先前研究的样本。样本根据数字标签着色。

论文：Gaussian mixture models with Wasserstein distance

论文地址：https://arxiv.org/pdf/1806.04465.pdf

摘要：具有离散和连续隐变量的生成模型受许多现实数据集的极大推动。然而，训练的微妙之处往往体现在未得到充分利用的离散隐变量。在本文中，我们证明了在使用 Wasserstein 自编码器的最优传输理论框架时，这些模型更容易训练。我们发现，我们的离散隐变量在训练时被模型充分利用，而不需要对目标函数进行修改或大幅微调。我们的模型在使用相对简单的神经网络时可以生成与其他方法相媲美的结果，因为离散的隐变量具有很多描述性语义。此外，离散的隐变量基本控制了输出。

理论VAE变分自编码器高斯混合模型阿兰·图灵生成模型

相关数据

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用，正态分布在统计学上非常重要。中心极限定理表明，由一组独立同分布，并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成，因而往往也具有正态分布。

来源：Wikipedia

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出，它包括两部分：编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征，低级表征叫作本征向量（latent vector）。解码器吸收数据的低级表征，然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。在自动编码器中，需要输入一张图片，然后将一张图片编码之后得到一个隐含向量，这比原始方法的随机取一个随机噪声更好，因为这包含着原图片的信息，然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片，因为没有办法自己去构造隐藏向量，所以它需要通过一张图片输入编码才知道得到的隐含向量是什么，这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易，只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成想要的图片，而不需要给它一张原始图片先编码。

来源：机器之心 Tutorial on Variational Autoencoders

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

学习曲线技术

在机器学习领域，学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

来源：Wikipedia

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题，其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射（projection）。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归（principal component regression）和偏最小二乘法（partial least squares）。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks