2019/03/22 13:17

Yilun Du、Igor Mordatch作者思源张倩编译

MIT本科学神重启基于能量的生成模型，新框架堪比GAN

自从 GAN 出世以来，顶尖的生成模型都采用了这种框架。然而从去年的 Glow 到最近的 EBM，很多研究者都尝试探索不同的生成框架。在这篇论文中，OpenAI 的研究者提出一种能高效训练基于能量模型（EBM）的方法，它能获得媲美 GAN 的效果。

值得注意的是，一作 Yilun Du 还是 MIT 的大四本科生，他从 15 年大一开始就发过 ECCV 16、NIPS 18 等多个大会和 Workshop 的论文，加上这篇论文一共 8 篇。Yilun Du 的工作经验也非常多，他在 Facebook 做过软件工程实习生，目前在 OpenAI 多智能体强化学习团队做研究。Yilun Du 的简历表示，他在 MIT 的 GPA 为 5.0/5.0，这基本上属于学神的领域了。

在 Yilun Du 等研究者的这篇论文中，OpenAI 在基于能量模型（EBM）的稳定和可扩展训练方面已经取得了进展，从而获得了比现有模型更好的样本质量和泛化能力。EBM 中的生成过程花费更多的算力来不断精炼（refinement）其生成结果，这样做可以在低 temperature 条件下生成与 GAN 媲美的样本，同时还具有基于似然模型的模式覆盖率保证。他们希望这些发现能促进对这类模型的进一步研究。

生成建模是一种与观察数据（如图像或文本）有关的任务，它需要学习建模潜在的数据分布。完成这项任务可以让模型理解数据中的高级特征，并合成看起来真实的样例。生成模型在自然语言、机器人学和计算机视觉方面已经有广泛的应用。

基于能量的模型通过为每个输入数据点分配一个非归一化的概率标量（或「能量」）来表示数据上的概率分布。这提供了实用的模型灵活性——在给定输入的情况下，任何输出实数的模型都可以用作能量模型。然而难点在于从这些模型中采样，它也导致了 EBM 模型不能像 GAN 或 VAE 那样快速训练。

条件 ImageNet 32x32 模型样本。

为了从 EBM 中生成样本，Open AI 使用了一种基于 Langevin dynamics 的迭代精炼过程。通俗地说，这包含了在能量函数上执行噪声梯度下降，以达到低能量配置（更多细节见论文）。与 GAN、VAE 和基于 Flow 的模型不同，这种方法不需要一个显式的神经网络来生成样本，也就是说，样本的生成过程是隐式的。EBM 和迭代精炼的结合有以下好处：

自适应计算时间：可以长时间执行序列精炼，以生成优质、多元的样本，也可以在较短时间内生成粗糙、单一的样本。已知在有限的时间内，这一过程可以从能量模型中生成真实的样本。
不受生成网络限制：在 VAE 和基于 Flow 的模型中，生成器都必须学习如何从连续空间映射到到包含不同数据模型的不连续空间，这需要模型有很大的拟合能力，而且可能无法完成学习。相比之下，EBM 可以轻松学习在互斥区域分配低能量。
内置语义合成：由于每个模型都表示一个非归一化的概率分布，因此可以通过专家模型或其他分层模型自然地组合模型。

生成

作者发现基于能量的模型能够生成高质量、高数量的高清图片，特别是在测试阶段长时间运行精炼流程。通过在单张图像上执行迭代优化，研究者可以自动补全图像，并把图像从一种类别（卡车）改变为另一种类别（青蛙）。

在条件 ImageNet 模型上执行图像补全，该模型展示了图像修补中的多样性。注意输入来自于测试分布，并非模型样本，它表示测试数据的覆盖范围。

在条件模型上的跨类别隐式采样，模型以特定类别为条件，但用一张来自独立类别的图像做初始化。

除了生成图像，作者发现基于能量的模型在大量时间步骤上能够生成稳定的机器人动态轨迹。虽然前馈模型不能做均值预测，EBM 却能够生成一系列不同的可能性。

自上而下查统一启动状态下无条件生成的机器臂操作轨迹。FC 网络预测到了一个不动的手臂，然而 EBM 能够生成可执行的不同轨迹。

泛化性

研究者还在几种不同的分布外（out-of-distribution）数据集上测试了 EBM 的分类效果，他们发现基于能量的模型要比其它似然模型有更好的效果，例如流模型或自回归模型等。作者同样使用条件 EBM 测试了分类任务，并发现分类结果对于对抗扰动具有很好的泛化性。尽管他们的模型从未为分类任务训练过，但比那些专门为对抗扰动进行分类训练的模型效果还要好。

研究经验

研究者发现了很多有意思的观察结果，但目前并不是太确定这些结果是不是正确，不过这些经验可能对后续研究有一些帮助。

研究者发现原版 HMC 用于 EBM 训练非常困难，因为训练过程中的最佳步长和 leapfrog 模拟数量差别很大，不过应用适应性 HMC 可能是比较有意思的扩展。
研究者发现执行能量函数的集成训练会很有帮助，即采样和评估都在集成上进行，但并不值得为这些提升而增加模型复杂性。
研究者在添加梯度罚项时并不能取得很好的效果，可能是因为梯度罚项会损失模型的能力与采样效果。

更多的模型细节与实验细节可以查阅该研究论文。

论文：Implicit Generation and Generalization in Energy-Based Models

论文地址：https://arxiv.org/pdf/1903.08689.pdf
项目地址：https://github.com/openai/ebm_code_release

摘要：因为在似然函数建模中的简洁与通用，基于能量的模型（EBM）吸引了很多研究者的关注，但这种模型不太容易训练。我们提出了一种技术以扩展连续神经网络上基于 MCMC 的 EBM 训练，展示了它在高维数据上的效果，例如 ImageNet 32x32、ImageNet 128x128、CIFAR-10 和机械臂轨迹。在这些数据集中，EBM 比其它似然模型能显著生成更好的样本，它能在覆盖数据所有模式的同时得到和 GAN 相媲美的性能。

我们强调隐式生成的独特能力，例如能量的合成性、图像修复重建和图像补全等。最后，我们展示了 EBM 能泛化地非常好，并能实现当前最优的分布外（out-of-distribution）分类效果。此外，EBM 还能展现出对抗性鲁棒的分类、连贯地长期预测轨迹变化，并生成 zero-shot 的模型合成。

理论MIT生成模型GAN基于能量的生成对抗网络

相关数据

概率分布技术

概率分布（probability distribution）或简称分布，是概率论的一个概念。广义地，它指称随机变量的概率性质－－当我们说概率空间中的两个随机变量具有同样的分布（或同分布）时，我们是无法用概率来区别它们的。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

机器人技术技术

机器人学（Robotics）研究的是「机器人的设计、制造、运作和应用，以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。机器人可以分成两大类：固定机器人和移动机器人。固定机器人通常被用于工业生产（比如用于装配线）。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器；另外还有能够实现感知能力的软件，比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成，这也是人工智能领域最早的终极目标之一。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。要使用梯度下降找到函数的局部最小值，可以采用与当前点的函数梯度（或近似梯度）的负值成比例的步骤。如果采取的步骤与梯度的正值成比例，则接近该函数的局部最大值，被称为梯度上升。

来源：Vapnik V. N. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag.Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

似然函数技术

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“ 似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

自回归模型技术

自回归模型，是统计上一种处理时间序列的方法，自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

来源：维基

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

图像修复技术