微软研究院AI头条原创

2020/12/11 10:37

赵立、金斌斌、连德富、刘政、郑贺亮、傅建龙作者

NeurIPS 2020 | 微软亚洲研究院论文摘录之强化学习&GAN篇

编者按：12月6日至12日，国际人工智能顶级会议 NeurIPS 2020 在线上举办。相比前几年，NeurIPS2020 无论是论文的投稿数量还是接收率都创下了记录：论文投稿数量创历史最高记录，相比去年增长了38%，接收率却为史上最低。

上周我们与大家分享了，微软亚洲研究院入选 NeurIPS 2020 的目标检测工作。今天，我们精选了微软亚洲研究院入选 NeurIPS 2020 中有关强化学习和生成式对抗网络 GAN 领域的工作，为大家进行介绍。

RD$^2$: Reward Decomposition with Representation Disentanglement

基于表示分解的奖励分解

论文链接：https://paperswithcode.com/paper/rd-2-reward-decomposition-with-representation

强化学习算法可以由更细粒度的奖励函数大幅提升样本效率，但自主学习该细粒度奖励函数的方法目前还很不成熟。在此前的工作中，尚未有广泛通用的学习细粒度奖励函数的工作。Hybrid Reward Structure (HRA) 中，细粒度奖励函数是手动给出的，并且验证了细粒度奖励函数对样本效率的提升。而 Independently-Obtainable Reward Functions, DRDRL 则是将细粒度奖励函数的学习与玩家的策略绑定，该做法的好处是便于定义，但与此同时缺乏了通用性且难以在下游任务中利用。

算法RD$^2$

受到最近关于非耦合表示（disentangled representation）工作的启发，微软亚洲研究院的研究员们提出了新算法 RD$^2$。该算法能够以更通用的方式来定义并学习一个最优细粒度奖励函数，而非受限于手动给出或依赖于强化学习本身的策略。

该研究提出的最优细粒度奖励函数的定义主要基于以下几点：

原奖励函数可线性分解为多个具有“独特性”的子奖励函数；
该线性分解不能是简单的；
该线性分解需要是最简的。

为了便于大家理解，这里用以一个简单的游戏作为例子（如下图所示）。该游戏的规则为玩家碰到金块获得1分，碰到怪物获得-1分。

理想的最优细粒度奖励函数是将金块相关的分数与怪物相关的分数分到两个不同的子奖励函数上。以下展示了三种奖励分解，以及与每个子奖励相关的子状态：在情况1中，两个子奖励函数都包含了金块部分的奖励，因此第二个子奖励不独特；情况2是一种简单的分解，即令其中一个子奖励函数等于原奖励函数；情况3则是满足上述最优细粒度奖励函数的一种情况。

情况1:

情况2:

情况3:

将该认识以严谨的数学语言表达出来，就形成了以下定义：

由于直接计算或估算信息熵的代价往往较为巨大，所以研究员们给出了深度学习情况下无需计算信息熵的近似优化目标：

实验结果

研究员们在简单任务（前文提到的游戏）和复杂任务（Atari 游戏）上分别进行了实验。在简单任务上，输入玩家、金块、怪物的位置坐标，输出预测的两个子奖励，用研究提出的优化目标训练网络。训练结果如图1所示，可以看到通过优化，能够学出来最优的掩码：网络输出的第一个分支包含了玩家和金块的位置坐标，网络输出的第二个分支包含了玩家和怪物的位置坐标。同时，如表1所示，算法可以精确地将两种子奖励分开。

图1：简单任务上的训练曲线图

表1：简单任务上的奖励分解

在复杂任务 Atari 游戏上则在具有子奖励的一些环境上进行实验。为了带来更强的表达力，研究员们引入了状态依赖的掩码（mask）网络，并在实验中，用 Rainbow 和 DRDRL 作为基线算法。首先，用 RD$^2$ 学习奖励分解，图2展示了分解的效果，可以看到，在复杂的图像任务上，算法 RD$^2$ 同样能够比较精确地把不同的自奖励区分开，这也证明了该算法的有效性。

图2：分解效果展示

为了进一步理解算法 RD$^2$ 的优势，研究员们用显着图（saliency map）对网络的不同分支做了可视化，尝试观察不同分支所关注的输入。如图3所示，不同的分支会关注输入的不同部分，进而帮助该分支预测其对应的子奖励。这证明了该算法可以学出有意义的非耦合表示。

图3：不同分支可视化

最后，研究员们尝试用学习出来的子奖励分解直接训练子 Q 网络 (sub-Q network)，用以下的 sub-Q TD error 作为额外的优化目标。

研究发现，用训练出来的子奖励直接训练子 Q 网络，会大大加速网络的训练过程，相比于 Rainbow 和 DRDRL 来说，算法 RD$^2$ 带来了样本效率的巨大提升。

图4：在一些 Atari 游戏上的训练曲线

Sampling-Decomposable Generative Adversarial Recommender

如何为推荐系统的训练快速生成并有效利用负样本？

论文链接：https://arxiv.org/abs/2011.00956

代码链接：https://github.com/BinbinJin/SD-GAR

IRGAN 是第一篇将生成式对抗网络（GAN）框架应用于信息检索（包括推荐系统）的研究工作。在该工作中，IRGAN 训练了一个生成器和一个判别器，其中生成器用来自适应地生成合适的负样本以帮助判别器训练；而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。

通过对 IRGAN 的理论分析，可以发现其存在两个局限性：

在 IRGAN 中，最后采用生成器用于推荐，然而生成器是用来生成负样本的，判别器应当真正地用于推荐。在真实情况中，判别器用于推荐的效果并不好，可能的原因是通过训练得到的生成器与最优形式的生成器存在一定的偏差，最终导致判别器无法训练的非常好。
由于生成器得到的分布是需要经过 softmax 操作的，因此从生成器中进行采样是非常费时的，尤其当商品数量达到百万、千万级别时，采样的效率非常低。

为此，为了克服 IRGAN 中存在的局限性，微软亚洲研究院和中国科学技术大学的研究员们提出了采样可分解的生成对抗推荐系统 SD-GAR。

SD-GAR

图5：SD-GAR 框架图

从对 IRGAN 的理论分析可知，生成器的最优形式为 P_(G_T^⋆ ) (⋅│c)。为了避免每次对大量的商品使用softmax操作，所以引入另一个生成器 Q_G (⋅│c) 来估计 P_(G_T^⋆ ) (⋅│c)。同时，为了补偿两者之间的偏差，微软亚洲研究院的研究员们提出使用自归一重要性采样来估计目标函数：

接下来，一个重要的目标是如何设计得到一个高效的生成器 Q_G (⋅│c)。传统生成器的做法是为每一个用户和每一个商品分别设置一个隐向量，最后通过矩阵乘法和 softmax 得到用户对每一个商品的喜好分布。这种方法十分低效。为此，该研究提出了采样可分解的生成器，对于该生成器，使用 Vose-Alias 算法，可以在 O(1) 的时间复杂度内采样一个样本。

根据对估计量 V_T (D,S) 的分析，当 Q_G (i│c)∝P_(G_T^⋆ ) (i│c)|f_c (i)-μ_c| 时，估计量的方差达到最小。基于此研究员们提出了生成器的优化目标：

为了进行优化，研究员们提出用交替优化算法。假设用户数为 N，商品数为 M，隐向量维度为 K，商品采样数量为 |S_c|，用户采样数量为 |S_i|，SD-GAR 的时间复杂度为 O(NK|S_c|+MK|S_i|)。由于 K、|S_c|、|S_i|≪N,M，因此训练生成器非常高效。

IRGAN 的时间复杂度是 O(NMK)，因此 SD-GAR 算法相比于 IRGAN 是更加高效的。

实验结果

研究员们在 CiteULike、Gowalla、Amazon、MovieLens10M、Echonest 五个数据集上进行了验证。从表2上可以看到，算法 SD-GAR 显著优于 SA、IRGAN、DNS、CML、WARP、AOBPR、BPR 等推荐算法。相比于最好的基准算法 SA，其在NDCG@50 指标上要平均高出10.5%。

在算法效率上，对比 SD-GAR 和 IRGAN 在判别器和生成器上的训练速度。如图6左所示，在 Amazon（Echonest）数据集上，SD-GAR 的训练速度要明显快于 IRGAN。在图6右中可以看出随着商品数量的增加，SD-GAR 的训练时间增长率（实线）要明显低于 IRGAN 的训练时间增长率（虚线）。

表2：和基准算法的对比

图6：时间开销对比

Learning Semantic-aware Normalization for Generative Adversarial Networks

走向更加真实、可控的图像生成：语义感知生成模型

代码链接：https://github.com/researchmm/SariGAN

图像生成任务旨在学习从隐空间到图像空间的映射，而图像空间是由语义组成的。将隐空间根据这些语义进行解耦可以大大简化生成任务：从学习隐空间对语义组合的映射简化为学习隐空间对每个语义的映射。

基于语义对隐空间解耦，需要两步：1）找到生成网络中与语义相关的表达并将不同语义分开；2）挖掘并利用以上语义表达和隐空间的关系。

对于第一步，通过训练生成式对抗网络（GAN）可以得到粗略的语义表达。于是微软亚洲研究院的研究员们设计了一个基于相似度的语义分组模块，这个模块的基本想法是：如果两个卷积通道的语义相似，那么它们的分组信息也应该相似。使用 MSE 损失对此进行约束，通过优化可以得到每层卷积中各个通道的分组信息。

对于第二步，AdaIN 操作提供了解决思路。AdaIN 操作逐通道得对卷积通道和隐空间进行融合，由此，卷积通道的语义就可以传递到隐空间。研究员们提出让学到的语义分组信息在此融合过程中发挥作用。具体来说，就是用 Group AdaIN 融合每一个语义的隐空间信息和对应语义的卷积通道:

此外，研究员们还设计了一种 AdaGN（自适应分组归一化）操作，通过学习并控制不同组之间的相对重要性将不同组的特征进行融合：

最后，三个损失函数被提出用来优化整个网络：对抗损失，分组损失，以及互信息损失：

以上设计可以使网络对隐空间基于语义解耦，从而生成更真实的图像，并且进行语义级别的控制。整个框架图如图7所示：

图7：语义感知生成模型框架图

实验结果

研究提出的模型在 FFHQ、LSUN CARS 和 LSUNCATS 三个数据集上进行了实验测评，通过图8可以看到该模型可以生成照片级别真实的图像。

图8：可感知语义生成模型在两个数据集上的可视化结果图

图9：可感知语义生成模型和 StyleGAN2 在 LSUN CATS 数据集上的可视化对比结果

图9展示了可感知语义生成模型和 StyleGAN2 在 LSUN CATS 数据集上可视化的对比结果。可以看到，在同样的迭代次数下，该模型可以达到更好的 FID，生成更加真实自然的图片。

图10：图像修复任务上的可视化比较

此外，实验还在基于条件的图像生成任务（图像修复）上进行，如图10所示，可感知语义生成模型可以更好地修复图像。

综上，通过设计语义分组模块和基于分组的隐空间/卷积特征融合方式，可以将语义解耦引入生成网络中，从而生成更真实的图像，并且可以对生成的图像进行语义级别的控制，从而进行图像编辑。

微软研究院AI头条

专注科研19年，盛产黑科技

理论强化学习GANNeurIPS 2020

相关技术

链式法则深度残差网络 Infographic 降采样

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

时间复杂度技术

在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，亦即考察输入值大小趋近无穷时的情况。例如，如果一个算法对于任何大小为 n （必须比 n0 大）的输入，它至多需要 5n3 + 3n 的时间运行完毕，那么它的渐近时间复杂度是 O(n3)。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

信息熵技术

在信息论中，熵是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，“消息”代表来自分布或数据流中的事件、样本或特征。熵的单位通常为比特，但也用Sh、nat、Hart计量，取决于定义用到对数的底。

来源：维基百科

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。

来源：机器之心

图像修复技术

生成对抗技术

生成对抗是训练生成对抗网络时，两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

来源：wiki