2019/03/15 09:43

参与Nurhachu Null 张倩

生成对抗网络也需要注意力机制

传统的深度卷积生成对抗网络无法捕获到图像中的长距离依赖。当图像中存在较高的信息变化率时，卷积生成对抗网络通常会错过所有的这种变化，因此不能真实地表征全局关系。自注意力生成对抗网络（Self-Attention Generative Adversarial Networks）使用自注意力范式来捕获图像中存在的长距离空间关系，以更好地合成新的图像。本文梳理了一下这篇文章的概况和它的主要贡献。

原论文地址：https://arxiv.org/pdf/1805.08318.pdf
TDLS 展示地址：https://tdls.a-i.science/events/2018-06-11/

传统生成对抗网络的挑战

尽管传统的生成对抗网络可以生成相当逼真的图像，但是它们无法捕获到图像中的长距离依赖。这些传统的生成对抗网络在不包含太多的结构和几何信息的图像上效果是不错的（例如海洋、天空和田野）。但是，当图像中存在较高的信息变化率时，传统的生成对抗网络往往会错过所有的这种变化，因此就无法真实地表征全局关系。这些非局部依赖始终会出现在某些类别的图像中。例如，生成对抗网络可以生成具有逼真皮毛的动物，但是却无法生成独立的足部。

之前的 SOTA 生成对抗网络生成的图像（CGANs with Projections Discriminator; Miyato et al., 2018）

由于卷积算子表征能力的局限性（也就是接受域是局部的），传统的生成对抗网络在几个卷积层之后才能捕获到长距离关系。缓解这个问题的一种方法就是增加卷积核的尺寸，但是这在统计和计算上都是不够高效的。各种注意力和自注意力模型早已被用来捕获并使用这种结构化模式和非局部关系。但是，这些模型通常不能有效地平衡计算效率和建模长距离关联二者之间的关系。

用于生成对抗网络的自注意力

这个功能性差距就是 Zhang 等人（2018）提出这种方法的原因。他们给生成对抗模型配备了一个工具来捕获图像中的长距离、多级关联。这个工具就是自注意力机制。自注意力机制尝试关联输入特征的不同部分，切合正在进行的任务计算出输入的另一个表征。自注意力机制的思想已经被成功地应用在了阅读理解（Cheng 等 2016）、自然语言推理（Parikh 等，2016）以及视频处理（X. Wang 等, 2017）等领域。

将自注意力引入到图像生成领域受启发于《Non-local neural networks》（非局部神经网络）（X. Wang 等，2017），这项工作使用自注意力来捕获视频序列中的空间-时间信息。通常而言，自注意力机制就是简单地计算某个单独的位置在所有位置的特征加权和中的响应。这个机制允许网络聚焦于那些分散在不同位置但是又有着结构关联的区域。

自注意力生成对抗网络（Self-Attention Generative Adversarial Networks，Zhang 等，2018）中所提出的自注意力模块

在 SAGAN 中，注意力模块与卷积神经网络协同工作，并且使用了 key-value-query 模型（Vaswani 等，2017）。这个模块以卷积神经网络创建的特征图为输入，并且将它们转换成了三个特征空间。这些特征空间（分别是 key f(x)、value h(x) 和 query g(x)）通过使用三个 1X1 的卷积图来传递原始特征图而生成。然后 Key f(x) 和 query g(x) 矩阵相乘。接下来，相乘结果的每一行应用 softmax 算子。由 softmax 生成的注意力图代表了图像中的哪些区域应该被关注，如方程（1）所示（Zhang 等，2018）：

然后，注意力图与 h(x) 的值相乘来生成自注意力特征图，如下所示（Zhang 等，2018）：

最后，将原始输入特征图和缩放的自注意力图相加来计算输出。缩放参数𝛄在开始的时候被初始化为 0，以让网络在开始的时候首先关注局部信息。当参数γ在训练过程中进行更新时，网络就会逐渐学习注意一幅图像的非局部区域（公式（3），Zhang 等，2018）。

自注意力生成对抗网络的输出图像（Zhang 等，2018）

处理生成对抗网络训练过程中的不稳定性

SAGAN 论文的另一个贡献与著名的 GAN 训练不稳定性相关。论文提出了两种技术来处理这个问题：谱归一化和双时间尺度更新规则（TTUR）。

在良好的条件下，生成器被证明会表现得更好，而且提升了训练的动态性能（Odena 等，2018）。可以使用谱归一化来完成生成器调制。这个方法最早是在 Miyato 等人的《SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS》中提出的，但仅仅是针对判别器的，目的是解决训练振荡问题，这一问题可能导致生成器无法很好地学习到目标分布。SAGAN 在生成器和判别器网络中都使用了谱标准化，限制了两个网络中的权重矩阵谱归一化。这个过程是有好处的，因为它在不需要任何超参数调节的情况下就限制了李普希茨常数，阻止了参数幅度和异常梯度的增大，而且允许判别器进行较少的更新（与生成器相比）。

除了谱归一化，这篇论文还使用了 TTUR 方法（Heusel 等，2018）来解决常规判别器训练缓慢的问题。使用常规判别器的方法通常在一次生成器更新中需要多次更新判别器。为了加快学习速度，生成器和判别器以不同的学习率进行训练。

结论

SAGAN 是对图像生成的现有技术的实质性改进。自注意力技术的有效集成使得网络能够真实地捕获和关联长距离空间信息，同时保证计算的高效性。在判别器和生成器网络中使用谱归一化和 TTUR 方法不仅降低了训练的计算成本，而且提高了训练稳定性。

原文链接：https://www.kdnuggets.com/2019/03/gans-need-some-attention-too.html

工程GANIan Goodfellow

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

长距离依赖技术

也作“长距离调序”问题，在机器翻译中，比如中英文翻译，其语言结构差异比较大，词语顺序存在全局变化，不容易被捕捉

来源：机器之心

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks