Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与:刘晓坤、王淑婷作者:Ting Chen、Ting Chen、Marvin Ritter、Mario Lucic、Neil Houlsby

只有条件GAN才能稳定训练?对抗+自监督的无监督方法了解一下

针对 GAN 在线对抗训练时出现的不稳定性问题,来自 UCLA 与谷歌大脑的研究者提出了对抗训练+自监督训练的新训练方法。该方法是无监督的,不需要标记数据,但可以达到和条件 GAN 相当的训练稳定性,同时 ImageNet 生成质量可以达到 FID33(这是在 ImageNet 上无条件训练获得的最佳结果。)。该研究入选了 NeurIPS 2018 Workshop。

生成对抗网络(GAN)是一类无监督的生成模型 [1]。GAN 涉及对抗地训练生成器和鉴别器模型,使得生成器可以从期望的数据分布中生成样本。训练 GAN 具有挑战性,因为它涉及在高维参数空间中搜索非凸博弈的纳什均衡。在实践中,GAN 通常使用交替的随机梯度下降进行训练,这通常是不稳定的并且缺乏理论保证 [2]。因此,训练可能表现出不稳定性、发散、循环行为或模式崩溃 [3]。为此,人们提出了许多稳定 GAN 训练的技术 [4,5,6,7,8,9,10]。导致训练不稳定的主要原因是生成器和鉴别器在非静态环境中学习。因为鉴别器是一种分类器,其中一类(假样本)的分布随着生成器在训练期间改变而改变。

在非稳态在线环境中,神经网络忘记了以前的任务 [11,12,13]。如果鉴别器忘记了先前的分类边界,则训练可能变得不稳定或循环。这个问题通常通过重复使用旧样本或应用连续学习技术来解决 [14,15,16,17,18,19]。在复杂数据集下,这些问题变得更加突出。其中的关键技术是条件化 [9,20,21,22],由此生成器和鉴别器都可以访问标记数据。可以说,用监督信息增强鉴别器可以鼓励它学习更稳定的表征,防止灾难性的遗忘。此外,学习每个类的条件模型比学习联合分布更容易。此设置的主要缺点是标记数据的必要性。即使标记数据可用,它通常也是稀疏的,仅涵盖数量有限的高级抽象概念。

受上述挑战的驱使,来自 UCLA 与谷歌大脑的研究者的目标是表明人们可以在不需要标记数据的情况下实现条件化的好处。为了确保鉴别器学习的表征更稳定和有用,研究者为鉴别器添加辅助的自监督损失。这实现了更稳定的训练,因为鉴别器表征对生成器输出质量的依赖性降低。研究者引入了一种新的模型:自监督的 GAN(self-supervised GAN,SS-GAN),其中生成器和鉴别器在表征学习的任务上合作,并在生成任务上进行竞争。

本研究的贡献:研究者提出了一种无监督的生成模型,它将对抗训练与自监督学习相结合。该模型实现了条件 GAN 的优势,但不需要标记数据。特别是,在相同的训练条件下,自监督的 GAN 弥补了无条件和条件模型之间的自然图像合成的差距。在此设置中,鉴别器表征的质量大大提高,这在迁移学习中可能会有潜在的应用价值。该模型实现了大规模无条件 ImageNet 图像生成。研究者认为,这项工作是朝着高质量、完全无监督、自然图像合成方向迈出的重要一步。

图 1:具有基于旋转的自监督的鉴别器。鉴别器 D 执行两项任务:真 VS 假的二值分类,以及旋转角度分类。真图像和假图像都分别旋转了 0°、90°、180°和 270°。彩色箭头表示只有直立的图像被用于真假分类损失任务中。至于旋转损失,所有的图像都需要让鉴别器根据其旋转程度进行分类。

图 2:线性分类模型性能,该模型利用鉴别器的最后一层提取的表征在 ImageNet 上训练。Uncond-GAN 表示无条件 GAN。SS-GAN 表示添加自监督时的相同模型。对于 Uncond-GAN,该表征收集关于图像类别的信息并提高了准确率。然而,在 50 万次迭代后,表征损失了类别信息,同时性能开始下降。SS-GAN 缓解了这个问题。

表 1:通过三个随机种子获得最佳 FID。在这种情况下,本文提出的方法实现了条件化的大部分好处。

研究者扩大了 SS-GAN 的训练,以获得无条件生成 ImageNet 的最佳 FID。研究者在 Google TPU v3 Pod 的 128 个核心上,使用了 1024 的批量,以 350,000 步训练所提出的模型,并获得了 33.5 的 FID 分数。附录中提供了架构的详细信息。

图 5 显示了模型生成的图像的随机样本。在 ImageNet 上无条件训练比有条件训练要难得多,因此,现有的相关技术并不多。使用自回归模型的无条件 ImageNet 生成结果已经出现,但并没有报道 FID 分数 [34]。通过使用很多附加的技巧和技术,一个基于条件生成的最新方法通过大规模训练已经获得了 9.6 的 FID 分数。虽然本文的无条件模型仍然远远落后于此,但在第 4.2 节的结果表明,在相同条件下,SS-GAN 和条件 GAN 的性能相当。这一方法有望在将来获得与无条件模型相当的分数。这是在 ImageNet 上无条件训练获得的最佳结果。

图 5:自监督模型无条件生成图像的随机样本(非随机样本)。虽然本文的无条件模型可以明显改进,但 4.2 节中的结果表明,在相同条件下,本文提出的方法可以与条件模型对应的方法性能相当。这是在 ImageNet 上无条件训练获得的最佳结果。

论文:Self-Supervised Generative Adversarial Networks

论文地址:https://arxiv.org/abs/1811.11212

摘要:条件 GAN 正处于自然图像合成的最前沿。这种模型的主要缺点是标记数据的必要性。在这本文中,我们利用两种流行的无监督学习技术:对抗训练和自监督,来缩小条件和无条件 GAN 之间的差距。特别是,我们允许网络在表征学习任务上进行协作,同时利用经典的 GAN 机制进行对抗训练。自监督的作用是鼓励鉴别器学习有意义的特征表征,这些表征在训练期间不会被遗忘。我们通过实验测试了学习到的图像表征的质量和合成图像的质量。在相同条件下,自监督的 GAN 获得了与最先进的条件 GAN 相似的性能。这种完全无监督学习的方法扩展到无条件 ImageNet 生成时可以达到 33 的 FID 分数。

入门生成模型生成对抗网络自监督学习
3
相关数据
纳什均衡技术

纳什平衡,又称为非合作赛局博弈,是在非合作博弈状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。 如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

对抗训练技术

对抗训练涉及两个模型的联合训练:一个模型是生成器,学习生成假样本,目标是骗过另一个模型;这另一个模型是判别器,通过对比真实数据学习判别生成器生成样本的真伪,目标是不要被骗。一般而言,两者的目标函数是相反的。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

推荐文章
暂无评论
暂无评论~