谷歌DeepMind最新动作：使用强化对抗学习，理解绘画笔触

深度学习合成图像并不是什么新鲜事。谷歌自己就做过SketchRNN，能识别8条腿的猪有异常，输出4条腿的猪（戳这里看）。

不过这些都依赖于人类输入数据的指导。人类需要告诉模型，哪些输入图片是猪，模型才能从中总结规律。

昨天，谷歌DeepMind发出了一篇博文，介绍了其最新论文Synthesizing Programs for Images using Reinforced Adversarial Learning。

谷歌使用一种名叫SPIRAL的对抗性学习方法，先用一个强化学习代理（Agent）随机画画，再将成果输入另一个神经网络鉴别器（Discriminator）。鉴别器能判断某图形是由Agent生成的，还是从真实照片的数据集中采样而来。

如果代理生成的图像成功地骗过了鉴别器，就会获得奖励。也就是说，奖励函数本身也是由代理学习得来，人类并没有设置奖励函数。这样经过持续训练，强化学习得到的图像就会越来越接近真实照片。

该方法与生成对抗网络（GANs）的区别是，GANs中的生成器通常是直接输出像素值的神经网络。但是强化学习代理通过编写图形程序与绘图环境交互来生成图像，也就是说，可以将生成的图像中绘画的笔触通过一个机械臂画笔实现出来。

根据谷歌放出的一个绘画视频，该方法在数字、人物肖像的生成上，均取得了不错的效果。

谷歌绘画的视频

▼

在MNIST手写数字图像生成的实验中，输入数据包括手写数字的图像，但没有明确指出它们是如何绘制的。强化学习代理需要通过自学数字书写的笔画（图案、笔触强弱、笔顺），控制画笔，重现特定的图像。接下来，鉴别器将作出预测，该图像是目标图像的副本，还是由代理生成的。图像越难鉴别，代理得到的回报越多。

重要的是，这一切是可以解释的，因为它产生了一系列控制模拟画笔的动作。同时值得注意的是，这里对绘画的笔顺并没有强调，只要画得像，就不管是怎么画出来的了。

在人脸的真实数据集上，强化对抗式学习也取得了不错的效果。绘制人脸时，代理能够捕捉到脸部的主要特征，例如脸型、肤色和发型，就像街头艺术家用寥寥几笔描绘肖像时一样：

谷歌称，教会人工智能从对世界的观察中获得结构关系并表达出来，这是人工智能建立人类认知、概括和沟通能力的必由之路。

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业谷歌Deepmind强化对抗学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心