GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

GANs are so back!?

2025 年了，GAN 能否击败扩散模型？答案是 Yes！

本周五，AI 社区开始讨论一种全新极简主义 GAN（生成对抗网络）。

^{现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。}

它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造，GAN 现在可以进行更长时间的训练（与扩散模型的训练步骤数相当），一旦 GAN 训练时间足够长，并且架构足够强大，它们就可以胜过扩散模型，并成为更好、更快、更小的模型。

来自布朗大学、康奈尔大学的研究者们表示，通过引入一个新的损失函数，我们就可以解决以往 GAN 模式崩溃（collapse）和不稳定性的问题。

为了证明可行性，他们测试了 GAN 里流行的 StyleGAN2，通过新的理论进行最简升级（修改后改名为「R3GAN」）。结果虽然模型变得更简单了，但 R3GAN 在图像生成和数据增强任务上性能还是超过了所有 GAN 模型和扩散模型。

新的方法给未来的研究奠定了一个更为整洁、可扩展的基础。

论文链接：https://arxiv.org/abs/2501.05441
GitHub 链接：https://github.com/brownvc/R3GAN
HuggingFace：https://huggingface.co/spaces/multimodalart/R3GAN

有一种广泛流传的说法认为 GAN 很难训练，并且文献中的 GAN 架构充斥着大量的经验性 tricks。但是作者团队提供了反驳这一说法的证据，并以更有原则的方式建立了一个现代版 GAN 基线。

在该研究中，作者首先通过推导出一个行为良好的正则化相对 GAN 损失函数，解决了模式 dropping 和不收敛问题，而这些问题在以前经常是通过大量 ad-hoc tricks 来应对的。他们从数学层面分析了这一损失函数，并证明它具有局部收敛保证，这与大多数现有的相对损失函数不同。

其次，这个损失函数能够抛弃所有的 ad-hoc tricks，并用现代版架构替代常见的 GAN 中所使用的过时的骨干网络。以 StyleGAN2 为例，他们展示了一个简化过的现代版路线图 ——R3GAN（Re-GAN）。尽管方法非常简单，但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 数据集上却超越了 StyleGAN2，并且在与最先进的 GAN 和扩散模型的比较中表现出色。

在生成式 AI 技术兴起之前，GAN 是 AI 领域中的热门研究方向，该方法能让我们能够在一次前向传递中生成高质量图像。然而我们无法忽略的是，Goodfellow 等人构建的原始目标因其极小极大特性而极难优化，训练的不稳定性一直对 GAN 的研究产生着负面影响。

与扩散模型等其他生成模型相比，GAN 的发展一直比较缓慢。考虑到一旦得到了表现良好的损失函数，我们就可以自由地设计现代 SOTA 主干架构。在新工作中，作者剥离了 StyleGAN 的所有功能，找出那些必不可少的功能，然后从现代 ConvNets 和 transformer 中借用了架构设计，包括一系列 ResNet 设计、初始化、重采样、分组卷积、no normalization 等，引出了一种比 StyleGAN 更简单的设计。

该工作率先从数学上证明了 GAN 不需要通过改进的正则化损失来进行训练。

提高训练稳定性

该研究证明，通过将目标进展与正则化训练损失结合起来，GAN 获得了更高的训练稳定性，能够用现代骨干网络升级 GAN。

首先，该研究提出了一个新的目标，通过零中心梯度惩罚增强 RpGAN，提高稳定性。该研究从数学上证明，梯度惩罚 RpGAN 与正则化经典 GAN 享有相同的局部收敛保证，并且删除正则化方案会导致不收敛。

在定义 GAN 的目标时，研究者需要应对两个挑战：稳定性和多样性。为了在这两方面同时取得进展，该研究将 stable 方法与基于理论的简单正则化器结合起来。

传统 GAN 被表述为判别器 D_ψ 和生成器 G_θ 之间的极小极大博弈：

在实际实现中，传统 GAN 容易受到两种常见故障场景的影响：模式 collapse/dropping 和不收敛。

该研究采用了一种略有不同的极小极大博弈 ——RpGAN，由 Jolicoeur-Martineau 等人提出，以解决模式 dropping 问题。

一般的 RpGAN 定义为：

然而，经验表明，未正则化的 RpGAN 表现不佳。

为了解决 RpGAN 不收敛的问题，该研究探索梯度惩罚作为解决方案，因为事实证明，零中心梯度惩罚 (0-GP) 有助于经典 GAN 的收敛训练。两个最常用的 0-GP 是 R1 和 R2：

研究团队认为实际的解决方案是在真实数据和虚假数据上对 D 进行正则化。此外，如 Fang et al.(2022) 所言，真实数据和虚假数据具有大致相同的梯度范数可能会减少判别器过拟合。

新基线的路线图 — R3GAN

行为良好的 RpGAN + R1 + R2 损失函数缓解了 GAN 优化中的问题，同时根据近期的骨干网络进展，这使他们能够构建一个极简版基线 ——R3GAN。这不仅仅只是提出一种新方法，而是从 StyleGAN2 基线中绘制出一条路线图。

这个模型（配置 A）包括一个类似于 VGG 的骨干网络（G），一个 ResNet（D），一些有助于基于风格生成的 tricks，以及许多作为修补弱骨干网络的 tricks。接着去除了 StyleGAN2 中所有非必要的特性（配置 B），并应用他们的损失函数（配置 C），逐步现代化网络骨干（配置 D-E）。