2021/02/26 14:27

论文分享 | 丢弃卷积，纯Transformer构建GAN网络

最近，计算机视觉（CV）领域的研究者对 Transformer 产生了极大的兴趣并陆续取得了不少突破。比如，2020 年 5 月，Facebook AI 的研究者推出了 Transformer 的视觉版本——Detection Transformer，在性能上媲美当时的 SOTA 方法，但架构得到了极大简化；10 月，谷歌提出了 Vision Transformer (ViT)，可以直接利用 transformer 对图像进行分类，而不需要卷积网络。

所有这些都表明，Transformer 有可能成为分类、检测和分割等计算机视觉任务的强大通用模型。但问题也随之而来：Transformer 在 CV 领域能走多远？对于生成对抗网络（GAN）等更加复杂的 CV 任务，Transformer 的表现又如何呢？

在这些问题的驱动下，来自德州大学奥斯汀分校和 IBM 研究院的研究者进行了首次试验性研究，构建了一个使用纯 Transformer、完全没有卷积的 GAN，并将其命名为 TransGAN。与其它基于 Transformer 的视觉模型相比，仅使用 Transformer 构建 GAN 似乎更具挑战性。实验结果表明，与当前基于卷积骨干的 SOTA GAN 相比，表现最佳的 TransGAN 实现了极具竞争力的性能。该研究还表明，对于卷积骨干以及许多专用模块的依赖可能不是 GAN 所必需的，纯 Transformer 有足够的能力生成清晰图像。

3月3日，机器之心最新一期线上分享邀请到了论文一作、德州大学奥斯汀分校博士生江亦凡（Yifan Jiang），为大家详细解读此前沿研究。

分享主题：TransGAN：丢弃卷积，纯 Transformer 构建 GAN 网络

个人简介：江亦凡，德州大学奥斯汀分校电子计算机工程专业博士生。2019 年毕业于华中科技大学电子信息学院，并先后于 2019 年和 2020 年在字节跳动 AI 实验室和 Adobe 担任研究实习生。研究兴趣包括深度学习和计算机视觉，当前的研究兴趣为图像生成与图像编辑、神经架构搜索和高维表征学习。个人主页：yifanjiang.net (http://yifanjiang.net/)

分享概要：近期一系列研究表明，Transformer 有足够的潜力在计算机视觉任务上成为强大的 “通用” 模型（如分类任务，检测任务，分割任务等）。然而，Transformer 距离成为通用模型的距离还有多远？Transformer 能否应用到其它一些极为困难的视觉任务，例如生成对抗网络（GAN）上？由这一系列问题启发，我们设计 TransGAN，通过不包含卷积神经网络（CNN）的纯 transformer 结构来构建 GAN 网络。在这次报告中，我将为大家介绍 TransGAN 的优势和不足，并讨论一系列相关的问题。例如，TransGAN 在不同数据集上的表现如何？由 transformer 构建的 GAN 网络相比于 CNN 构建的 GAN 网络速度如何？以及 TransGAN 能否扩大的更高分辨率的任务上。

分享论文链接：https://arxiv.org/abs/2102.07074

直播间链接：https://app6ca5octe2206.h5.xiaoeknow.com/v1/course/alive/l_6034d049e4b035d3cdba5abf?type=2

直播时间：北京时间 3 月 3 日 20:00-21:00

加入机动组，一起看直播

「机动组」是机器之心发起的人工智能技术社区，将持续提供技术公开课、论文分享、热门主题解读等线上线下活动，同时「机动组」也将不定期组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

添加机器之心小助手（syncedai5），备注「论文分享」，加入本次直播群。

如小助手添加异常，还可以添加 syncedai4 与 syncedai6，或将微信 ID 发送至邮箱 shidongle@jiqizhixin.com，我们将邀请你入群。

入门TransformerGAN机器之心