Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力:

图片

                                      论文标题: "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction"

这项名为 VAR 的新工作由北京大学字节跳动的研究者提出,登上了 GitHub 和 Paperwithcode 热度榜单,并得到大量同行关注:

图片

目前体验网站、论文、代码、模型已放出:

  • 体验网站:https://var.vision/

  • 论文链接:https://arxiv.org/abs/2404.02905

  • 开源代码:https://github.com/FoundationVision/VAR

  • 开源模型:https://huggingface.co/FoundationVision/var

背景介绍

自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive 自回归模型已经取得了较大的成功,尤其 Scaling Law 缩放定律和 Zero-shot Task Generalizability 零样本任务泛化能力十分亮眼,初步展示出通往「通用人工智能 AGI」的潜力。

然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型:近期持续刷屏的 DALL-E3、Stable Diffusion3、SORA 等模型均属于 Diffusion 家族。此外,对于视觉生成领域是否存在「Scaling Law 缩放定律」仍未知,即测试集损失是否随模型或训练开销增长而呈现出可预测的幂律 (Power-law) 下降趋势仍待探索。

GPT 形式自回归模型的强大能力与 Scaling Law,在图像生成领域,似乎被「锁」住了:

图片

                                  自回归模型在生成效果榜单上落后于一众 Diffusion 模型

剑指「解锁」自回归模型的能力和 Scaling Laws,研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,并迎来了视觉生成领域的 Scaling Laws:

图片

VAR 方法核心:模仿人类视觉,重新定义图像自回归顺序

人类在感知图像或进行绘画时,往往先概览全局、再深入细节。这种由粗到细、从把握整体到精调局部的思想非常自然:

图片

                                         人类感知图片(左)与创作画作(右)由粗到细的逻辑顺序

然而,传统的图像自回归(AR)却使用一种不符合人类直觉(但适合计算机处理)的顺序,即自上而下、逐行扫描的光栅顺序(或称 raster-scan 顺序),来逐个预测图像 token:

图片

VAR 则「以人为本」,模仿人感知或人创造图像的逻辑顺序,使用从整体到细节的多尺度顺序逐渐生成 token map:

图片

除了更自然、更符合人类直觉,VAR 带来的另一个显著优势是大幅提高了生成速度:在自回归的每一步(每一个尺度内部),所有图像 token 是一次性并行生成的;跨尺度则是自回归的。这使得在模型参数和图片尺寸相当的情况下,VAR 能比传统 AR 快数十倍。此外,在实验中作者也观察到 VAR 相比 AR 展现出更强的性能和 Scaling 能力。

VAR 方法细节:两阶段训练

图片

VAR 在第一阶段训练一个多尺度量化自动编码器(Multi-scale VQVAE),在第二阶段训练一个GPT-2 结构一致(结合使用 AdaLN)的自回归 Transformer。

如左图所示,VQVAE 的训练前传细节如下:

  • 离散编码:编码器将图片转化为离散 token map R=(r1, r2, ..., rk),分辨率从小到大

  • 连续化:r1 至 rk 先通过嵌入层转换为连续 feature map,再统一插值到 rk 对应最大分辨率,并求和

  • 连续解码:求和后的 feature map 经过解码器得到重建图片,并通过重建 + 感知 + 对抗三个损失混合训练

如右图所示,在 VQVAE 训练结束后,会进行第二阶段的自回归 Transformer 训练:

  • 自回归第一步是通过起始 token [S] 预测最初的 1x1 token map

  • 随后每一步,VAR 都基于历史所有的 token map 去预测下一个更大尺度的 token map

  • 训练阶段,VAR 使用标准的交叉熵损失监督这些 token map 的概率预测

  • 测试阶段,采样得到的 token map 会借助 VQVAE 进行连续化、插值求和、解码,从而得到最终生成的图像

作者表示,VAR 的自回归框架是全新的,而具体技术方面则吸收了 RQ-VAE 的残差 VAE、StyleGAN 与 DiT 的 AdaLN、PGGAN 的 progressive training 等一系列经典技术的长处。VAR 实际是站在巨人的肩膀上,聚焦于自回归算法本身的创新。

实验效果对比

VAR 在 Conditional ImageNet 256x256 和 512x512 上进行实验:

  • VAR 大幅提升了 AR 的效果,一转 AR 落后于 Diffusion 的局面

  • VAR 仅需 10 步自回归步骤,生成速度大幅超过 AR、Diffusion,甚至逼近 GAN 的高效率

  • 通过 Scale up VAR 直至 2B/3B,VAR 达到了 SOTA 水平,展现出一个全新的、有潜力的生成模型家族。

图片

令人关注的是,通过与 SORA、Stable Diffusion 3 的基石模型 Diffusion Transformer(DiT)对比,VAR 展现出了:

  • 更好效果:经过 scale up,VAR 最终达到 FID=1.80,逼近理论上的 FID 下限 1.78(ImageNet validation set),显著优于 DiT 最优的 2.10

  • 更快速度:VAR 只需不到 0.3 秒即可生成一张 256 图像,速度是 DiT 的 45 倍;在 512 上更是 DiT 的 81 倍

  • 更好 Scaling 能力:如左图所示,DiT 大模型在增长至 3B、7B 后体现出饱和现象,无法靠近 FID 下限;而 VAR 经过缩放到 20 亿参数,性能不断提升,最终触及 FID 下限

  • 更高效的数据利用:VAR 仅需 350 epoch 训练即超过 DiT 1400 epoch 训练

这些比 DiT 更高效、更高速、更可扩放的证据为新一代视觉生成的基础架构路径带来了更多可能性。

图片

Scaling Law 实验

Scaling law 可谓是大语言模型的「皇冠明珠」。相关研究已经确定,在 Scale up 自回归大型语言模型过程中,测试集上的交叉熵损失 L,会随着模型参数量 N、训练 token 个数 T,以及计算开销 Cmin 进行可预测的降低,呈现出幂律(Power-law)关系。

Scaling law 不仅使根据小模型预测大模型性能成为可能,节省了计算开销和资源分配,也体现出自回归 AR 模型强大的学习能力,测试集性能随着 N、T、Cmin 增长。

通过实验,研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law:研究者训练了 12 种大小的模型,缩放模型参数量从 1800 万到 20 亿,总计算量横跨 6 个数量级,最大总 token 数达到 3050 亿,并观察到测试集损失 L 或测试集错误率 与 N 之间、L 与 Cmin 之间展现出平滑的的幂律关系,并拟合良好:

图片

在 scale-up 模型参数和计算量过程中,模型的生成能力可见得到逐步提升(例如下方示波器条纹):

图片

Zero-shot 实验

得益于自回归模型能够使用 Teacher-forcing 机制强行指定部分 token 不变的这一优良性质,VAR 也展现出一定的零样本任务泛化能力。在条件生成任务上训练好的 VAR Transformer,不通过任何微调即可零样本泛化到一些生成式任务中,例如图像补全(inpainting)、图像外插(outpainting)、图像编辑(class-condition editing),并取得一定效果:

图片

结论

VAR 为如何定义图像的自回归顺序提供了一个全新的视角,即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws、Zero-shot Generalizability。作者们希望 VAR 的思想、实验结论、开源,能够贡献社区探索自回归范式在图像生成领域的使用,并促进未来基于自回归的统一多模态算法的发展。

产业Visual Autoregressive Modeling
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~