2023/10/17 15:07

谷歌视觉语言模型PaLI-3问世，参数仅5B，更小、更快、更强

在多模态（视觉语言）大模型领域，拼参数赢性能的同时，追求参数更小、速度更快、性能更强是另一条研究路径。

在大模型时代，视觉语言模型（VLM）的参数已经扩展到了数百甚至数千亿，使得性能持续增加。与此同时，更小规模的模型仍然很重要，它们更易于训练和服务，更加环境友好，并为模型设计提供更快的研究周期。

在该领域，谷歌研究院在去年推出了一个名为 PaLI（Pathways Language and Image）的模型。作为一个多模态大模型，PaLI 的关键结构之一是复用大型单模态基干进行语言和视觉建模，在语言方面复用 13B 参数的 mT5-XXL，在视觉方面复用 2B 参数的 ViT-G 和 4B 参数的 ViT-e。当时 PaLI 实现了优于多数新旧模型的性能。

此后谷歌继续专注于更小规模的建模，并于近日提出 PaLI-3，这是 PaLI 系列的第三代模型。通过一个仅有 5B 参数的预训练基线模型，他们优化了训练方法，并在多个 VLM 基准上实现了有竞争力以及新的 SOTA 结果。

该方法主要由三部分组成，分别是在 web 规模的图像文本数据上对图像编码器的对比预训练、用于 PaLI 多模态训练的改进后的混合数据集，以及更高分辨率的训练。

^{作者来自谷歌研究院、谷歌DeepMind和谷歌云。}

论文地址：https://arxiv.org/pdf/2310.09199.pdf

下图为 5B PaLI-3 模型概览，其中通过对比预训练的 2B SigLIP 视觉模型，图像被单独地编码成了视觉 token。接着与 query 一起，这些视觉 token 被传递给了 3B 编码器 - 解码器结构的 UL2 Transformer，它生成了预期答案。在这样的设置下，与之前 PaLI 模型中单个分类预训练的模型，对比预训练的模型提供了明显更有用的 token。

效果怎么样呢？PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA，包括 RefCOCO 数据集上的 8 个视觉定位文本理解任务和参考表达分割任务。PaLI-3 也在一系列分类视觉任务上有出色的表现。

此外研究者还专门做了消融实验以与分类预训练的 ViT 基线模型比较，并进一步确认了预训练视觉编码器在有噪声 web 规模的图像文本数据上的可行性，从而成为在分类数据上进行训练的优先替代方案。

除了 5B PaLI-3 模型之外，研究者还利用最近提出的 SigLIP 方法，构建了一个参数扩展到 2B 的 SOTA 多语言对比视觉模型。

模型介绍

架构

在更高的层面，PaLI-3 的架构遵循了 Chen et al. (2023b;a)：ViT 模型将图像编码为 token，并与问题、提示和指令等文本输入一起被传递到编码器 - 解码器结构的 transformer，从而生成文本输出。

先看视觉组件。研究者使用 SigLIP 训练方法，从对比预训练的 ViT-G/14 模型（参数约为 2B）初始化出 PaLI-3 的视觉基干。简而言之，他们训练了图像嵌入 ViT-G/14 模型和文本嵌入 transformer 模型来分别嵌入图像和文本，这样一来，使用图像和文本嵌入点积的 sigmoid 交叉熵的二元分类器，能够准确地分类各自的图像和文本是否相互对应。

这类似于 CLIP 和 ALIGN，但更加高效、可扩展和稳健。同时这种方法是为了预训练 ViT 图像嵌入组件，因此当将 ViT 插入到 PaLI 时，文本嵌入 transformer 会被丢弃。

再来看完整的 PaLI 模型。ViT 图像编码器的输出在池化之前形成了视觉 token，并线性地映射和添加到嵌入的输入文本 token。接着这些 token 被传递到了预训练的 3B UL2 编码器 - 解码器模型，从而生成文本输出。该模型的文本输入通常包含有描述任务类型的提示，并为该任务编码必要的文本输入。

训练

训练过程包含多个阶段。

阶段 0：单峰预训练。图像编码器按照 SigLIP 训练协议，图像编码器的训练分辨率为 224×224 ；文本编码器 - 解码器是一个 3B UL2 模型，按照 Tay 等人描述的混合降噪程序进行训练。

阶段 1：多模态训练。将图像编码器与文本编码器 - 解码器相结合，然后，将这个组合得到的 PaLI 模型在多模态任务和数据上进行训练，此时，图像编码器保持冻结，分辨率还是 224×224。通过对文本质量进行启发式过滤，并使用 SplitCap 训练目标，再次从 WebLI 数据集派生出主要的混合组件。

阶段 2：提升分辨率。高分辨率输入是一种被广泛接受的提高性能的方法，这既是因为可以感知图像中的更多细节，也是因为通过增加序列长度来提高模型能力。本文通过解冻图像编码器来提高 PaLI-3 的分辨率，将检查点保持在 812×812 和 1064×1064 分辨率。

任务迁移。最后，对于每个单独的任务（基准），本文使用冻结的 ViT 图像编码器在任务的训练数据上微调 PaLI-3 模型；对于大多数任务，本文微调 812×812 分辨率检查点，但对于两个文档理解任务，本文将分辨率提高到 1064×1064。

实验及结果

实验首先比较了在 PaLI 框架下不同 ViT 模型的结果对比，研究者考虑了两种 ViT 模型：Classif 和 SigLIP。

结果如表 1 所示，表明虽然 SigLIP 模型的少样本线性分类有些落后，但通过使用 PaLI-3，SigLIP 模型在更简单的任务上（例如字幕和问答）提供了适度的增益，并且在更复杂的场景即文本和空间理解任务上取得了巨大增益。

此外，研究者还在 TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words、 WidgetCap 数据集上评估了 PaLI-3。结果如表 2 所示，在使用外部 OCR 系统的情况下，PaLI-3 仅比 SOTA 方法低 0.7 分。然而，在没有这种外部系统的情况下，PaLI-3 比所有 SOTA 方法的组合高出 4.4 分。对于 TextCaps、TextVQA、InfographicVQA 和 DocVQA，PaLI-3 的优势超多 8 分甚至更多。

参考表达分割

研究者扩展了 PaLI-3，使其能够通过类语言输出来预测分割掩码。为此，他们利用了 Ning et al. (2023) 的向量量化变分自编码器（VQ-VAE）。VQ-VAE 经过训练可以学习 128 个掩码 token，其编码器可以将 64 × 64 像素的分割掩码标记为 16 个掩码 token，解码器可以转换回来。

研究者训练 PaLI-3 来预测单个分割掩码，首先输出 4 个坐标作为文本，并表示为边界框。接着是 16 个掩码 token，表示边界框内的掩码。

表 1 表明对于此类定位任务，对比预训练比分类预训练更有效。下表 3 显示，完整的 PaLI-3 模型在参考表达分割方面略微优于现有技术。

图像理解

接下来研究者在一般视觉语言理解任务上评估了 PaLI-3。与之前的工作一样，他们没有使用外部 OCR 模块，因为这些基准测试很少涉及图像中的文本。

结果表明，与最近的 SOTA 模型相比，PaLI-3 的尺寸要小得多，但它在这些基准测试中表现出了非常强大的性能。对于 COCO，PaLI-3 优于除 BEiT-3 以及 17B 和 55B PaLI 之外的所有模型。在 VQAv2 和 TallyQA 上，PaLI-3 超过了除 PaLI-X 之外的所有先前模型。对于 OKVQA 任务，PaLI-3 仅落后于 PaLM-E (562B) 和 PaLI-X (55B)，但仍然优于 32-shot Flamingo (80B) 模型。

视频字幕和问答

该研究在 4 个视频字幕基准上对 PaLI-3 模型进行了微调和评估：MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。此外，该研究在 3 个视频问答基准上进行了同样的操作：NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。

尽管没有使用视频数据进行预训练，PaLI-3 仍以较小的模型尺寸实现了出色的视频 QA 结果：在 MSR-VTT-QA 和 ActivityNet-QA 上实现了最先进的性能，并在 NextQA 上取得了具有竞争力的结果。在图像和视频 QA 上的持续改进凸显了采用对比 ViT 的好处。

此外，PaLI-3 还取得了非常好的视频字幕结果，平均仅比 SOTA 结果低 3 个 CIDEr 点。考虑到模型尺寸，PaLI-3 在性能和实用性方面似乎都是一个绝佳的选择。

直接图像编码器评估

研究者还评估了 ViT-G 模型，ViT-G 可以理解为不是完整的 PaLI-3，结果如表 6 所示。

首先，该研究使用标准的 ImageNet 基准测试及其两个最流行的变体来测试图像分类功能。结果表明，SigLIP 在 top-1 和 v2 准确率方面略有落后，但在 ReaL 方面结果相当。

其次，该研究报告了不同模型在 Crossmodal-3600 基准上的结果。结果表明 SigLIP ViT-G 模型明显优于较大的 ViT-e 模型。

最后，该研究还报告了线性 probing 结果，结果表明 SigLIP 不及其他模型。

表 7 和表 8 评估了模型的公平性、偏差和其他潜在问题。

产业多模态大模型PaLI

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出，它包括两部分：编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征，低级表征叫作本征向量（latent vector）。解码器吸收数据的低级表征，然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本，其结构跟自动编码器是类似的，也由编码器和解码器构成。在自动编码器中，需要输入一张图片，然后将一张图片编码之后得到一个隐含向量，这比原始方法的随机取一个随机噪声更好，因为这包含着原图片的信息，然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片，因为没有办法自己去构造隐藏向量，所以它需要通过一张图片输入编码才知道得到的隐含向量是什么，这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制，迫使其生成的隐含向量能够粗略的遵循一个标准正态分布，这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易，只需要给它一个标准正态分布的随机隐含向量，这样通过解码器就能够生成想要的图片，而不需要给它一张原始图片先编码。

来源：机器之心 Tutorial on Variational Autoencoders

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

分类数据技术

一种特征，拥有一组离散的可能值。以某个名为 house style 的分类特征为例，该特征拥有一组离散的可能值（共三个），即 Tudor, ranch, colonial。通过将 house style 表示成分类数据，相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，car color 分类特征可能会允许单个样本具有多个值（例如 red 和 white）。

来源：Google ML glossary

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

目标定位技术

目标定位任务不仅要识别出图像中是什么，还要给出目标在图像中的位置信息。简单的说，就是用一个矩形框把识别的目标框出来（有时候也有多个固定数量的目标）。一般基本思路是多任务学习，网络带有两个输出分支。一个分支用于做图像分类，即全连接+softmax判断目标类别，和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置，即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽)，该分支输出结果只有在分类分支判断不为“背景”时才使用。

来源：知乎

量化技术

深度学习中的量化是指，用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

来源：Medium