2023/11/29 14:34

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征，该框架使得一个 LLM 能够在图片和视频的混合数据下训练，并同时完成图片和视频理解任务。更重要的是，该框架极大降低了视觉语言模型训练和推理的开销，使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。

论文地址：https://arxiv.org/pdf/2311.08046.pdf
GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi
Huggingface 地址：https://huggingface.co/Chat-UniVi
Demo 地址：https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

^{图 1 Chat-UniVi 在图片、视频上的 17 个基准上达到先进的性能}

具体来说，北京大学和中山大学的研究人员提出了一种名为 Chat-UniVi 的统一的视觉语言方案，其能通过统一的视觉表征同时处理图片任务和视频任务。作为一个统一的视觉理解模型，Chat-UniVi 以更少的视觉 token 数量，超过了专门针对图片设计的多模态大模型和专门针对视频设计的多模态大模型。更值得注意的是，所提出的统一的视觉表征极大减少了输入视觉 token 的数量，大大降低了模型的训练和推理成本，使得训练一个具有 130 亿参数的通用视觉语言大模型只需要三天。

在介绍本文方法之前，我们先看一下 Demo 展示：

方法介绍

现有的多模态语言模型通常只专注于图片或视频输入。其中，专注于图片理解的方法通常使用大量的视觉 token 来获得更精细的空间分辨率。而专注于视频理解的方法往往会牺牲每帧的空间分辨率，以输入更多帧构建更精细的时间理解能力。

对此，研究人员提出使用一组动态视觉 token 统一表示图片和视频。如图 2 所示，图片可以通过不同大小的视觉 token 来建模。例如，主要对象 (即图 2 中的羊) 需要使用更多视觉 token 进行细粒度表示，而背景 (即雪山) 只需使用一个视觉 token 即可充分建模。对于视频来说，视频首先会被分成多个关键事件，随后视觉 token 会在事件内部进行拓展。这种图片和视频的统一表示大大减少了视觉 token 的数量，同时保持了模型的表达能力。值得注意的是，在该方法中，较长的视频被分配了更多的视觉 token。因此，比现有的方法更适合于具有可变长度视频的理解。

^{图 2 Chat-UniVi 提出的统一视觉表征}

为了获得这些动态的视觉 token，研究人员基于最近邻的密度峰聚类算法，逐步对视觉 token 进行分组和合并。当涉及视频时，同样应用最近邻的密度峰聚类算法来获取事件的帧集合。为了进一步提升模型的性能，研究人员为 LLM 提供了一个多尺度表征，其中多尺度表征的上层特征表示高级语义概念，而下层特征强调视觉细节表示。

^{图 3 Chat-UniVi 整体框架图}

Chat-UniVi 框架具有两个引人注目的优点：首先，其统一的图片和视频建模方法允许在图片和视频混合数据集上进行训练，而无需任何修改即可直接应用于图片和视频任务。其次，多尺度表征有助于对图片和视频的全面理解，使 Chat-UniVi 能够适应各种任务，包括使用高层次特征进行语义理解，使用低层次特征生成详细描述。

Chat-UniVi 的训练分为两个阶段：

（1）多模态预训练。在第一阶段，研究人员冻结 LLM 和视觉编码器的同时只训练投影矩阵。这种训练策略使模型能够有效地捕获视觉信息，而不会对 LLM 的性能造成任何明显的损害。

（2）联合指令微调。在第二阶段，研究人员在一个包含图片和视频的混合数据集上对整个模型进行了全参数微调。通过在混合数据集上的联合训练，Chat-UniVi 实现了对大量指令的卓越理解，并产生了更自然、更可靠的输出。

实验

图片理解实验。Chat-UniVi 使用更少的视觉 token，同时实现卓越的性能。值得注意的是，Chat-UniVi 模型在 7B 参数下，也能达到 LLaVA 模型 13B 参数下的性能水平，证明了该方法的有效性。

视频理解实验。Chat-UniVi 作为一个统一的视觉语言模型，超过了专门针对视频设计的方法，例如 VideoChat 和 Video-ChatGPT。

图片问答实验。Chat-UniVi 在 ScienceQA 数据集上获得了有竞争力的性能。值得注意的是，Chat-UniVi 优于专门针对科学问答进行优化的 LLaMA-SciTune 模型，充分体现了该方法的优越性。

视频问答实验。在所有数据集上，Chat-UniVi 都优于最先进的方法，例如 VideoChat 和 Video-ChatGPT。

幻觉实验。在幻觉评估上，Chat-UniVi 优于最近提出的最先进的方法。此外，研究人员发现多尺度表征提高了抵抗幻觉的能力。值得注意的是，作为 7B 模型，Chat-UniVi 甚至优于 13B 模型，如 MiniGPT4。研究人员将这一成功归功于多尺度表征，多尺度表征使模型能够同时感知高级语义概念和低级视觉外观。

人工评测实验。同时，研究人员也进行了人工评估实验。研究人员发现基于 Flamingo 的方法在理解视频的能力上存在局限性。这种限制归因于它们使用 Q-Former 从不同长度的视频中提取固定数量的视觉 token，这阻碍了它们在建模时间理解方面的有效性。相比之下，Chat-UniVi 作为一个统一的模型，不仅优于基于 Flamingo 构建的方法，而且超过了专门为图片和视频设计的模型。

可视化。Chat-UniVi 所使用的动态视觉 token 有效地概括了对象和背景。这使 Chat-UniVi 能够使用有限数量视觉 token 的同时构建图片理解所需的细粒度的空间分辨率和视频理解所需的细粒度时间分辨率。

工程Chat-UniVi

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科

北京大学机构

北京大学创办于1898年，初名京师大学堂，是中国第一所国立综合性大学，也是当时中国最高教育行政机关。辛亥革命后，于1912年改为现名。2000年4月3日，北京大学与原北京医科大学合并，组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校，创建于1912年10月26日。20世纪三、四十年代，学校一度名为北平大学医学院，并于1946年7月并入北京大学。1952年在全国高校院系调整中，北京大学医学院脱离北京大学，独立为北京医学院。1985年更名为北京医科大学，1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构，为促进医学与人文社会科学及理科的结合，改革医学教育奠定了基础。

官网，http://www.pku.edu.cn/