2024/10/21 13:11

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点：只要能够非常好的预测下一个 token，就能帮助人类达到通用人工智能（AGI）。

虽然，下一 token 预测已在大语言模型领域实现了 ChatGPT 等突破，但是在多模态模型中的适用性仍不明确，多模态任务仍然由扩散模型（如 Stable Diffusion）和组合方法（如结合 CLIP 视觉编码器和 LLM）所主导。

2024 年 10 月 21 日，智源研究院正式发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3 在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora 等知名开源模型，但是无需扩散模型、CLIP 视觉编码器、预训练的 LLM 等技术，只需要预测下一个 token。

^{在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。}

Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于 Emu3 下一个 token 预测框架的灵活性，直接偏好优化（DPO）可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。下一个 token 预测为构建多模态 AGI 提供了一条前景广阔的道路。

目前 Emu3 已开源了关键技术和模型。（开源模型和代码地址在文末）

Emu3 一经上线便在社交媒体和技术社区引起了热议：

有网友指出，“这是几个月以来最重要的研究，我们现在非常接近拥有一个处理所有数据模态的单一架构。”

“Emu3 是一种非常新颖的方法（至少在我看来是这样），它有机会将多模态合并为一，只需将它们都视为 token 即可。虽然还处于初期，但演示效果很不错。想象一下，我们可以无限扩展视频和生成多种模态。”

甚至有网友评价：“也许我们会得到一个真正开放的 OpenAI v2？”

对于 Emu3 的意义和影响，有评论指出：“Emu3 将彻底改变多模态 AI 领域，提供无与伦比的性能和灵活性。”

“Emu3 在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。”

“对于研究人员来说，Emu3 意味着出现了一个新的机会，可以通过统一的架构探索多模态，无需将复杂的扩散模型与大语言模型相结合。这种方法类似于 transformer 在视觉相关任务中的变革性影响。”

“Emu3 的统一方法将带来更高效、更多功能的 AI 系统，简化多模态 AI 的开发和应用以及内容生成、分析和理解的新可能性。”

"Emu3 改写了多模态人工智能的规则...Emu3 重新定义了多模态 AI，展示了简单可以战胜复杂。多模态 AI 的未来变得更加精炼与强大。"

效果展示

1. 视觉理解

Emu3 展现了强大的图像及视频的感知能力，能够理解物理世界并提供连贯的文本回复。值得注意的是，这种能力是在不依赖于基础 LLM 模型和 CLIP 的情况下实现的。

1.1 图像输入

^{用户问题: Describe the landmark.}

^{模型回答: The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.}

^{用户问题: Please describe the image in detail.}

^{模型回答: The image is the cover of a magazine titled "Parktakes," which is the Fall 2017 issue. The cover features two individuals in a white kayak, paddling on a body of water. The kayak is positioned diagonally, with the two individuals seated towards the front. Both individuals are wearing life jackets, which are red with black straps, and they are holding paddles with orange blades. The person on the left is a woman with long dark hair, wearing sunglasses and a black top. The person on the right is a man with short hair, wearing a green shirt and a light-colored cap. They both appear to be smiling and enjoying their time on the water.}

^{The background shows a natural setting with trees and greenery, indicating that they are likely in a park or natural reserve. The water is calm, and the sky is not visible, suggesting a serene and peaceful environment.}

^{The magazine cover includes several text elements:}

^{1. **Title**: "Parktakes" is prominently displayed at the top in large, bold, blue letters.}

^{2. **Fall 2017 Issue**: The issue is marked in the top right corner in a smaller, white font.}

^{3. **Main Feature**: "Enjoy Fall Adventures in Parks" is written in a large, bold, orange font, emphasizing the theme of outdoor activities.}

^{4. **Additional Features**: The cover lists several topics covered in the magazine:}

^{- "Birding, Boating, and Hiking"}

^{- "Seasonal Festivals"}

^{- "New Attractions"}

^{5. **Registration Information**: At the bottom, there is a call to action to "Registration begins Aug. 1 for full classes" and a website link: "www.fairfaxcounty.gov/parks."}

^{Analysis and Description}

^{The cover of "Parktakes" effectively conveys the theme of outdoor recreational activities, particularly in parks. The image of the two individuals in a kayak suggests that the magazine features content related to kayaking, canoeing, and other water sports. The inclusion of life jackets indicates a focus on safety and preparedness for water activities. The mention of seasonal festivals and new attractions implies that the magazine includes information on various events and attractions within the parks.}

^{The cover also highlights the magazine's commitment to providing a comprehensive guide to outdoor activities, with a clear emphasis on safety and accessibility. The registration information suggests that the magazine is a resource for planning and participating in various outdoor activities, likely targeting a wide audience interested in parks and recreational activities.}

^{In summary, the magazine cover is designed to attract readers interested in outdoor adventures, safety, and seasonal events within parks. The use of a kayak and life jackets emphasizes the magazine's focus on water sports and safety, while the inclusion of various features and registration information suggests a well-rounded resource for park visitors.}

1.2 视频输入

^{用户问题: What is the man doing in the video?}

^{模型回答: The man in the video appears to be performing a fire dance, a form of entertainment where a person uses fire to create dynamic and visually appealing movements. The sparklers he holds produce a mesmerizing display of light and shadows, capturing the intensity of his performance.}

2. 图像生成

Emu3 通过预测下一个视觉 token 来生成高质量的图像。该模型自然支持灵活的分辨率和不同风格。

3. 视频生成

与使用视频扩散模型以从噪声生成视频的 Sora 不同，Emu3 只是通过预测序列中的下一个 token 来因果性的生成视频。

4. 视频预测

在视频的上下文中，Emu3 可以自然地扩展视频并预测接下来会发生什么。模型可以模拟物理世界中环境、人和动物。

Emu3 技术细节

1 数据

Emu3 是在语言、图像和视频混合数据模态上从头开始训练的。

语言数据：使用与 Aquila 模型相同的语言数据，一个由中英文数据组成的高质量语料库。
图像数据：构建了一个大型图像文本数据集，其中包括开源网络数据、AI 生成的数据和高质量的内部数据。整个数据集经过了分辨率、图片质量、类型等方面的过滤过程。训练了一个基于 Emu2 的图像描述模型来对过滤后的数据进行标注以构建密集的图像描述，并利用 vLLM 库来加速标注过程。
视频数据：收集的视频涵盖风景、动物、植物和游戏等多个类别。

整个视频处理流程包括了场景切分、文本过滤、光流过滤、质量评分等阶段。并使用基于图像描述模型微调得到的视频描述模型来对以上过滤后的视频片段打标文本描述。

2 统一视觉 Tokenizer

在 SBER-MoVQGAN 的基础上训练视觉 tokenizer ，它可以将 4 × 512 × 512 的视频片段或 512 × 512 的图像编码成 4096 个离散 token。它的词表大小为 32,768。Emu3 的 tokenizer 在时间维度上实现了 4× 压缩，在空间维度上实现了 8×8 压缩，适用于任何时间和空间分辨率。

此外，基于 MoVQGAN 架构，在编码器和解码器模块中加入了两个具有三维卷积核的时间残差层，以增强视频 token 化能力。

3 架构

Emu3 保留了主流大语言模型（即 Llama-2）的网络架构。不同点在于，其扩展了 Llama-2 架构中的嵌入层，以容纳离散的视觉 token。网络中使用 RMSNorm 进行归一化。其还使用了 GQA 注意力机制、SwiGLU 激活函数和一维旋转位置编码（RoPE）等技术，并并去除了注意力模块中 QKV 层和线性投影层中的偏置。此外，还采用了 0.1 的 dropout 率来提高训练的稳定性，使用 QwenTokenizer 对多语言文本进行编码。详细架构配置表。

4 预训练

在预训练过程中，首先要定义多模态数据格式。与依赖外部文本编码器的扩散模型不同，Emu3 原生集成了用于生成图像 / 视频的文本条件信息。在视觉和语言的固有 token 中新增了五个特殊 token 来合并文本和视觉数据，以为训练过程创建类似文档的输入。生成的训练数据结构如下：

[BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS]

其中，[BOS] 和 [EOS] 是 QwenTokenizer 中的原始特殊 token 。额外新增的特殊 token 包括：[SOV] 表示视觉输入（包含图像和视频的 meta 信息部分）的开始，[SOT] 表示视觉 token 的开始，[EOV] 表示视觉输入的结束。

此外，特殊 token [EOL] 和 [EOF] 作为换行符和换帧符插入到了视觉 token 中。元文本包含图像的分辨率信息，视频则包括分辨率、帧率和持续时间，均以纯文本格式呈现。在构建理解数据时，Emu3 将部分数据中的 "caption text" 字段移至 [EOV] token 之后。

训练目标：由于 Emu3 中的视觉信号已完全转换为离散 token，因此只需使用标准的交叉熵损失进行下一个 token 预测任务的训练。为了防止视觉 token 在学习过程中占据主导地位，对与视觉 token 相关的损失加权 0.5。
训练细节：Emu3 模型在预训练期间利用非常长的上下文长度来处理视频数据。为便于训练，采用了张量并行（TP）、上下文并行（CP）和数据并行（DP）相结合的方法。同时将文本和图像数据打包成最大上下文长度，以充分利用计算资源，同时需要确保在打包过程中不会分割完整的图像。

预训练过程分为两个阶段，第一阶段不使用视频数据，训练从零开始，文本和图像数据的上下文长度为 5,120；在第二阶段，引入视频数据，并使用 131,072 的上下文长度。

5 SFT 阶段

5.1 视觉生成

质量微调：在预训练阶段之后，对视觉生成任务进行后训练，以提高生成输出的质量。使用高质量数据进行质量微调。
直接偏好优化：Emu3 在自回归多模态生成任务中采用直接偏好优化（Direct Preference Optimization，DPO）技术，利用人类偏好数据来提高模型性能。

5.2 视觉语言理解

预训练模型经过两个阶段的视觉语言理解后训练过程：1) 图像到文本的训练以及 2) 指令调整。

第一阶段：将图像理解数据与纯语言数据整合在一起，而与视觉 token 相关的损失则在纯文本预测中被忽略。
第二阶段：利用 LLaVA 数据集中的约 320 万个问答对进行指令微调。低于 512 × 512 或高于 1024 × 1024 的图片将被调整到较低或较高的分辨率，同时保持相应的长宽比，而其他图片则保持原始分辨率。

开源地址

除了先前经 SFT 的 Chat 模型和生成模型外，智源研究院还在近日开源了 Emu3 生成和理解一体的预训练模型以及相应的 SFT 训练代码，以便后续研究和社区构建与集成。

代码：https://github.com/baaivision/Emu3
项目页面：https://emu.baai.ac.cn/
模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

未来方向

Emu3 为多模态 AI 指出了一条富有想象力的方向，有机会将 AI 基础设施收敛到单一技术路线上，为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用，包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个 token 有可能通往 AGI。

产业Emu3多模态世界模型智源研究院

相关数据

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

交叉熵技术

交叉熵（Cross Entropy）是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小

来源：维基百科

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如，图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如，图像通常表示为特征提取器的像素强度或输出，而文本则表示为离散的词向量。由于不同信息资源的统计特性不同，发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型，可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中，每个模态对应结合了两个深度玻尔兹曼机（deep boltzmann machines）.另外一个隐藏层被放置在两个玻尔兹曼机上层，以给出联合表示。

来源：Wikipedia

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式（或特征）的任务。

来源：paperswithcode

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

图像生成技术

图像生成（合成）是从现有数据集生成新图像的任务。

来源：paperswithcode

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

QGAN技术

清华和中科大的研究者在 Science Advances 上发表论文《Quantum generative adversarial learning in a superconducting quantum circuit》，介绍了他们在超导量子电路上实现了第一个生成对抗学习的原理验证，即量子版本的 GAN。据介绍，实验中生成的单个 qubit 的平均保真度为 98.8%。

来源：机器之心官网

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia

Infor机构

Infor是一家跨国企业软件公司，总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件， Infor在2010年开始专注于工业利基市场的软件，以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com