2023/02/16 17:22

超越GPT 3.5的小模型来了！

多模态思想的力量很强大。

去年年底，OpenAI 向公众推出了 ChatGPT，一经发布，这项技术立即将 AI 驱动的聊天机器人推向了主流话语的中心，众多研究者并就其如何改变商业、教育等展开了一轮又一轮辩论。

随后，科技巨头们纷纷跟进投入科研团队，他们所谓的「生成式 AI」技术（可以制作对话文本、图形等的技术）也已准备就绪。

众所周知，ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？近日，亚马逊发布的一篇论文《Multimodal Chain-of-Thought Reasoning in Language Models》中，他们提出了包含视觉特征的 Multimodal-CoT，该架构在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

这里简单介绍一下 ScienceQA 基准测试，它是首个标注详细解释的多模态科学问答数据集，由 UCLA 和艾伦人工智能研究院（AI2）提出，主要用于测试模型的多模态推理能力，有着非常丰富的领域多样性，涵盖了自然科学、语言科学和社会科学领域，对模型的逻辑推理能力提出了很高的要求。

论文地址：https://arxiv.org/abs/2302.00923

项目地址：https://github.com/amazon-science/mm-cot

下面我们来看看亚马逊的语言模型是如何超越 GPT-3.5 的。

包含视觉特征的 Multimodal-CoT

大型语言模型 (LLM) 在复杂推理任务上表现出色，离不开思维链 (CoT) 提示的助攻。然而，现有的 CoT 研究只关注语言模态。为了在多模态中触发 CoT 推理，一种可能的解决方案是通过融合视觉和语言特征来微调小型语言模型以执行 CoT 推理。

然而，根据已有观察，小模型往往比大模型更能频繁地胡编乱造，模型的这种行为通常被称为「幻觉（hallucination）」。此前谷歌的一项研究也表明（论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ），基于 CoT 的提示只有在模型具有至少 1000 亿参数时才有用！

也就是说，CoT 提示不会对小型模型的性能产生积极影响，并且只有在与 ∼100B 参数的模型一起使用时才会产生性能提升。

然而，本文研究在小于 10 亿参数的情况下就产生了性能提升，是如何做到的呢？简单来讲，本文提出了包含视觉特征的 Multimodal-CoT，通过这一范式（Multimodal-CoT）来寻找多模态中的 CoT 推理。

Multimodal-CoT 将视觉特征结合在一个单独的训练框架中，以减少语言模型有产生幻觉推理模式倾向的影响。总体而言，该框架将推理过程分为两部分：基本原理生成（寻找原因）和答案推理（找出答案）。

Multimodal CoT 两阶段过程：使用文本（问题 + 上下文）和视觉特征来产生逻辑依据。

数据集

本文主要关注 ScienceQA 数据集，该数据集将图像和文本作为上下文的一部分，此外，该数据集还包含对答案的解释，以便可以对模型进行微调以生成 CoT 基本原理。此外，本文利用 DETR 模型生成视觉特征。

较小的 LM 在生成 CoT / 基本原理时容易产生幻觉，作者推测，如果有一个修改过的架构，模型可以利用 LM 生成的文本特征和图像模型生成的视觉特征，那么更有能力提出理由和回答问题。

架构

总的来说，我们需要一个可以生成文本特征和视觉特征并利用它们生成文本响应的模型。

又已知文本和视觉特征之间存在的某种交互，本质上是某种共同注意力机制，这有助于封装两种模态中存在的信息，这就让借鉴思路成为了可能。为了完成所有这些，作者选择了 T5 模型，它具有编码器 - 解码器架构，并且如上所述，DETR 模型用于生成视觉特征。

T5 模型的编码器负责生成文本特征，但 T5 模型的解码器并没有利用编码器产生的文本特征，而是使用作者提出的共同注意式交互层（co-attention-styled interaction layer）的输出。

拆解来看，假设 H_language 是 T5 编码器的输出。X_vision 是 DETR 的输出。第一步是确保视觉特征和文本特征具有相同的隐藏大小，以便我们可以使用注意力层。

注意：所有代码片段均来自论文的 GitHub：https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)

W_h 本质上是一个线性层，H_vision 对应最终的视觉特征。W_h 有助于更改视觉特征的大小以匹配文本特征的大小。

下面我们需要添加一个注意力层，以便视觉和文本特征可以相互交互。为此，作者使用单头注意力层，将 H_language 作为查询向量，将 H_vision 作为键和值向量。

现在我们有了包含来自文本和视觉特征的信息的嵌入。随后，作者利用门控融合来生成最终的一组特征，这些特征将被发送到解码器。门控融合有两个步骤：

获取一个介于 0 和 1 之间的分数向量，以确定每个注意力特征的重要性。
利用 score 融合 text 和 attention 特征。

W_I 和 W_v 本质上是两个线性层。

最后，融合的特征被传递给解码器。

这几乎就是作者所遵循的架构！但是，请记住有两个阶段。第一个阶段是产生基本原理 / CoT。第二阶段利用第一阶段产生的 CoT 来产生答案，如上图所示。

结果

作者使用 UnifiedQA 模型的权重作为 T5 模型的初始化点，并在 ScienceQA 数据集上对其进行微调。他们观察到他们的 Multimodal CoT 方法优于所有以前的基准，包括 GPT-3.5。

有趣的地方在于，即使只有 2.23 亿个参数的基本模型也优于 GPT-3.5 和其他 Visual QA 模型！这突出了拥有多模态架构的力量。

作者还展示了他们的两阶段方法优于单阶段方法。

结论

这篇论文带来的最大收获是多模态特征在解决具有视觉和文本特征的问题时是多么强大。

作者展示了利用视觉特征，即使是小型语言模型（LM）也可以产生有意义的思维链 / 推理，而幻觉要少得多，这揭示了视觉模型在发展基于思维链的学习技术中可以发挥的作用。

从实验中，我们看到以几百万个参数为代价添加视觉特征的方式，比将纯文本模型扩展到数十亿个参数能带来更大的价值。

参考内容：

https://pub.towardsai.net/paper-review-multimodal-chain-of-thought-reasoning-a550f8de693c

理论亚马逊

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

逻辑推理技术

逻辑推理中有三种方式：演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。