2023/12/01 14:36

最强的GPT-4V都考不过？基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索，如下排行榜所示。

看起来，GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生，而是为了提供一个兼具深度与广度的多模态 AI 测试基准，助力人工智能系统的开发，尤其是通用人工智能（Artificial General Intelligence，AGI）。

随着大型语言模型（LLM）快速发展，人们对 AGI 这一颇具争议的概念进行了广泛讨论。简单来说，AGI 是指在大多数任务上都与人类相当或超越人类的人工智能系统。由于缺乏公认的可操作定义，人们一直都很难就 AGI 开展更加坦诚和建设性的讨论。

为了解决这个问题，Morris 等人的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一种兼顾通用性（广度）和性能（深度）的 AGI 分级分类法。

在这种分类法中，第 3 级是专家 AGI，这是一个重要的里程碑。它表示 AI 系统在广泛的任务上达到了「掌握专业知识的成年人类的 90%」，并由此可以在许多行业中达到「机器智能接替人类劳动力的替代门槛」，从而造成重大的失业风险和经济混乱。因此，密切关注专家 AGI 的发展情况具有重要的学术和社会意义。

那么，该如何创造用于度量专家 AGI 的基准呢？

由于专家 AGI 的定义是基于与专业人士的比较，因此不同学科的大学水平考试就是一个很好的起点，因为这些考试本身的目的就是评估人类在相应学科的专业能力。MMLU 和 AGIEval 等基准已经成功采用了这一策略，但它们只考虑了基于文本的问题，而人类专家有能力解决多模态问题。

与此同时，能够理解文本和图像的大型多模态模型（LMM）已经朝着更通用的人工智能迈出了一大步。这些 LMM 能在现有的多模态基准测试上获得稳定一致的优良表现。比如 CogVLM 在 VQA-v2 基准上的成绩为 85%，在 ScienceQA-IMG 上为 92%，在 RefCOCO 上为 93%。

然而，大多数现有的多模态基准侧重于常识 / 日常知识，而不是专家级的领域知识和高级推理。与这个目标最接近的基准是 ScienceQA。尽管 ScienceQA 覆盖了多个学科（广度），但其大部分问题都限于小学到初中水平，因此缺乏深度，不足以作为专家 AGI 的基准。

为此，IN.AI Research 等多所机构的一个研究团队构建了一个新基准 MMMU，可用于评估 AI 在大学水平的多学科问题上的多模态理解和推理能力。

论文地址：https://arxiv.org/abs/2311.16502
项目网站：https://mmmu-benchmark.github.io/
数据集：https://huggingface.co/datasets/MMMU/MMMU
代码：https://github.com/MMMU-Benchmark/MMMU

其中包含的问题来自大学考试、测验和教科书，涉及六个常见学科：艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程。MMMU 包含 1.15 万个精心选取的多模态问题，涵盖 30 个不同的科目和 183 个子领域，因此满足广度目标。此外，MMMU 中许多问题都需要专家级的推理能力，比如使用傅立叶变换或均衡理论来推导问题的解，因此也满足深度目标。

MMMU 还具备了两个特有挑战（图 1）：一是其涵盖多种图像格式，从照片和绘画等视觉场景到图表和表格，可用于测试 LMM 的感知能力；二是 MMMU 具有文本和图像混合交织的输入。对于这个基准，AI 模型需要把图像和文本放在一起理解，这往往需要回忆深度的学科知识并根据理解和知识来执行复杂推理。

该团队不仅提出了基准，也基于新基准评估了一些模型，其中包括 14 个开源 LMM 和 GPT-4V。他们从中得到了一些有趣的结论。

此外，他们还分析了 GPT-4V 的 150 个错误案例，结果发现 35% 的错误与感知有关，29% 的错误源自缺乏知识、26% 则是由于推理过程的缺陷。这些发现表明 MMMU 是有难度的，可用于助力进一步的研究发展。

MMMU 基准

MMMU 概况

MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的缩写，即大规模多学科多模态理解和推理。其构建目标是评估基础模型在广泛多样的任务上的专家级多模态理解能力。MMMU 涉及 6 个学科的 30 个科目。图 2 给出了每个学科的一个 MMMU 样本。

图 3 详细给出了所覆盖的科目及相关统计数据。

该基准中的问题是人工收集的，收集者是来自不同学科的 50 位大学生，数据来源包括网络资源、教科书和课程材料。

如表 1 所示，MMMU 中共有 1.15 万个问题，并分成了三个子集：少样本开发集、验证集和测试集。

少样本开发集中每个科目包含 5 个问题；验证集则包含大约 900 个问题，可用于超参数选择；测试集则有 1.05 万个问题。MMMU 的设计目标是衡量 LMM 的三项基本技能：感知、知识和推理。

数据的收集和整理过程

数据收集。第一步，他们浏览了常见的大学专业，然后确定要将哪些学科包含进该基准中。他们选择的原则是该学科需要经常采用视觉输入来提供有价值的信息。基于这个原则，他们去掉了法学和语言学等一些学科，因为这些学科中很难找到足够多的相关多模态问题。最后，他们从 6 个不同学科中选择了 30 个科目。

第二步，他们招募了 50 位这些专业的大学生，让他们作为标注者来帮助收集问题。他们会从专业教科书和网络资源收集多模态问题，并在有必要时根据自己的专业知识创建新问题。考虑到基础模型的数据污染问题，标注者会选择没有立即可用答案的问题，例如那些答案在不同的文档中或教科书末尾的问题。这个过程中，他们得到了 1.3 万个问题。

为了进一步控制数据质量，他们又执行了两个数据清理步骤。第一步，他们使用了词汇重叠和来源网址相似度来识别潜在的重复问题。然后他们对这些重复项进行了审查，并清除了所有重复项。第二步则是把这些问题分配给该论文的参与作者，让他们帮助进行格式和拼写检查。最后，该团队对这些问题进行了难度分级：非常简单、简单、中等、困难。其中大约 10% 的问题属于非常简单；由于太过简单，不符合该基准的设计原则，因此被排除在外。

图 4 给出了 MMMU 与已有基准的差异。

实验

该团队基于 MMMU 对多种 LLM 和 LMM 进行了评估。每一种类型都兼顾了闭源和开源模型。评估采用了零样本设置，以评估模型在没有微调或少样本演示的情况下生成准确答案的能力。所有实验均基于 NVIDIA A100 GPU。

主要结果

表 2 给出了在 MMMU 基准上不同 LLM 和 LMM 的结果比较。

他们得到了一些重要发现：

MMMU 难度很大，就连 GPT-4V 的准确度也只有 55.7%，这说明 AI 技术还有很大的改进空间。
开源 LMM 和 GPT-4V 的性能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表现最好的开源模型也只有 34% 左右的准确度。
具备光学字符识别（OCR）或生成字幕的 LLM 没有看到显著的提升，这说明 MMMU 需要模型更深度地将图像和文本放在一起理解。
在艺术与设计以及人文与社会科学等视觉数据不太复杂的学科中，模型表现出的性能更高。相比之下，商科、科学、健康与医学以及技术与工程等领域具有更复杂的视觉数据并需要复杂的推理，因此 AI 模型的性能也相对较低。

但该团队也指出，MMMU 并不足以对专家 AGI 进行充分的测试，这是受定义限制的，因为模型的 MMMU 性能与「掌握专业知识的成年人类的 90%」之间不存在直接的映射关系，而且大学考试也并非 AGI 理应解决的唯一任务。但他们也认为专家 AGI 有必要在 MMMU 基准上取得好成绩，这样才能体现其掌握知识的广度和深度以及专家级的理解和推理能力。

对图像类型和难度的分析

不同的图像类型。图 5 比较了在常用的图像类型上，不同模型的性能。可以看到，在所有类型上，GPT-4V 始终大幅优于其它模型。在照片和绘画等训练中更常见的类型上，开源模型的表现相对较好。但是，对于几何形状、乐谱和化学结构等更不常见的图像类别，所有模型的分数都非常低（有些接近于随机乱猜）。这表明现有模型在这些图像类型上的泛化性能不佳。

不同难度。表 3 比较了所选模型在三个难度层级上的性能。在「容易」类别中，GPT-4V 的表现显著优于开源模型，成功率达到了 76.1%。对于「中等」难度类别，差距缩小了，但 GPT-4V 依然领先，为 55.6%。到了「困难」级别，模型的差距进一步变小，这表明随着任务复杂性的提升，GPT-4V 等更先进模型的优势会逐渐消失。这可能表明当前模型在处理专家级高难度查询方面存在局限，即便最先进模型也是如此。

错误分析与未来研究

该团队还深度分析了 GPT-4V 的错误，这有助于理解其运作能力和局限。该分析不仅能识别模型当前的缺点，还可以帮助改进未来的设计和训练。他们从 GPT-4V 的预测中随机采样的 150 个错误实例，然后请专家级标注者分析了这些实例，这些专家根据自己的知识找到了这些错误预测的根本原因。图 6 给出了这些错误的分布情况。

感知错误（35%）：GPT-4V 的错误中很大一部分是感知错误，这又可以进一步分为两种类型：基本感知错误和特定领域的感知错误。如图 7 所示，当模型能准确处理和理解给定信息，但无法解读基本的视觉信息时，就会出现基本感知错误。而特定领域的感知错误则是由缺乏知识所致。当分析根本原因时，研究者将此类错误归类为缺乏知识。此外，GPT-4V 经常表现出对文本的偏好，也就是以文本信息优先，视觉输入在后。

缺乏知识（29%）：如前所述，对于 GPT-4V 模型，特定领域的感知错误的一个基本根本原因就是缺乏专业知识。类似地，缺乏专业知识还可能导致推理出现问题。

推理错误（26%）：在一些实例中，模型正确解读了文本和图像，也找到了相关知识，但却未能成功应用逻辑和数学推理技能来进行准确的推导。

其它错误：其它错误还包括文本理解错误（6%）、拒绝问答（3%）、注释错误（2%）、答案提取错误（1%）。这些错误的原因也多种多样，比如复杂文本的解读难度大、响应生成的限制、数据注释不准确以及从较长输出中提取精确答案存在问题。

更多详细内容，请阅读原文。

工程MMMU

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。在这个过程中，手写的、打印的等多种类型的图像被转换为机器编码的文本，这些含有文字信息的图像可以是扫描而来，也可以是场景文本——如照片中出现的广告牌文字 (scene text)，或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法，可以对其进行电子编辑、搜索、更紧凑地存储、在线显示，并用于认知计算、机器翻译、（提取）文本到语音、关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

来源：维基百科

数据清理技术

数据清理（data cleansing）指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误，同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件，更正错误数据，并用全企业一致的格式整合数据。

来源：维基百科

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

答案提取技术

答案提取是问答系统（QAS）实现的最后一步。它首先接收上一个模块中得到的段落信息，对其进行短语提取，生成备选答案集，然后根据一定的算法从备选答案集中提取出最佳答案。

来源：UTOMO, F. S., SURYANA, N., & AZMI, M. S. (2017). QUESTION ANSWERING SYSTEM: A REVIEW ON QUESTION ANALYSIS, DOCUMENT PROCESSING, AND ANSWER EXTRACTION TECHNIQUES. *Journal of Theoretical & Applied Information Technology*, *95*(14)

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

通用人工智能技术

通用人工智能（AGI）是具有一般人类智慧，可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标，也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI（strong AI）或者完全AI（full AI），或称机器具有执行通用智能行为（general intelligent action）的能力。与弱AI（weak AI）相比，强AI可以尝试执行全方位的人类认知能力。

来源：wikipedia

语言学技术

每种人类语言都是知识和能力的复合体，语言的使用者能够相互交流，表达想法，假设，情感，欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究：如何构建这样的知识体系，如何获取，如何在消息的制作和理解中使用它，它是如何随时间变化的？语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性？语言如何不同，系统的差异程度如何，我们能否在差异中找到模式？孩子如何在短时间内获得如此完整的语言知识？语言随时间变化的方式有哪些，语言变化的局限性是什么？当我们产生和理解语言时，认知过程的本质是什么？语言学研究的就是这些最本质的问题。

来源：Linguistics