Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者来自北京邮电大学、腾讯微信、华中科技大学、北京理工大学。作者列表:乔润祺,谭秋纳,董冠霆,伍敏慧,孙冲,宋晓帅,公却卓玛,雷尚霖,卫喆,张淼萱,乔润枫,张一凡,纵晓,徐一达,刁沐熙,包志敏,李琛,张洪刚。其中,共同第一作者乔润祺是北京邮电大学博士生,谭秋纳是北京邮电大学硕士生,通讯作者是北京邮电大学张洪刚副教授,该文章为乔润祺在微信实习期间完成。

随着人工智能技术的快速发展,能够处理多种模态信息的多模态大模型(LMMs)逐渐成为研究的热点。通过整合不同模态的信息,LMMs 展现出一定的推理和理解能力,在诸如视觉问答图像生成跨模态检索等任务中表现出色。这种多模态能力使得 LMMs 在各类复杂场景中的应用潜力巨大,而为了严谨科学地检验 AI 是否具备较强的推理能力,数学问答已成为衡量模型推理能力的重要基准

回顾 AI 的发展历程,我们发现人类的认知和思考问题的方式对 AI 的发展产生了深远的影响。诸如神经网络注意力机制等突破均与人类的思维模式息息相关。想象一下,人类在解答一个数学问题时,首先需要熟知题目所考察的知识点,而后利用相关知识进行逐步推理从而得出答案。但模型在作答时,其推理过程是否与人类一致呢?

聚焦于数学问题,我们发现模型可以回答出复杂问题,但在一些简单问题面前却捉襟见肘。为探究这一现象的原因,受人类解题思维模式的启发,我们首先对先掌握知识点,再运用其进行逻辑推理的解题过程建模如下:

图片

其中 (X, Y) 和 (x_i, y_i) 分别表示数学问题和每个子问题中的问题与答案,P_reason 代表 LMMs 的综合运用能力 (知识泛化)。基于此,We-Math 首先基于 67 个原子知识点构建了一个多层级树状知识体系,紧接着以原子知识及推理答案为依据,通过将多知识点的复杂问题拆解为多个原子知识点对应的子问题来探究模型的作答机制。

图片

  • 题目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
  • 论文:https://arxiv.org/pdf/2407.01284
  • 主页:https://we-math.github.io/
  • 代码:https://github.com/We-Math/We-Math
  • 数据集:https://huggingface.co/datasets/We-Math/We-Math

目前 We-Math 在当日的 HuggingFace Daily Paper 中排名第一,并在推特上的浏览量达到 10K+!

图片

We-Math Benchmark

1. 数据构成

We-Math 测评数据集共包含 6.5k 个多模态小学数学问题和一个多层级知识架构,每一个数学问题均有对应的知识点(1-3 个)。其中所有问题的知识点均被 5 层 99 个节点(最后一层包含 67 个知识点)的知识架构所涵盖。并且如下图所示,为了缓解模型在解决问题过程中固有的问题,我们参考教材与维基百科,启发式的引入了 67 个知识点的描述,从而为 LMMs 的推理过程提供必要的知识提示。

图片

图片

2. 题目拆解

为了合理的评估模型的作答机制,我们严格以人类作答的标准答案为依据,按照复杂问题所包含的知识点,将其拆解成了 n 个子问题,其中 n 表示复杂问题包含的知识点数量。

如下图所示,对于一道复杂问题:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,走过的距离是 50.24 米,求解圆形花坛的面积。在解题过程中,首先需要根据 “东南西北方向” 知识点,通过 “最北” 和 “最东” 两个方向的条件,求得 Mary 走过路径所对应的圆心角大小(“最北” 和 “最东” 的夹角为 90 度)。接着,根据 “圆的周长” 知识点,通过圆心角的大小为 90 度和 Mary 走过的路径长度的条件,计算出圆形花坛的周长,并求得圆形花坛的半径。最后,根据 “圆的面积” 知识点,通过求得的半径的条件,计算出圆形花坛的面积,至此完成题目的求解。

分析上述解题过程,为了探究模型的答题机制以及模型的细粒度推理表现,可以将原题按照其对应的知识点拆解成三个子问题,具体而言,第一问:Mary 从一个圆形花坛的最北端点沿花坛边缘走到最东端点,求她走过路径的圆弧所对应的圆心角的度数;第二问:圆形花坛中,90 度圆心角所对应的圆弧弧长为 59.24m,求解圆形花坛的半径;第三问:求半径为 32m 的圆形花坛的面积。

图片

3. 度量标准

在此基础上,如下图所示,我们引入一种新的四维度量标准,即知识掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死记硬背 (RM)。

  • 知识掌握不足 (IK): 模型无法作答出复杂问题,并在子问题中出现错误,我们推测模型无法作答出复杂问题的原因是因为对知识点掌握不足所导致的。
  • 泛化能力不足 (IG): 模型无法作答出复杂问题,但是所有的子问题中均回答正确,我们推测模型无法作答出复杂问题的原因是因为缺少综合运用能力(泛化能力)。
  • 完全掌握 (CM): 模型可以作答出复杂问题,并且可以作答出所有的子问题,这种现象是合理且被期望得到的。
  • 死记硬背 (RM): 模型可以作答出复杂问题,但在子问题中出现错误,这与人类的逻辑思维相悖,如果一个模型可以解决复杂的多步问题,但无法作答出解答过程中所需的单步问题,我们认为这种情况是不合理的,考虑模型存在机械记忆的情况。

图片

其中 IK、IG、CM 之间存在 IK<IG<CM 的层次关系,即模型需要先掌握知识,才可以讨论综合运用的能力,而 RM 我们认为是一种不合理的现象。此外,考虑到模型的不稳定性,当前判定结果是否属于 RM 的标准较为严格。因此,我们提出了一种更灵活的宽松标准。如上图所示,在包含两个知识点的问题中,TFT 和 FTT 情况根据宽松标准(Loose Metric)被视为 CM(而非 RM)。我们在文章的附录中同样讨论了四维度指标在三步问题中的情况。因此,结合上述情况我们最终提出了一个综合打分度量标准,以此评估 LMM 推理过程中的固有问题。

实验与结论

We-Math 目前在 17 个大模型中完成了评测,共包含 4 个闭源模型与 13 个开源模型。其中表 1 与图 6 展示了 LMMs 在不同知识点数量下的结果与模型在第二层级知识点下的表现;表 2 与图 7、图 8、图 9 展示了 LMMs 在四维指标下的结果以及在严格和宽松标准下的综合打分结果;图 10 展示了 KCA 策略对模型在 IK 问题中的缓解结果。

LMMs 在不同知识点数量下的表现及其在第二层级知识点下的表现

图片

  • 模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系,即题目包含的知识点越多,模型作答情况越不理想。我们也提议可以通过题目包含的知识点数量对题目的难易度进行建模。
  • 模型在与计算相关的知识点下表现较好,在细粒度视觉问题上表现欠佳。也进一步表明 LMMs 在应用公式上较为擅长,但在理解和综合应用知识方面仍有局限。
  • GPT-4o 表现最佳,在包含不同知识点数量的题目中均保持领先,并在不同的知识点下基本保持领先。
  • LMMs 展现了一定的参数压缩潜力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表现最接近 GPT-4。而令人惊喜的是,尽管参数规模较小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表现也展现出了较好的表现。

LMMs 在四维指标下的表现及其在严格和宽松标准下的综合评分结果

图片

图片

  • 多数模型存在 “知识掌握不足” 和 “死记硬背” 的问题,尤其是在较小的模型中更加明显。并且,“知识掌握不足” 仍是大多数模型的主要问题。
  • GPT-4o 在 “死记硬背” 的衡量维度上大幅领先于其他模型,进一步说明 GPT-4o 更贴近于人类的解题方式,其所呈现的结果更加可靠,意味着模型真正的学到了知识,而不是 “死记硬背”。
  • GPT-4o 在 “知识掌握不足” 这个衡量维度上大幅领先于其他模型,已经逐渐迈向下一阶段,需要进一步提升 “知识泛化能力”。

LMMs 在 KCA 策略下的表现

图片

  • 模型在 KCA 策略下整体表现有所提升。如上图所示,不同参数规模的 LMMs 在引入 KCA 策略后,在严格和宽松指标上均表现出一致的性能提升。
  • KCA 策略显著缓解了 IK 问题,但对 IG 问题的改善并不明显。这与人类直觉一致,因为知识描述主要解决的是推理知识的缺口。然而,要解决 IG 问题,需要全面提升 LMMs 的知识泛化能力,这也为未来研究指明了方向。

总结

在本文中,我们提出了 WE-MATH,一个用于细粒度评测 LMMs 在视觉数学推理任务中作答机制的综合基准。WE-MATH 共包含 6.5k 个视觉数学问题,涵盖 5 层 67 个知识点的多级知识架构。我们开创性地根据题目所需的知识点将其拆解为多个子问题,并引入了一种新的四维度指标用于细粒度的推理评估。通过 WE-MATH,我们对现有的 LMMs 在视觉数学推理中的表现进行了全面评估,并揭示了模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系。

此外,我们发现多数模型存在死记硬背的问题 (RM),并且知识掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑战已从 IK 逐渐转向 IG,这表明它是第一个迈向下一个阶段的模型。最后,我们对 KCA 策略和错误案例的分析进一步启发性地引导现有的 LMMs 向人类般的视觉数学推理发展。
工程We-Math
相关数据
视觉问答技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
跨模态检索技术

指融合不同模态进行检索,通过利用不同模态的互补信息达到提高检索准确率的目的。跨模态数据呈现底层特征异构 、高层语义相关的特点。如何表示底层特征 、怎样对高层语义建模以及如何对模态间的关联建模 ,这些都是跨模态检索面临的挑战。

北京理工大学机构

北京理工大学1940年诞生于延安,是中国共产党创办的第一所理工科大学,是新中国成立以来国家历批次重点建设的高校,首批进入国家“211工程”和“985工程”,首批进入“世界一流大学”建设高校A类行列。

http://www.bit.edu.cn/
相关技术
暂无评论
暂无评论~