AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
题目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? 论文:https://arxiv.org/pdf/2407.01284 主页:https://we-math.github.io/ 代码:https://github.com/We-Math/We-Math 数据集:https://huggingface.co/datasets/We-Math/We-Math
知识掌握不足 (IK): 模型无法作答出复杂问题,并在子问题中出现错误,我们推测模型无法作答出复杂问题的原因是因为对知识点掌握不足所导致的。 泛化能力不足 (IG): 模型无法作答出复杂问题,但是所有的子问题中均回答正确,我们推测模型无法作答出复杂问题的原因是因为缺少综合运用能力(泛化能力)。 完全掌握 (CM): 模型可以作答出复杂问题,并且可以作答出所有的子问题,这种现象是合理且被期望得到的。 死记硬背 (RM): 模型可以作答出复杂问题,但在子问题中出现错误,这与人类的逻辑思维相悖,如果一个模型可以解决复杂的多步问题,但无法作答出解答过程中所需的单步问题,我们认为这种情况是不合理的,考虑模型存在机械记忆的情况。
模型作答情况与题目所包含的知识点数量呈现较明显的负相关关系,即题目包含的知识点越多,模型作答情况越不理想。我们也提议可以通过题目包含的知识点数量对题目的难易度进行建模。 模型在与计算相关的知识点下表现较好,在细粒度视觉问题上表现欠佳。也进一步表明 LMMs 在应用公式上较为擅长,但在理解和综合应用知识方面仍有局限。 GPT-4o 表现最佳,在包含不同知识点数量的题目中均保持领先,并在不同的知识点下基本保持领先。 LMMs 展现了一定的参数压缩潜力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表现最接近 GPT-4。而令人惊喜的是,尽管参数规模较小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表现也展现出了较好的表现。
多数模型存在 “知识掌握不足” 和 “死记硬背” 的问题,尤其是在较小的模型中更加明显。并且,“知识掌握不足” 仍是大多数模型的主要问题。 GPT-4o 在 “死记硬背” 的衡量维度上大幅领先于其他模型,进一步说明 GPT-4o 更贴近于人类的解题方式,其所呈现的结果更加可靠,意味着模型真正的学到了知识,而不是 “死记硬背”。 GPT-4o 在 “知识掌握不足” 这个衡量维度上大幅领先于其他模型,已经逐渐迈向下一阶段,需要进一步提升 “知识泛化能力”。
模型在 KCA 策略下整体表现有所提升。如上图所示,不同参数规模的 LMMs 在引入 KCA 策略后,在严格和宽松指标上均表现出一致的性能提升。 KCA 策略显著缓解了 IK 问题,但对 IG 问题的改善并不明显。这与人类直觉一致,因为知识描述主要解决的是推理知识的缺口。然而,要解决 IG 问题,需要全面提升 LMMs 的知识泛化能力,这也为未来研究指明了方向。