AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。
论文:https://arxiv.org/pdf/2403.14624.pdf 主页:https://mathverse-cuhk.github.io/ 代码:https://github.com/ZrrSkywalker/MathVerse 数据集:https://huggingface.co/datasets/AI4Math/MathVerse 题目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
a. 描述信息,Descriptive Information(DI,红色高亮部分)指的是图像中可直接观察出的内容。它描绘了基本图形组成、几何形状和空间布局。此类文本信息对于图像而言是重复性的,因此被视为解决问题的冗余信息。 b. 隐含属性,Implicit Property(IP,蓝色高亮部分)指的是那些需要更强的视觉感知能力才能从图像中辨识出来的属性。它代表着解决问题所需的较强视觉条件,如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。 c. 基本条件,Essential Condition(EC,绿色高亮部分)指的是题目中给定的具体数值,它们是推导解决方案不可或缺的条件,并且不能从视觉图表中直接得出,例如角度、长度的精确值和函数表达式。
MLLM 更依赖于文本信息去解题,而不是观察数学图像。 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分,证明如今低质量的视觉编码对于解题来说起到了负面的作用。 MLLM 很难从图像中准确的解读出题目中的基本条件和问题。 闭源模型的多模态数学解题能力要比开源模型更好。 通过比较 G-LLaVA 和 LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。 CoT 测评相比二元测评可以更全面的体现模型的逻辑推理能力。