Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

本文提出了 M3KE 基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。

随着中文大规模语言模型自然语言理解自然语言生成方面展现出强大的性能,现有针对特定自然语言处理任务的中文评测基准数据集已经不足以对中文大模型进行有效地评估。传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。目前,针对中文大模型复杂知识评测的数据集十分匮乏,特别是涉及我国教育体系下不同层次和不同领域的专业知识。


为了弥补这一差距,天津大学自然语言处理实验室与华为诺亚方舟实验室联合发布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。


  • 论文链接:https://arxiv.org/abs/2305.10263
  • 数据链接:https://github.com/tjunlp-lab/M3KE

M3KE 数据集

数据集介绍

M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科,分布如 Fig 1 所示。



研究人员基于两个标准构建 M3KE 数据集:

1,契合中国教育体系,覆盖多教育阶段

研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。

2,覆盖多学科领域

为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。

数据集统计

Table 3 显示了 M3KE 的整体统计数据。上述四个学科类别中的任务数量分别为 12、21、31 和 7,而四个学科类别中的问题数量分别为 3,612、6,222、8,162 和 2,126。任务中包含的问题最大数量为 425,最小数量为 100。社会科学和自然科学的问题通常比艺术与人文学科和其他科目的问题更长,而它们的答案选项较短。


多学科视角下的 M3KE 介绍及示例

人文艺术

人文与艺术学科包括语文、艺术和历史等多个领域的学科。这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。除人文学科外,M3KE 还包括艺术科目,如舞蹈、美术、音乐、电影等,艺术是人类文化的重要组成部分,评测中文大模型在艺术领域的表现同样重要。

美术任务示例:

下面关于拉斯科洞穴壁画说法错误的是?
A. 这个壁画是在法国发现的
B. 发现的动物形象有 100 多个
C. 发现的时间为 1940 年
D. 壁画颜色以黑色为主

世界近现代史任务示例:

从尼德兰革命到法国大革命历时两个多世纪,而此后仅半个世纪资本主义就初步形成了一个世界体系,这主要是因为?
A. 法国大革命的影响得到广泛传播
B. 维也纳体系激化了各国社会矛盾
C. 工业革命使资本主义力量迅速增强
D. 殖民统治遍及世界各大洲

社会科学

社会科学重在人文学科的应用,如法律、政治、教育和心理等学科。政治课程贯穿初中、高中、大学、研究生多个教育阶段,其他学科则主要分布在大学阶段的课程中。社会科学还包括经济和管理学任务,这些任务的试题选自中国研究生入学考试中的经济学联考和管理学联考,知识涉及微观经济学、宏观经济学、管理学和逻辑学等。

刑法学任务示例:

甲欲杀乙,将毒药投入乙的饭食中。乙服食后,甲后悔,赶紧说明情况,并将乙送往医院抢救。医院在抢救过程中检查发现,甲所投放的 "毒药" 根本没有毒性,乙安然无恙。甲的行为属于?
A. 不构成犯罪
B. 犯罪未遂
C. 犯罪中止
D. 犯罪既遂

教育学原理任务示例:

教育研究中最基本、最常用的研究方法是?
A. 教育观察研究
B. 教育调查研究
C. 教育测量研究
D. 教育实验研究


自然科学

自然科学包括工程学、科学、医学和数学、物理学、化学、生物学等基础学科。这些学科通常需要复杂的计算、分析和逻辑推理能力。在我国教育体系中,同一学科在不同阶段会涉及不同类型的知识。例如,小学数学主要学习基本的算术运算,而高中数学则涵盖更高级的数学概念,如数列、导数、几何等。

动物生理学任务示例:

使用普鲁卡因麻醉神经纤维,影响了神经纤维传导兴奋的哪一项特征?
A. 生理完整性
B. 绝缘性
C. 双向传导性
D. 相对不疲劳性

操作系统任务示例:

目录形式对文件的检索效率影响很大,下列最高级的目录形式是?
A. 单级目录
B. 两级目录
C. 三级目录
D. 树形目录

其它

其他类型的任务包括宗教、中国公务员考试,计算机等级考试等。这些任务需要的知识不局限于上述单一层次或学科的知识。如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。

中国公务员考试任务示例:

以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。而一项最新的、更为可靠的研究得出的结论是:食用巧克力与心脏病发病率无关。估计这项研究成果公布以后,巧克力的消费量将会大大增加。上述推论基于以下哪项假设?
A. 尽管有些人知道食用巧克力会增加患心脏病的可能性,却照样大吃特吃
B. 人们从来也不相信进食巧克力会更容易患心脏病的说法
C. 现在许多人吃巧克力是因为他们没有听过巧克力会导致心脏病的说法
D. 现在许多人不吃巧克力完全是因为他们相信巧克力会诱发心脏病

中医学任务示例:

人参有大补元气、益气固脱的作用,而用于慢性虚弱性疾病常以何药作代用品?
丹参
党参
黄芪
太子参

多教育阶段视角下的 M3KE 介绍和示例

研究人员按照中国教育体系对数据集进行了分阶段,包括小学、初中、高中、大学及研究生入学考试。同样,研究人员还选择一些教育体系外的考试科目,如计算机等级考试和中国公务员考试等。

小学

小学语文任务示例:

下列词语书写完全正确的一项是?
A. 天籁之音   行云流水   笔走龙蛇   翻箱倒柜
B. 高山流水   轻歌曼舞   画龙点睛   别出心栽
C. 余音绕梁   巧夺天功   妙笔生花   焦躁不安
D. 黄钟大吕   惟妙惟肖   栩栩如生   精兵减政

小学数学任务示例:

一件商品,先提价 20%,以后又降价 20%,现在的价格与原来相比?
A. 提高了
B. 降低了
C. 不变
D. 不知道

初中

初中语文任务示例:

下列说法正确的一项是?
A. 《最苦与最乐》选自《梁启超文选》,作者梁启超是明代思想家、学者
B. 《邹忌讽齐王纳谏》选自《战国策》,《战国策》是战国时游说之士的策谋和言论的汇编,由东汉的刘向编订为三十三篇
C. 词又称 “长短句”,句式长短不一。兴盛于宋代,苏轼和辛弃疾是豪放派的代表人物,而李清照是婉约派的代表人物
D.《岳阳楼记》实际上是一篇借物言志的文章,寄寓了作者与民同乐的思想

初中政治任务示例:

班级要以 “崇尚法治精神” 为主题制作黑板报,小兰负责 “践行平等” 版块内容的编写。以下她搜集的素材适合入选的是?
A. 公交车上设有 “老弱病戏孕” 爱心专座
B. 中学生到革命传统教育基地参加研学活动
C. 解放军战士不畏严寒酷暑,守卫祖国边疆
D. 同学们利用节假日到街头清除小广告

高中

高中语文任务示例:

沈括在《梦溪笔谈》中说道:“天地之变,寒暑风雨,水旱螟蝗,率皆有法。” 这句话的哲学寓意是?
A. 规律是客观事物变化的根本原因
B. 规律具有客观性、普遍性  
C. 要学会用联系的观点看问题     
D. 要学会用发展的观点看问题

高中生物任务示例:

环境容纳量取决于一个种群所处的环境条件。下列叙述正确的是?
甲乙两地的灰喜鹊种群的环境容纳量一定是相同的
生活在某草原的东亚飞蝗不同年份的环境容纳量可能是相同的
当种群数量接近环境容纳量时,死亡率会升高,出生率不变
生活在微山湖中的鲫鱼和黑鱼环境容纳量是相同的

大学

大学口腔医学任务示例:

排在我国口腔癌之首的是?
A. 牙槽黏膜癌
B. 颊黏膜癌
C. 唇癌
D. 舌癌

大学经济学综合任务示例:

下列项目哪一项应计入 GDP?
A. 政府转移支付
B. 购买一辆用过的汽车
C. 企业支付的贷款和债券利息
D. 购买彩票赢得的 1 万元

其它

计算机等级考试之计算机基础任务示例:

因某工作表数据非常多,在滚动浏览时第一行的标题无法始终看到,应如何操作才能始终看到标题行,最快捷的方法是?
A. 设置 “打印标题”
B. 冻结窗格
C. 冻结首行
D. 冻结首列

宗教任务示例:

宗教能够与社会主义社会相适应的政治基础是?
A. 人民民主专政国家政权的建立
B. 广大教徒是拥护社会主义制度的,同全国人民在根本利益上是一致的
C. 中国共产党领导和执政地位的确立
D. 独立自主,自办教会

实验

评测模型

  • GLM-335M/10B/130B,由清华大学开发的预训练大语言模型,支持中、英文双语。研究人员选择 GLM 中文版的三个模型,参数规模分别为 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多语言大模型,由数百名研究人员合作开发。
  • ChatGLM-6B,由清华大学开发的语言模型,使用指令数据微调,并通过基于人类反馈的强化学习进一步训练。
  • MOSS-16B-SFT, 由复旦大学开发的语言模型,实验中使用经过指令微调版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 开发的经过 20 万条指令微调的语言模型
  • BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 开发的经过 200 万条指令微调的语言模型
  • GPT-3.5-turbo,由 OpenAI 开发的语言模型。采用人工构建的高质量指令数据,进行人类反馈强化学习训练。

Zero-shot/Few-shot 评估

在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。

不同学科类别下的评测结果



不同教育阶段下的评测结果




实验结果分析

1,在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。
2,大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。
3,在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。
4,少样本的设置在大多数情况下并没有带来性能的改善(Table 5&7 vs Table 4&6),尤其是经过指令微调或基于人类反馈的强化学习训练后的语言模型。这表明对预训练语言模型进行指令微调可以显著提升语言模型零样本学习能力,不需要额外的示例就能理解指令或问题的意图。

结论

研究人员提出了一个新的基准 M3KE,用于评估中文大模型在多个学科和不同教育阶段下中文大模型知识掌握能力。M3KE 包含 71 个任务和 20,447 个问题。研究人员发现,所有参与评估的开源中文大模型都明显落后于 GPT-3.5。研究人员希望 M3KE 有助于发现中文大模型的知识漏洞,促进中文大模型进一步的发展。

M3KE 中所有的任务

理论语言模型自然语言处理
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

暂无评论
暂无评论~