阅卷是老师教学工作中非常重要的一环,但也是耗时费力的一环。如果机器能够替代或辅助老师对考试和作业评分,将极大减轻老师负担,有效支持教育的结果评价、过程评价和个性化 “因材施教”。过去几年,哈工大讯飞联合实验室在语文作文自动评阅方向进行了深入探索和落地实践,努力构建人工智能与教育领域深度结合的关键入口,为科大讯飞在教育领域的布局,持续输送动力。
作文自动评阅技术
评阅,即既要给出分数,又要提供批改和点评。不同的应用场景对评分与批改功能会有所侧重。在大规模考试智能阅卷中,准确、高效评分是主要需求,而面向课堂作业和考试等,“有营养”的点评和批改反馈必不可少。
作文自动评分可以视为一个监督学习的过程,利用机器学习算法根据少量人工评分的样本学习一个预测模型,其中的关键是构建和利用有效的特征来描述作文、指示作文的质量。
传统的方法利用自然语言处理浅层分析的结果构建特征,如文章的长度、段落数、词汇丰富性等。不难发现,很多特征与人评价作文时考察的维度和深度相距较远。以高考作文评分规范为例,评判学生作文将考察其题意、内容、语言、文体等基础等级,还要考察深刻、丰富、文采、创意等发展等级,这为母语作文自动评分提出了巨大的挑战。近年来,基于深度学习的端到端学习方法也被应用于作文评分,作文被抽象地表示为分布式向量,近来一些研究成果显示此类方法可以取得很好的效果,但存在一个明显问题是可解释性较差。
图1 语文作文自动评阅功能图
针对这些问题,如图1所示,我们提供包括异常检测、多维度批改、总评与分项评语等一体化的语文作文自动评阅解决方案。除了使用常用的浅层表征特征外,也针对诸如文本通顺、文采、立意分析、篇章结构等难度较高的维度进行探索。语法错误诊断。以预训练语言模型为基础,结合少量标注数据和大规模自动构建的伪数据,进行错别字、语法以及标点、成语等多类型错误识别。在2018年国际中文语法诊断比赛CGED中获得了四项指标中语病类型、定位、修改第一名,语病识别第二名,综合排名第一名[1]。推出智能文本校对系统(http://check.hfl-rc.com/),重点解决校对行业痛点,辅助文书质检、创作者、媒体行业、教师等提升写作质量。文本语法错误诊断为作文自动评阅提供了强有力的字词级别诊断功能,为教师减负与学生能力诊断提供有力的工具。
图2 文本校对主要内容和过程
篇章结构质量评估。作文评分需要篇章级的文本理解,如篇章结构分析。应该如何描述和评价作文的篇章结构呢?针对议论文,我们主要通过识别句子和段落的论辩角色(如引论、主旨、论点、论据等)来表示篇章结构[2,3],提出了层次多任务学习方法融合句子级和段落级的篇章角色表示进行议论文篇章结构质量评价[3];针对记叙文,可以利用词汇链和事件链等结构刻画篇章结构,我们也提出通过识别记叙、议论、描写、抒情、说明等表达方式作为篇章单元角色来描述记叙文的结构[4]。图3 采用论辩角色描述议论文的篇章结构
图4 采用表达方式描述记叙文的篇章结构
优美表达识别。文采是衡量作文质量的重要考察方面之一,我们通过对优美句子、多种修辞手法、描写手法的识别,从文采方面对学生的作文进行评阅。我们利用众包手段从多个来源采集人们推荐的优美句子表达、描写表达等,构建识别模型。修辞手法是创造性语言,形式多样、不易泛化,修辞手法识别需要充分利用相应的认知理论作为指导与数据驱动方法相结合。针对比喻[5]、排比[6]、拟人、引用等常用修辞手法,分别设计了相应的识别与评价方法。我们还针对多种细粒度的描写类型进行识别与分析。图5 作文文采识别与评价示例
这些不同层面的深度语言分析拓展了传统作文自动评分系统考察的评分维度,构建相应特征有助于提高评分模型的鉴赏判别能力和评分准确性,并为评分提供了更好的可解释性。作文自动评阅技术的应用
联合实验室还研究了面向作文的抄袭检测、部分文科简答题自动评分、评语自动生成等技术和功能,这些技术与作文自动评分技术一起已应用于科大讯飞作文智能阅卷系统。目前系统主要提供:(1)答卷质检,包括检查空白题、乱写内容、疑似抄袭题干、疑似抄袭网络范文、疑似考生之间抄袭等;(2)智能评卷服务:对语文作文进行计算机自动评分;(3)人工阅卷质检检查,利用机器评分检测和检测人工阅卷过程中可能出现的误差。
图6 科大讯飞语文作文智能评卷流程
对于文科主观题评分,系统首先通过版面和图文识别获得题目和学生作答内容,而后利用智能定标筛选具有代表性的学生作文进行专家定标评分并学习评分模型,最后对机评结果进行汇总和分析。为了提高定标数据标注的效率和效果,我们提出“专家随机抽取+智能挑选样卷+聚类分段补充”的定标集选取方法[7]。提升了评分模型对于各分数段的建模能力,符合高考等考试环境下考生成绩呈正态分布的特点,拓展了对专家评分和阅卷教师评分的综合学习能力,使得计算机智能辅助评分系统能够通过有限的定标数据,更加全面地理解和掌握评分标准。目前,科大讯飞机器智能阅卷技术已经应用到多地中高考,每年服务考生超过600万。经过对人机评分结果的对比分析,自动评分系统在评分一致率、平均分差、相关度等指标方面都已接近人工评分水平。以2017年安徽高考语文作文验证为例,语文作文智能评分420070份,占全部样本量的99.82%,表1和表2给出了定标集下对所有语文作文待评样本进行智能评分后得到的人机评分的对比情况。如表1所示,机器评分得到的平均分与人工评分平均分分差均小于1分,标准差基本一致。如表2所示,机器评分与报道分的相关度为0.95,评分一致率为95.24%,接近人工1评与人工2评的相关度和一致率。智能评分整体效果优良,说明智能阅卷系统能够从定标集中学习出与评卷教师掌握评分标准相当的水平[8]。
表1 语文作文人机平均分和标准差对比表[8]
注:报道分为考生的实际得分,在双评模式下经评卷教师1评、2评、仲裁等环节最终得出。
表2 语文作文人机评分相关度比较表[8]
作文自动评阅技术被应用到课堂作业、考试与日常学习中。联合实验室将语文作文自动评阅技术与具体业务场景结合,先后应用于教师助手、科大讯飞学习机、汉考等业务端,为教育发展持续助力。
图7 科大讯飞学习机语文作文自动批改
总结与展望作文以及文科主观题自动评阅具有明确的研究意义和应用场景。前期的研究表明多维细粒度的自动作文评阅能够有效地提高作文篇章表示的深度、作文评分的可解释性和反馈的丰富程度,文科主观题自动评分能够在中、高考真实验证场景下达到接近人工评分的水平。但是,要想真正实现让机器像人一样去欣赏和批判写作依然是非常困难的。例如,对文章的立意思辨、篇章结构、新奇创意等方面的理解非常初级;修辞手法识别目前也主要限于数据驱动方法而没有充分考察这些语言运用手段背后的认知原理;如何持续提高机器的审美能力和鉴别水平依然是开放问题。目前,作文自动评分系统已经可以完成阅卷质检等相关任务。在不远的将来,利用自动评分系统取代人工双评之一,减轻阅卷人力、财力负担,促进自动批改在课堂教学场景落地,辅助教师课堂教学,应该是比较务实和预期可达的目标。
•••
哈工大讯飞联合实验室是科大讯飞针对“讯飞超脑”项目计划,重点引进和布局的核心研发团队之一。规划目标是在语言认知计算领域进行长期、深入探索,并已在机器阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题研究取得丰硕成果。语文作文自动阅卷方向由联合实验室与首都师范大学合作推进。
参考文献
[1] Ruiji Fu, Zhengqi Pei, Jiefu Gong, Wei Song, Dechuan Teng, Wanxiang Che, Shijin Wang, Guoping Hu, and Ting Liu. Chinese grammatical error diagnosis using statistical and prior knowledge driven features with probabilistic ensemble enhancement. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications, 2018.
[2] Wei Song, Ruiji Fu, Lizhen Liu, and Ting Liu. Discourse element identification in student essays based on global and local cohesion. EMNLP 2015.
[3] Wei Song, Ziyao Song, Lizhen Liu, and Ruiji Fu. Hierarchical Multi-task Learning for Organization Evaluation of Argumentative Student Essays. IJCAI 2020.
[4] Wei Song, Dong Wang, Ruiji Fu, Lizhen Liu, Ting Liu, and Guoping Hu. Discourse mode identification in essays. ACL 2017.
[5] Lizhen Liu, Xiao Hu, Wei Song, Ruiji Fu, Ting Liu, and Guoping Hu. Neural multitask learning for simile recognition. EMNLP 2018.
[6] Wei Song, Tong Liu, Ruiji Fu, Lizhen Liu, Hanshi Wang, and Ting Liu. Learning to identify sentence parallelism in student essays. COLING 2016.
[7] 何屹松, 孙媛媛, 张凯,付瑞吉. 计算机智能辅助评分系统定标集选取和优化方法研究. 中国考试,2020(1).
[8] 何屹松, 孙媛媛, 汪张龙, 竺博. 人工智能评测技术在大规模中英文作文阅卷中的应用探索. 中国考试,2018(6).