2020/08/25 11:40

胡晓毓本期编辑丁效本期责任编辑

语文作文自动评阅技术及其应用

阅卷是老师教学工作中非常重要的一环，但也是耗时费力的一环。如果机器能够替代或辅助老师对考试和作业评分，将极大减轻老师负担，有效支持教育的结果评价、过程评价和个性化 “因材施教”。过去几年，哈工大讯飞联合实验室在语文作文自动评阅方向进行了深入探索和落地实践，努力构建人工智能与教育领域深度结合的关键入口，为科大讯飞在教育领域的布局，持续输送动力。

作文自动评阅技术

评阅，即既要给出分数，又要提供批改和点评。不同的应用场景对评分与批改功能会有所侧重。在大规模考试智能阅卷中，准确、高效评分是主要需求，而面向课堂作业和考试等，“有营养”的点评和批改反馈必不可少。

作文自动评分可以视为一个监督学习的过程，利用机器学习算法根据少量人工评分的样本学习一个预测模型，其中的关键是构建和利用有效的特征来描述作文、指示作文的质量。

传统的方法利用自然语言处理浅层分析的结果构建特征，如文章的长度、段落数、词汇丰富性等。不难发现，很多特征与人评价作文时考察的维度和深度相距较远。以高考作文评分规范为例，评判学生作文将考察其题意、内容、语言、文体等基础等级，还要考察深刻、丰富、文采、创意等发展等级，这为母语作文自动评分提出了巨大的挑战。近年来，基于深度学习的端到端学习方法也被应用于作文评分，作文被抽象地表示为分布式向量，近来一些研究成果显示此类方法可以取得很好的效果，但存在一个明显问题是可解释性较差。

图1 语文作文自动评阅功能图

针对这些问题，如图1所示，我们提供包括异常检测、多维度批改、总评与分项评语等一体化的语文作文自动评阅解决方案。除了使用常用的浅层表征特征外，也针对诸如文本通顺、文采、立意分析、篇章结构等难度较高的维度进行探索。

语法错误诊断。以预训练语言模型为基础，结合少量标注数据和大规模自动构建的伪数据，进行错别字、语法以及标点、成语等多类型错误识别。在2018年国际中文语法诊断比赛CGED中获得了四项指标中语病类型、定位、修改第一名，语病识别第二名，综合排名第一名[1]。推出智能文本校对系统（http://check.hfl-rc.com/），重点解决校对行业痛点，辅助文书质检、创作者、媒体行业、教师等提升写作质量。文本语法错误诊断为作文自动评阅提供了强有力的字词级别诊断功能，为教师减负与学生能力诊断提供有力的工具。

图2 文本校对主要内容和过程

篇章结构质量评估。作文评分需要篇章级的文本理解，如篇章结构分析。应该如何描述和评价作文的篇章结构呢？针对议论文，我们主要通过识别句子和段落的论辩角色（如引论、主旨、论点、论据等）来表示篇章结构[2,3]，提出了层次多任务学习方法融合句子级和段落级的篇章角色表示进行议论文篇章结构质量评价[3]；针对记叙文，可以利用词汇链和事件链等结构刻画篇章结构，我们也提出通过识别记叙、议论、描写、抒情、说明等表达方式作为篇章单元角色来描述记叙文的结构[4]。

图3 采用论辩角色描述议论文的篇章结构

图4 采用表达方式描述记叙文的篇章结构

优美表达识别。文采是衡量作文质量的重要考察方面之一，我们通过对优美句子、多种修辞手法、描写手法的识别，从文采方面对学生的作文进行评阅。我们利用众包手段从多个来源采集人们推荐的优美句子表达、描写表达等，构建识别模型。修辞手法是创造性语言，形式多样、不易泛化，修辞手法识别需要充分利用相应的认知理论作为指导与数据驱动方法相结合。针对比喻[5]、排比[6]、拟人、引用等常用修辞手法，分别设计了相应的识别与评价方法。我们还针对多种细粒度的描写类型进行识别与分析。

图5 作文文采识别与评价示例

这些不同层面的深度语言分析拓展了传统作文自动评分系统考察的评分维度，构建相应特征有助于提高评分模型的鉴赏判别能力和评分准确性，并为评分提供了更好的可解释性。

作文自动评阅技术的应用

联合实验室还研究了面向作文的抄袭检测、部分文科简答题自动评分、评语自动生成等技术和功能，这些技术与作文自动评分技术一起已应用于科大讯飞作文智能阅卷系统。目前系统主要提供：（1）答卷质检，包括检查空白题、乱写内容、疑似抄袭题干、疑似抄袭网络范文、疑似考生之间抄袭等；（2）智能评卷服务：对语文作文进行计算机自动评分；（3）人工阅卷质检检查，利用机器评分检测和检测人工阅卷过程中可能出现的误差。

图6 科大讯飞语文作文智能评卷流程

对于文科主观题评分，系统首先通过版面和图文识别获得题目和学生作答内容，而后利用智能定标筛选具有代表性的学生作文进行专家定标评分并学习评分模型，最后对机评结果进行汇总和分析。为了提高定标数据标注的效率和效果，我们提出“专家随机抽取+智能挑选样卷+聚类分段补充”的定标集选取方法[7]。提升了评分模型对于各分数段的建模能力，符合高考等考试环境下考生成绩呈正态分布的特点，拓展了对专家评分和阅卷教师评分的综合学习能力，使得计算机智能辅助评分系统能够通过有限的定标数据，更加全面地理解和掌握评分标准。

目前，科大讯飞机器智能阅卷技术已经应用到多地中高考，每年服务考生超过600万。经过对人机评分结果的对比分析，自动评分系统在评分一致率、平均分差、相关度等指标方面都已接近人工评分水平。以2017年安徽高考语文作文验证为例，语文作文智能评分420070份，占全部样本量的99.82%，表1和表2给出了定标集下对所有语文作文待评样本进行智能评分后得到的人机评分的对比情况。如表1所示，机器评分得到的平均分与人工评分平均分分差均小于1分，标准差基本一致。如表2所示，机器评分与报道分的相关度为0.95，评分一致率为95.24%，接近人工1评与人工2评的相关度和一致率。智能评分整体效果优良，说明智能阅卷系统能够从定标集中学习出与评卷教师掌握评分标准相当的水平[8]。

表1 语文作文人机平均分和标准差对比表[8]

注：报道分为考生的实际得分，在双评模式下经评卷教师1评、2评、仲裁等环节最终得出。

表2 语文作文人机评分相关度比较表[8]

作文自动评阅技术被应用到课堂作业、考试与日常学习中。联合实验室将语文作文自动评阅技术与具体业务场景结合，先后应用于教师助手、科大讯飞学习机、汉考等业务端，为教育发展持续助力。

图7 科大讯飞学习机语文作文自动批改

总结与展望

作文以及文科主观题自动评阅具有明确的研究意义和应用场景。前期的研究表明多维细粒度的自动作文评阅能够有效地提高作文篇章表示的深度、作文评分的可解释性和反馈的丰富程度，文科主观题自动评分能够在中、高考真实验证场景下达到接近人工评分的水平。但是，要想真正实现让机器像人一样去欣赏和批判写作依然是非常困难的。例如，对文章的立意思辨、篇章结构、新奇创意等方面的理解非常初级；修辞手法识别目前也主要限于数据驱动方法而没有充分考察这些语言运用手段背后的认知原理；如何持续提高机器的审美能力和鉴别水平依然是开放问题。目前，作文自动评分系统已经可以完成阅卷质检等相关任务。在不远的将来，利用自动评分系统取代人工双评之一，减轻阅卷人力、财力负担，促进自动批改在课堂教学场景落地，辅助教师课堂教学，应该是比较务实和预期可达的目标。

•••

哈工大讯飞联合实验室是科大讯飞针对“讯飞超脑”项目计划，重点引进和布局的核心研发团队之一。规划目标是在语言认知计算领域进行长期、深入探索，并已在机器阅读理解、自动阅卷、类人答题、人机对话、语音识别后处理、社会舆情计算等前瞻课题研究取得丰硕成果。语文作文自动阅卷方向由联合实验室与首都师范大学合作推进。

参考文献

[1] Ruiji Fu, Zhengqi Pei, Jiefu Gong, Wei Song, Dechuan Teng, Wanxiang Che, Shijin Wang, Guoping Hu, and Ting Liu. Chinese grammatical error diagnosis using statistical and prior knowledge driven features with probabilistic ensemble enhancement. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications, 2018.

[2] Wei Song, Ruiji Fu, Lizhen Liu, and Ting Liu. Discourse element identification in student essays based on global and local cohesion. EMNLP 2015.

[3] Wei Song, Ziyao Song, Lizhen Liu, and Ruiji Fu. Hierarchical Multi-task Learning for Organization Evaluation of Argumentative Student Essays. IJCAI 2020.

[4] Wei Song, Dong Wang, Ruiji Fu, Lizhen Liu, Ting Liu, and Guoping Hu. Discourse mode identification in essays. ACL 2017.

[5] Lizhen Liu, Xiao Hu, Wei Song, Ruiji Fu, Ting Liu, and Guoping Hu. Neural multitask learning for simile recognition. EMNLP 2018.

[6] Wei Song, Tong Liu, Ruiji Fu, Lizhen Liu, Hanshi Wang, and Ting Liu. Learning to identify sentence parallelism in student essays. COLING 2016.

[7] 何屹松, 孙媛媛, 张凯,付瑞吉. 计算机智能辅助评分系统定标集选取和优化方法研究. 中国考试，2020(1).

[8] 何屹松, 孙媛媛, 汪张龙, 竺博. 人工智能评测技术在大规模中英文作文阅卷中的应用探索. 中国考试，2018(6).

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

产业自然语言处理

相关技术

语音合成自然语言处理语音处理语音助理语音增强神经语言模型语音识别

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

异常检测技术

在数据挖掘中，异常检测（英语：anomaly detection）对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

多任务学习技术

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科