编者按:你会用英语说绕口令吗?现在微软亚洲研究院推出的智能英语私教“微软小英”可以教你说英文绕口令啦!一直以来,“微软小英”口语训练里的实时打分和针对性反馈功能都获得了大家的许多好评,现在在新上线的“绕口令”里,“微软小英”将为口语练习者语调的抑扬顿挫提出建议。今天我们来为大家揭秘小英背后“功臣”——口语韵律分析与评测技术。
由微软亚洲研究院推出的智能英语学习应用“微软小英”又添新功能啦!现在,你除了可以用“微软小英”进行跟读训练、口语评测、作文自动打分之外,还可以跟着它的新功能——“绕口令”,在工作和学习之余和朋友battle一下英文绕口令。
这项“绕口令”功能也和此前的“跟读训练”一样,在跟读绕口令后,“微软小英”能为你的绕口令水平给出一个评测分数,不同的是,这次的发音指导将针对跟读录音给出语调和停顿建议,让你更自然连贯地说出“地道”的绕口令。
那么,AI如何评测英语学习者口语的抑扬顿挫呢?
口语训练是语言学习中的一大重要环节。传统口语教学模式是教师授课、学生自主练习,教师的适时指导和及时反馈往往能大大提高学生的学习效率。但这一模式有明显的局限性:由于学生数量众多,而有相应专业技能的老师的数量往往供不应求;每个学习者能够负担的学习成本(比如学习费用)也不尽相同;最重要的是,人工教学存在时间和地点的限制,学习者难以得到即时的反馈和帮助。因此在有关口语训练的计算机辅助语言教学研究中,我们希望计算机能尽可能地扮演好教师在整个学习过程中的角色。
传统教学中,教师的核心功能包括标准示范和实时反馈。如果由计算机来辅助教学,标准示范比较简单,可以播放预先录制的标准示范音频,也可以通过高质量的语音合成技术提供标准范本。而如何为学习者提供关于其发音标准程度的实时评价反馈(发音质量评测),是该领域的研究重点之一。
口语发音质量评测可以在两个维度上进行分析:音段发音和语句韵律。
音段是口语发音质量评测中一个基本单位,音段发音考察的是说话人的音素、音节、字词发音的标准程度。在微软小英的跟读任务场景中,学习者会依照文本内容和标准录音进行跟读。通过分析学习者的跟读录音,对该文本中的每一单词、每一音标的发音,都提供评价与反馈。通常的分析方法是将录音中的频谱信息与标准发音进行比对,得到评分。
语句韵律的抑扬顿挫则是更加高阶的技巧,包括音调高低、上扬下抑、顿挫起伏等,这也是第二语言学习者极为头疼的问题。我们发表在语音领域国际会议Interspeech 2017上的文章“Proficiency Assessment of ESL Learner's Sentence Prosody with TTS Synthesized Voice as Reference”就是针对这一问题,提出了第二语言学习者在口语训练中的韵律分析与评测方法。
与音段相同,韵律评测也是基于语言学习者与标准范本的韵律的对比分析。
我们需要解决的第一个问题是韵律的表征。由于韵律比基本发音更为抽象和复杂,过去的很多相关工作在构造韵律表征时,会提取很多繁琐的特征,比如重音与重音之间的距离均值及方差、元音辅音等时长信息、信号能量相关信息等,不仅繁琐冗余,而且严重依赖许多领域的先验知识。
韵律表征其实可以归纳为两个维度,一个是语调(抑扬),一个是连读与停顿(顿挫)。因此我们也从这两个方面入手,计算语言学习者与标准范本的“语调相似度”和“韵律相似度”,以此作为评估韵律的标准。
语调相似度
语调通常指音调的高低起伏,语调分析通常是基于语音中的音高信息(指声带振动的频率)。人们在发声时,从声带开始到嘴唇之间的声道可以看作一个发音系统,从气管出来的气体经过这一系统产生的语音信号,会因为系统结构不同而产生不同的发音与韵律。
在我们发浊音时,声带振动,每一次振动,气流经过声道会产生周期性的变化,我们称之为基音周期。因此,周期性的声带振动将会产生周期性的语音信号,音高即为基音周期的倒数。下图左侧第二栏中的蓝色线条,代表的就是这句录音里音高的高低变化。
在提取音频中的音高信息以后,面临的是分析两段不等长的序列之间的相似程度,因为标准录音与用户录音的长度不同。为了使两者可比,首先我们使用文本信息和预训练的声学模型对两条录音进行强制对齐,得到音节层面的音段分割。接下来用动态时间规整算法(Dynamic Time Warping)进行音节内部的对齐。此外,由于不同说话者的音高变化范围也不相同,比如男性与女性的音高,差异就非常明显,因此,我们需要对音高序列做规整化处理,使得两者可比。
停顿相似度
在上图中可以看到,代表音高的蓝色线条并不是连续的,存在很多“断开”的部分,其中有些是语音的停顿,有些则是清音段(声带不振动)。停顿是韵律的另一主要特征,它影响着整个语句的流畅和自然度,不同的停顿还可能会造成语义理解的不同。
我们通过两个方面考察停顿相似度,一是停顿的位置,二是停顿的时长。在强制对齐的过程中,我们可以找到发音单元对应的起止位置,也就获取了停顿的起止位置和时长信息。接下来我们根据获取到的信息进行相似度的衡量。在分析停顿时长时,最关键的问题在于语速。由于不同的人说话时有着不同的语速,因此直接比较两段停顿的绝对时长将导致很大的偏差,因此我们要对说话者的语速做规整化处理,才能使停顿时长具有可比性。
实验结果
我们在两个不同的数据集上进行了韵律相似度的分布情况比对,这两个数据集分别为CMU-Arctic数据集(以英语为母语的说话者录制)和 微软小英授权用户的数据集(以汉语为母语的英语学习者录制)。左图是语调相似度的分布情况,右图是停顿相似度的分布情况。从两幅图的分布情况可以看出,同一句话由两位不同母语的人朗读,韵律表达会有一定的差异,母语者之间的韵律相似程度比母语者与非母语者之间的韵律相似程度要高,且停顿相似度比语调相似度有更强的区分能力,这也说明相比语调,停顿节奏的掌握对非母语语言学习者而言难度更大。
更客观的韵律评价指标
目前衡量发音评测算法有效性,主要方法是对比机器与人工打分,计算其相关度。但对韵律分析的人工打分来说,音段的人工标注较为确定,韵律的人工标注就会有标准不统一的问题。即使让两位母语者录制同一段话,韵律变化也很难完全一致。因此韵律的人工标注不仅对标注者的专业知识有严苛的要求,而且标注过程相当繁杂,也易受主观性的影响。
但是,数据录制者是否是母语使用者,这一标签信息是客观且容易得到的。因此,我们构造了一个二分类的网络来区分测试语句是否来自于母语说话人,从而得到在一定程度上反应说话者的韵律标准程度的概率值。对于网络的输入,我们采用混合高斯模型对若干个具有大量数据的说话人的韵律相似度分布情况进行建模,使得评估语句有了更多的参照对象,可以得到一个相对客观的得分,用于对学习者的反馈。
更灵活的应用场景
由于在进行韵律评估的过程中,每一条待评估录音都需要对应一条由母语使用者录制的相同文本信息的录音作为标准参考,这一录制过程将消耗大量时间和资金成本,大大限制发音质量评测算法的应用场景。因此我们尝试使用高质量的语音合成技术(TTS)来制作与文本对应的语音,代替标准录音来完成韵律相似度的比对计算。这一方案在我们的数据集上得到了与直接使用真人语音的方案相当接近的效果。这说明微软高品质的语音合成能使发音质量评测算法更加灵活地应用在不同的场景。