2020 AESR,即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共30个队伍参赛),和“口音英语语音识别”第二名(全球42个队伍参赛)。
在“Track1-口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。
数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM loss等进行优化,来训练8种口音的8分类模型。
经过多个不同策略组合的实验测试,最终发现,“利用PPG等特征,结合基于tts的数据生成,多嵌入多层联合优化”等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。