Facebook AI联合西班牙巴斯克大学提出零样本多语言转换学习框架
机器之心获悉,来自Facebook AI Research和西班牙巴斯克大学的研究员于近日提出了一个零样本多语言转换学习新框架。该团队表示,其新架构用于学习93种语言的联合多语言句子表示,属于30多种不同语言系列,并用28种不同的脚本编写。该系统使用单个BiLSTM编码器,该编码器具有适用于所有语言的共享BPE词汇表,其与辅助解码器配合并在公共可用的并行语料库上进行训练。这使其能够仅使用英语注释数据在所得到的句子嵌入之上学习分类器,并将其转移到93种语言中的任何一种而无需任何修改。
该团队称:“我们的方法为XNLI数据集中的所有14种语言设置了一种新的最先进的跨语言自然语言推断方法。我们还在跨语言文档分类(MLDoc数据集)中取得了非常有竞争力的结果。我们的句子嵌入在并行语料库挖掘方面也很强大,在BUCC共享任务中为其4种语言对中的3种建立了一种新的先进技术。最后,我们基于Tatoeba语料库引入了122种语言的对齐句子的新测试集,并且表明我们的句子嵌入在多语言相似性搜索中获得了强有力的结果,即使对于低资源语言也是如此。”