WikiMatrix:从维基百科文章内容中挖掘1620个语言对的1.35亿个平行句
在论文《WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia》中,研究者提出一种基于多语言句子嵌入的方法,以从 85 种语言(包括几种方言或低资源语言)的维基百科文章内容中自动提取平行句(parallel sentence)。在提取过程中,平行句并不只是以英文表示的,而是系统化地考虑到所有可能的语言对。从提取结果来看,研究者共为 1620 个不同的语言对提取了 1.35 亿个平行句,其中只有 3400 万个平行句是英文的。为了显示提取的双语文本质量,他们为 1886 个语言对的挖掘数据训练了神经 MT 基线系统,并在 TED 语料库中进行评估,实现了对很多语言对的高 BLEU 分数。因此,WikiMatrix 双语文本似乎非常适合训练不同语言之间的 MT 系统,而不需要转换成英文。