Facebook AI 开源 CCMatrix:用于训练翻译模型的十亿规模的 bitext 数据集
Facebook AI 近日在技术博客宣布新开源:CCMatrix 是用于训练翻译模型的高质量,基于 Web 的 bitexts 的最大数据集。通过从 CommonCrawl 公共数据集的快照中提取的 576 种语言对中的超过 45 亿个并行句子,CCMatrix 比 Facebook 去年共享的 WikiMatrix 语料库大 50 倍以上。为了解决通过比较数十亿个句子以确定哪些是互译而带来的重大计算挑战,Facebook 使用大规模并行处理以及高效的 FAISS 库来进行快速相似性搜索。我们正在分享有关如何创建 CCMatrix 的详细信息。与 TED 语料库进行测试时,与其他方法相比,CCMatrix 还能够显着提高许多语言对的 NMT 性能。