2020/09/22 10:51

香侬科技作者

ICLR 2020 | 多模态下使用图片信息显著增强机器翻译效果

论文标题：

Neural Machine Translation with Universal Visual Representation

论文作者：

Zhuosheng Zhang, Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, Zuchao Li, Hai Zhao

论文链接：

https://openreview.net/forum?id=Byl8hhNYPS

收录情况：

ICLR 2020 (Spotlight)

代码链接：

https://github.com/cooelf/UVR-NMT

长期以来，机器翻译都只涉及到文本之间的转换，但实际上，人的感知功能可以是“多模态”的。

本文提出一种通用的视觉表征，将图片信息融合到机器翻译模型中。

使用这种视觉知识融合方法，不需要额外的双语-图片标注数据，模型就能够在多个数据集上取得显著的效果提升。

多模态与机器翻译

机器翻译是两种语言间的转换，比如“A dog is playing in the snow”翻译为中文就是“小狗在雪地里玩耍”。

但人类理解世界不只是用文字，还有视觉、听觉等感知能力；并且翻译的过程需要保持“语义”不变。比如下面的图：

讲中文的人会说“小狗在雪地里玩耍”，而讲英文的人会说“A dog is playing in the snow”。也就是说，人们对客观世界的本质认知是相同的，只是“方法”不同，体现在语言上，就是语法上的差异。

为此，我们可以假设在机器翻译模型中，融入这种“客观的世界知识”，比如把图片信息加入，以此期望增强翻译能力。同时考虑文本和图片，这就是一种多模态。

然而，过去的翻译-图片研究大都需要大量的双语-图片标注数据，这在数据上成为一个研究的瓶颈。本文针对这种情况，提出“通用的视觉表示”，仅用单语-图片标注数据，就能显著提高机器翻译的效果。

本文的方法在数据集EN-RO，EN-DE，EN-FR上均有约一个BLEU值的提高，这说明了本方法的有效性。

具体来说，本文贡献如下：

在阅读完本文之后，读者可以思考下述问题：

通用视觉表示

在机器翻译中融合图片信息

实验

我们在三个数据集上进行实验：WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。这三个数据集大小从小到大增加，从而在不同大小的数据集上都能验证该方法。

下表是在这三个数据集上的结果，++表示显著更优。

可以看到，和基线模型(Trans.(base/big))相比，本文的方法(+VR)在三个数据集上都能得到显著的提升，平均提升约一个BLEU值。同时，只引入了很少的参数量，这就不会使训练时间几乎不会增加。

下表是在数据集Multi30K上的结果，这是一个多模态数据集。可以看到，即使在多模态设置下，本文方法依旧能够取得显著结果。

小结

本文提出了一种简单、有效的多模态视觉知识融合方法——首先构建从主题词到图片的查询表，然后对输入句子找到相关的图片，然后使用ResNet提取图片信息融入到机器翻译模型中。

使用这种方法，可以避免对大规模双语-图片数据的依赖。实验结果也表明，这种方法可以一致地提高翻译效果。

思考题讨论

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论ICLR 2020机器翻译