推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger
序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要、句子融合和语法纠错。模型架构改进(如 Transformer)以及通过无监督训练方法利用大型无标注文本数据库的能力,使得近年来神经网络方法获得了质量上的提升。但是,使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,如生成的输出不受输入文本支持(即「幻觉」,hallucination)、需要大量训练数据才能实现优秀性能。此外,由于 seq2seq 模型通常逐词生成输出,因此其推断速度较慢。谷歌研究人员在近期论文《Encode, Tag, Realize: High-Precision Text Editing》中提出一种新型文本生成方法,旨在解决上述三种缺陷。该方法速度快、精确度高,因而得名 LaserTagger。