自然语言生成 | 机器之心

简介

自然语言生成（NLG）是自然语言处理的一部分，从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时，心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。NLG出现已久，但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向：自然语言理解系统须要厘清输入句的意涵，从而产生机器表述语言；自然语言生成系统须要决定如何把概念转化成语言。

文本到文本生成(text-to-text generation)和数据到文本生成(data-to-text generation)都是自然语言生成的实例。在迄今为止最广泛引用的NLG方法调查中（Reiter＆Dale，1997,2000），NLG被描述为“人工智能和计算语言学的子领域，它关注如何建立能够从非语言的信息中构建可理解的英语（或其他语言）文本的计算机系统。显然，这个定义比文本到文本生成更适合数据到文本的生成，实际上Reiter和Dale（2000）专注于前者，因为这是当时研究的主流方向。

有一些学者指出，精确定义NLG是相当困难的：每个人似乎都同意NLG系统的输出应该是什么（文本），但确切的输入是什么可以大不相同。更复杂的是，不同方法之间的界限本身是模糊的。例如，文本摘要可以被表征为文本到文本的应用程序。但是，许多文本到文本生成的方法（特别是抽象摘要系统，不从输入文档中提取内容）使用的技术也用于数据到文本。

传统上，将输入数据转换为输出文本的NLG问题通过将其分解为多个子问题来解决。一般可以将这些问题分为以下六类：

1.内容确定（Content determination）：决定在建文本中包含哪些信息，

2.文本结构（Text structuring）：确定将在文本中显示的信息，

3.句子聚合（Sentence aggregation）：决定在单个句子中呈现哪些信息，

4.词汇化（Lexicalisation）：找到正确的单词和短语来表达信息，

5.引用表达式生成（Referring expression generation）：选择单词和短语以识别域对象，

6.语言实现（Linguistic realisation）：将所有单词和短语组合成格式良好的句子。

以上任务可以用下图的新生儿重症监护领域的简化示例进行说明。首先，系统必须决定数据中的重要事件（a，内容确定），在这种情况下，是低心率（心动过缓）的发生。然后，它必须决定它想要向读者呈现数据的顺序（b，文本结构）以及如何在单个句子计划中表达这些（c，聚合，词汇化，引用表达式生成）。最后，生成得到句子（d，语言实现）。

这些任务可以按时间顺序考虑从，从“早”决策过程（向读者传达哪些信息？）到“晚”（在特定句子中使用哪些词，以及如何按正确顺序排列？）来考虑这些任务。

[图片及描述来源：Gatt, A.; Krahmer, E. (2017). Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation. arXiv:1703.09902.]

发展历史

如上文所述，NLG可以分为文本到文本生成(text-to-text generation)和数据到文本生成(data-to-text generation)。文本到文本生成又可以更进一步的进行划分——机器翻译（machine translation）、摘要生成、文本简化（Text simplification）、文本更正、文本释义、问题生成等。

在机器翻译领域，1993年，Peter F. Brown 和 Della Pietra 将统计方法应用于机器翻译。他们描述了一系列翻译过程的五个统计模型，并给出了给定一组相互翻译的句子对来估计这些模型参数的算法。他们给定的例子局限于法语和英语互译，但他们认为该模型也可以在其他语言对上运行良好。对于常用的模型，Franz Josef Och和Hermann Ney于2003年使用统计或启发式模型来呈现和比较用于计算单词对齐的各种方法。

2005年，Colin Bannard和Chris Callison-Burch使用双语并行语料库来提取和生成释义。使用基于短语的统计机器翻译的对齐技术，他们展示了如何使用另一种语言中的短语作为支点来识别一种语言中的释义。他们定义了一个复述概率，它允许对从双语平行语料库中提取的释义使用翻译概率进行排序，并说明如何对其进行细化以将上下文信息考虑在内。

在摘要生成方面，考虑到该任务通常在孤立的句子上执行，而不考虑周围的上下文。James Clarke 和Mirella Lapata提出了一个能够进行连贯且信息丰富的文档压缩的模型。他们的模型受到局部相干理论的启发，并在整数线性规划的框架内制定。实验结果显示他们的模型达到了当时的最优表现。

文本简化的研究则可以参考Advaith Siddharthan于2014年发表的综述论文，他总结了大量跨学科的文本简化工作，并强调推动该领域前进的最有希望的研究方向。

文本更正/拼写检查的研究则要久远的多，早于1992年Karen Kukich即发表论文旨在解决三个问题：（1）非字错误检测（nonword error detection）; （2）隔离字纠错（isolated-word error correction）; （3）依赖于上下文的工作校正（context-dependent work correction）。响应于第一个问题，他开发了有效的模式匹配和n-gram分析技术，用于检测未出现在给定单词列表中的字符串。响应于第二个问题，他开发了各种通用和特定于应用的拼写校正技术。针对第三个问题，他则进行了一些使用自然语言处理工具或统计语言模型的实验。

2016年，Alberto Bartoli等人发表论文研究了一种能够自动生成给定科学论文的虚假review的工具，该工具的一个关键特征是它是建立在一个小知识库的基础上的。

当然，从非文本数据中生成文本也是NLG的重要研究方向。2012年Margaret Mitchell等人发表了论文，通过计算机视觉检测来组成人类描述的图像。通过利用语法上知情的单词共现统计，生成器过滤并约束从视觉系统输出的噪声检测，以生成详细说明计算机视觉系统所看到的语法树。结果表明，他们生成系统优于当时最先进的系统，能够自动生成一些当时为止最自然的图像描述。

2013年，Girish Kulkarni，Tamara L. Berg等人也提出了一个从图像中自动生成自然语言描述的系统。该系统由两部分组成。第一部分负责内容规划，平滑基于计算机视觉的检测和识别算法的输出，使用从大量视觉描述文本中挖掘的统计数据来确定用于描述图像的最佳内容词。第二步则根据预测内容和自然语言的一般统计选择单词构建自然语言句子。

2014年， Jesse Thomason和Raymond Mooney等人提出了一种策略，通过使用因子图将视觉检测与语言统计相结合来生成视频的文本描述。他们使用最先进的视觉识别系统来捕捉视频中存在的实体，活动和场景。谭厚他们的因子图模型将这些检测置信度与从文本语料库中挖掘的概率知识相结合，以估计最可能的主语，动词，对象和位置。在 YouTube视频的上实验结果表明，与单独使用视觉系统相比，他们的联合检测允许自动生成具有各种可能内容的更准确，更丰富的视频的句子描述。

2017年，Dan Jurafsky等人从图灵测试中获取直觉，建议使用对抗性训练来进行开放域对话生成：系统经过训练以产生与人类对话无法区分的序列。他们将任务作为强化学习（RL）问题，培养两个系统——一个生成响应序列的生成模型，以及一个鉴别器 - 与图灵测试中的人类评估者一样 - 区分人类生成的对话和机器生成的对话。然后，鉴别器的输出被用作生成模型的奖励，推动系统产生类似于人类对话的对话。

主要事件

年份	事件	相关论文/Reference
1992	1992年Karen Kukich即发表论文旨在解决三个问题：（1）非字错误检测（nonword error detection）; （2）隔离字纠错（isolated-word error correction）; （3）依赖于上下文的工作校正（context-dependent work correction）	Kukich, K. (1992). Techniques for automatically correcting words in text. ACM Computing Surveys (CSUR), 24 (4), 377–439.
1993	Peter F. Brown 和 Della Pietra 将统计方法应用于机器翻译	Brown, P. F. et al. (1993). The mathematics of statistical machine translation: parameter estimation. Computational Linguistics. 9(2); 263-311.
2003	Franz Josef Och和Hermann Ney使用统计或启发式模型来呈现和比较用于计算单词对齐的各种方法	Och, F. J. and Ney, H. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics. 29(1): 19-51.
2005	Colin Bannard和Chris Callison-Burch使用双语并行语料库来提取和生成释义	Bannard, C., & Callison-Burch, C. (2005). Paraphrasing with bilingual parallel corpora. In Proc. ACL’05, pp. 597–604.
2010	James Clarke 和Mirella Lapata提出了一个能够进行连贯且信息丰富的文档压缩的模型	Clarke, J., & Lapata, M. (2010). Discourse Constraints for Document Compression. Computational Linguistics, 36 (3), 411–441.
2012	Margaret Mitchell等人发表了论文，通过计算机视觉检测来组成人类描述的图像	Mitchell, M., Dodge, J., Goyal, A., Yamaguchi, K., Stratos, K., Han, X., Mensch, A., Berg, A., Han, X., Berg, T., & Daume III, H. (2012). Midge: Generating Image Descriptions From Computer Vision Detections. In Proc. EACL’12, pp. 747–756.
2013	Girish Kulkarni，Tamara L. Berg等人也提出了一个从图像中自动生成自然语言描述的系统	Kulkarni, G., Premraj, V., Ordonez, V., Dhar, S., Li, S., Choi, Y., Berg, A. C., & Berg, T. (2013). Baby talk: Understanding and generating simple image descriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35 (12), 2891–2903.
2014	Jesse Thomason和Raymond Mooney等人提出了一种策略，通过使用因子图将视觉检测与语言统计相结合来生成视频的文本描述	Thomason, J., Venugopalan, S., Guadarrama, S., Saenko, K., & Mooney, R. J. (2014). Integrating Language and Vision to Generate Natural Language Descriptions of Videos in the Wild. In Proc. COLING’14, pp. 1218–1227.
2014	Advaith Siddharthan总结了大量跨学科的文本简化工作	Siddharthan, A. (2014). A survey of research on text simplification. International Journal of Applied Linguistics, 165 (2), 259–298.
2016	Alberto Bartoli等人发表论文研究了一种能够自动生成给定科学论文的虚假review的工具	Bartoli, A., De Lorenzo, A., Medvet, E., & Tarlao, F. (2016). Your paper has been accepted, rejected, or whatever: Automatic generation of scientific paper reviews. In International Conference on Availability, Reliability, and Security, pp. 19–28.
2017	Dan Jurafsky等人从图灵测试中获取直觉，建议使用对抗性训练来进行开放域对话生成	Li, J. et al. (2017). Adversarial Learning for Neural Dialogue Generation. arXiv:1701.06547.

发展分析

瓶颈

目前的NLG模型表型还不够好，单纯使用模板的模型太过于僵硬，但使用神经网络的模型又太过于随机，有不可控的风险。

未来发展方向

语言生成是在语言理解的研究发展到一定阶段的必然方向，也因此，一方面有关语言理解（如机器翻译）的模型需要取得更好的表现；同时生成模型也需要更灵活。语言的离散性给训练GAN造成的困难可以通过结合强化学习缓解，可以帮助生成更真实和灵活的内容。

Contributor: Yuanyuan Li

简介