2019/02/21 18:48

数据到文本生成的近期优质论文，我们为你挑选了这六篇

编者按：在《如何让人工智能学会用数据说话》一文中，我们曾经为大家介绍过结构化数据到文本生成的技术方法、商业应用以及相关数据集等方面内容。今天，我们邀请微软亚洲研究院知识计算组的研究员解读该领域中有关数据到文本生成的近期论文。

数据到文本生成任务以结构化数据（例如一个商品的属性列表或一场比赛的统计数据）作为输入，旨在自动生成流畅的、贴近事实的文本以描述输入数据。数据到文本生成的主流方法包括基于规则和模板的方法以及基于神经网络的方法。

现阶段，基于规则和模板的方法仍然是相关应用中最主流的做法，因为这类方法具备明显的可解释性与可控制性，更容易确保所输出文本内容的正确性。然而，这种方法也存在局限性——优质模板的抽取离不开人工特征工程或者规则干预；生成的内容在多样性、流畅度以及连贯性方面往往会存在问题。

与之相反，基于神经网络的模型主要依靠数据驱动，不需要太多人工干预，也很容易产生丰富又流畅的文字描述，但使用者往往无法直接操控内容生成，难以确保所输出的文本内容同输入数据中的信息吻合，所以目前在真实场景下目前并不具备足够的实用价值。由于神经网络表示学习近年来的火热，以及神经网络文本生成模型存在明显的不足和改进空间，近期学术研究中探索神经网络生成模型的工作相对更多。

数据到文本生成任务在不同场景设定下的进展和挑战不尽相同，近两年也有很多工作试图从不同角度开展研究。在本文中，我们将带大家一起选读若干近期相关研究工作。这些工作的研究动机相对明确，直接尝试应对当前方法所面临的重要挑战，为后续进一步研究提供了一些可行的方向或角度。

论文清单

Challenges in Data-to-document Generation

由Sasha Rush领衔的哈佛大学自然语言处理研究组是近年来研究神经网络文本生成模型最活跃的团队之一。该团队在EMNLP 2017上发表了题为Challenges in Data-to-document Generation的工作（Wiseman et al., 2017），包含了作者对神经网络数据到文本生成模型的阶段性总结与反思。作者采集了大量NBA篮球比赛统计数据以及对应的文字战报，以此发布了新的数据集RotoWire。与《如何让人工智能学会用数据说话》一文中介绍过的维基百科传记数据集WikiBio以及下文会提及的E2E NLG Challenge评测数据集相比，RotoWire中的输入数据更丰富，文本长度更长，通常每篇描述包含5-7句话；并且文字中直接提及或通过不同措辞蕴含的部分信息，需要从具体的数值、时间等信息推断得出，无法从输入的表格数据中直接获取。例如，输入数据中并没有直接标示比赛的获胜球队，只列出了交战双方比分，而文字内诸如“亚特兰大老鹰队以103-95击败迈阿密热队”中的“击败”一词，需要生成模型能够准确捕捉“比分更高的球队胜出”这样的对应关系，对当前高度依赖连续向量表示的神经网络方法而言颇具挑战。

作者在该数据集上进行的实验表明，常见神经网络文本生成模型所输出的文本虽然看似流畅，但往往存在多种逻辑错误，比如混淆了不同信息的输出位置、无中生有（hallucination，即模型在所生成的文本中“自行脑补”了输入数据中并没有蕴含的信息）等等，详见图1。这些问题在进行长文本生成时显得更为严重，导致模型输出的准确度远不如基于模板的文本生成系统。

图1 神经网络生成模型输出示例，蓝色/红色部分分别表示同输入数据吻合/不吻合的内容（图片来自Wiseman et al., 2017 ）

论文中也指出，常用的自动化评测指标（如BLEU）并不足以评测文本生成的质量。这些指标侧重于评测文本的流畅性，但忽视了文本的语义和逻辑信息。自动指标的局限性其实近年也在自然语言生成领域被反复提及，有大量工作指出它们同人工评价的统计相关性其实很低（如Novikova et al., 2017、Chaganty et al., 2018、Reiter, 2018等）。在这种情况下，一方面有针对性地设计人工评测不可或缺，另一方面也需要其它更合理的自动指标来作辅助。因此，作者也给出了一种抽取式评价（extractive evaluation）方法，从生成的文本中抽取事实并与输入数据进行比对，在一定程度上可以弥补传统自动化评测指标（如BLEU）的不足。

A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation

自然语言生成领域近年最著名的公开评测当属E2E NLG Challenge。该评测于2017年启动，在2018年上半年公布了评测结果，并在自然语言生成专业会议INLG 2018上进行了总结 (Dušek et al., 2018; 2019)。该评测收集了上万条配对的餐馆描述及语义表示数据（如图2所示）。参赛系统需要将给定的语义表示（meaning representation, MR），即不同的属性与值，用自然语言（natural language, NL）描述出来。评测数据集侧重于反映诸如开放词表、语义控制、表达多样性等几种数据到文本生成任务的挑战。

E2E NLG Challenge 链接：http://www.macs.hw.ac.uk/InteractionLab/E2E/

图2 E2E评测任务数据示例（本例来自评测官网）

E2E NLG Challenge评测最终的获胜系统为加州大学圣克鲁斯分校研究团队的Slug2Slug系统，该系统在自动评测和人工评测中均取得较好的成绩。该团队将系统描述以论文A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation发表在NAACL 2018 (Juraska et al., 2018)。在这篇论文中，作者提出一个集成（ensemble）的神经文本生成框架，其中参与集成的个体模型均为常用的序列到序列（sequence-to-sequence）模型。其编码器部分采用了最为常用的LSTM-RNN或CNN。而在每个模型解码输出多条候选文本后，系统还对这些候选文本进行重排序，排序时考虑了文本中所提及事实与输入数据的匹配情况。本文在方法上的核心贡献是作者自行构建的一套启发式的属性槽对齐器（slot aligner），用来剔除训练数据中一些没有被对应文本所提及的属性值，在一定程度上实现了数据去噪；作者还根据候选文本同数据属性槽的对齐结果设计了重排序准则。实验表明，系统虽然无法在所有自动评测指标中均取得领先，但可以使得模型在各个指标上都更加稳定、输出错误更少的文本。

由于面向E2E评测，作者也在文中总结了不少实用技巧，对准备上手相关任务的读者而言值得参考。比如，在预处理时的去词汇化（delexicalization）操作中，作者不仅简单地进行匹配和替换，还在替换时保留了更多的上下文信息（如单复数、时态等和衔接等信息）。另外，论文还讨论了文本生成中数据增广（data augmentation）的实用做法，以及为了获得更自然的生成文本对训练数据进行选择的尝试。

本文的核心操作是建立结构化数据同文本信息的对齐。除了直接根据领域知识设计启发式对齐方法以外，也有同期的其它工作试图在规模更大、干扰更多的Wikibio维基百科数据集上实现自动对齐（Perez-Beltrachini and Lapata, 2018）。类似多示例学习（multiple-instance learning）的思想，原理上可以将与文本共现的属性集视作弱监督标记来导出对齐信息。

End-to-End Content and Plan Selection for Data-to-Text Generation

这篇论文是哈佛大学自然语言处理组发表在INLG 2018的工作（Gehrmann et al., 2018）。文中提出的方法在经典序列到序列模型的基础上，引入多个解码器，并通过隐变量因子来指定最终文本是由哪个解码器所生成。这样做的原因是，在文本生成中，同一个意图往往有多种表达方法，只使用单个解码器很难对多种不同的表达方式进行拟合。而通过设置多个子模型，可以让每个子模型只负责拟合特定表达风格的数据，从而改进学习效果。

值得一提的是，该论文所采用的基础模型整合了常用的注意力（attention）机制、拷贝（copy）机制、覆盖（coverage）机制和文本长度控制等，是一个较为先进和完备的基础模型。另外，该论文也在 E2E NLG Challenge 数据集上对这些主要组件的影响进行了实验评测。

Learning Neural Templates for Text Generation

虽然端到端（end-to-end）的方法在数据到文本生成上取得了一定的成果，但其不可解释性和不可控性一直广为诟病。因此，近期也出现了一些将端到端方法和传统基于规则和模板的方法进行融合的模型。哈佛大学自然语言处理组的EMNLP 2018论文Learning Neural Templates for Text Generation就是其中较有代表性的工作之一（Wiseman et al., 2018）。为了学习抽取和使用模板，作者采用适合片段建模的隐半马尔可夫模型（hidden semi-markov model, HSMM）对文本进行建模，并用神经网络实现其中所有概率项的参数化。在完成模型训练后，可以利用Viterbi算法推断出隐状态序列，并将其获取为模板，因此可以很方便地对模板进行控制并利用模板引导下一步的文本生成。在E2E NLG Challenge数据和WikiBio数据上的实验结果表明，该方法可以取得和端到端神经模型可比的性能，但是更具可解释性和可控性。

同期也有其它工作尝试先产生模板、再填写属性值的过程（Li and Wan, 2018）。借助边际损失函数拉大正确填充结果与错误填充结果的模型打分差距，可以在一定程度上缓解输出文本语义不正确的问题。

Operation-guided Neural Networks for High Fidelity Data-To-Text Generation

这篇论文（Nie et al., 2018）是微软亚洲研究院知识计算组对改进神经模型生成文本正确性的一个尝试。在前文中我们也提过，很多时候训练数据中，文本和结构化数据无法一一对齐，这对结构化数据到文本生成提出很大的挑战。例如句子 “Hawks edges the Heat with 95-94”，其中队名Hawks、Heat和比分95、94均可以直接从输入数据中获取，而描述比赛结果的edges （“险胜”）是基于两队比分极其接近的事实而得出，现实中的结构化数据往往不会直接包含此类细粒度事实。进一步调研发现，在本论文收集的ESPN dataset数据集、前文所述RotoWire数据集以及维基百科人物数据集WikiBio的文本中，分别有29.1%、11.7%和7.4%的事实虽然不能从输入数据中直接获取，但可以通过对输入数据进行运算而获得。基于这些观察，论文提出了基于运算指引的神经文本生成模型。具体来说，该模型预先执行好若干种预定义的运算操作，在进行文本生成时，解码器从输入数据和运行结果中利用门限（gating）机制动态采用所使用的信息来源。另外，为了缓解数值数据的稀疏性问题，文中还将运算结果中的数值进行自动分段处理，使得模型更容易建立运算结果同词汇选择的联系。

论文还发布了ESPN数据集，该数据集包含2006-2017年1.5万场NBA比赛的结果和对应的新闻标题。与RotoWire相比，该数据集文本长度更短，且文本中仅有约8.2%的内容没有蕴含在输入数据信息内（既无法从输入数据直接获取，也无法通过其他操作推断得到的部分）。

Learning Latent Semantic Annotations for Grounding Natural Language to Structured Data

这篇论文（Qin et al., 2018）是微软亚洲研究院知识计算组在EMNLP 2018会议发表的另一篇相关工作，出发点与前一篇论文类似，但侧重于细粒度显式建立起文本与输入数据之间的关系，从而得到可解释、可控制的模型。不同词汇或者短语的使用同输入数据里不同部分的信息有关，词汇有时会直接取自数据中的字符串，有时则会因为属性变量或者数值变量的不同取值而产生变化。由于对数值的表达在一定程度上涉及常识获取与推理，关于这一部分的研究其实相当贫乏。

文中将建立对应关系的过程用序列标注的方式来实现，如图3所示。整个方法框架将表征词汇语义的标注视为隐变量，建立隐半马尔可夫模型（HSMM）进行学习与推断。模型中对于字符串变量、属性变量、数值变量等不同类型之间的对应关系分别采用了不同的概率模型来建模，而无法对应到输入数据的文字则统一标注为特定的空标记（NULL）。同经典机器翻译方法中的统计对齐模型类似，最终的对齐结果中很容易出现“垃圾收集”（garbage collection）效应，在文中的任务设定下表现为：有部分本应打上空标记（NULL）的文字会被对应到几乎不被提及的数据单元上。为缓解这一问题，可以利用后验正则化（posterior regularization）技术，从统计上约束空标记的比例使之不低于特定值，最后能够使得对齐结果得到大幅改善。

图3 自动推断文本中各部分词汇同输入数据项的对应关系

模型推断得到的概率可以用来为特定的数据信息获取多样的词汇表达，而对齐结果本身也可以据此为自然语言生成提供丰富的规则和模板。这样，在保证了可解释性以及可控性的基础上，整个框架可以自动从平行数据中获取丰富的文字表达模式。

结语

数据到文本生成任务在近几年得到了广泛关注，整个领域也在可控性、正确性、多样性等问题上取得了一些进展。不过，这些问题目前还没有得到完全彻底的解决，在基于神经网络的文本生成模型中尤其如此，这一现状也为后续的相关研究工作留出了巨大的前进空间。在目前的工程实践中，尤其是对于正确性和可控性要求比较高的场景，我们仍然建议采用基于模板或规则的方法，而模板与规则也可以由系统性的从平行数据中获取得到。文本生成是让计算机从能听会看到能言善道的必要技术之一。在生成模型的设计、训练语料的构建、评价方法的创新、应用场景的适配等等议题都有很大的研究发展空间。作者也希望借由此文启发更多的研究人员关注和投入这个领域，一起为数据到文本生成后续的技术发展贡献力量。

参考文献

• Chaganty, et al. "The price of debiasing automatic metrics in natural language evalaution"

• Dušek, et al. "Findings of the E2E NLG challenge"

• Dušek, et al. "Evaluating the State-of-the-Art of End-to-End Natural Language Generation: The E2E NLG Challenge"

• Gehrmann, et al. "End-to-End Content and Plan Selection for Data-to-Text Generation"

• Juraska, et al. "A Deep Ensemble Model with Slot Alignment for Sequence-to-Sequence Natural Language Generation"

• Li, Liunian, et al. "Point Precisely: Towards Ensuring the Precision of Data in Generated Texts Using Delayed Copy Mechanism"

• Nie, Feng, et al. "Operation-guided Neural Networks for High Fidelity Data-To-Text Generation"

• Novikova, et al. "Why We Need New Evaluation Metrics for NLG"

• Perez-Beltrachini, Laura, and Mirella Lapata. "Bootstrapping Generators from Noisy Data"

• Qin, Guanghui, et al. "Learning Latent Semantic Annotations for Grounding Natural Language to Structured Data"

• Reiter, et al. "A Structured Review of the Validity of BLEU"

• Wiseman, et al. "Challenges in Data-to-Document Generation"

• Wiseman, et al. "Learning Neural Templates for Text Generation"

作者简介

王锦鹏，微软亚洲研究院知识计算组研究员，主要从事多模态知识挖掘、自然语言处理等领域的研究工作。至今为止，他在相关领域的顶级会议上已发表10余篇论文，并担任ACL、AAAI等国际会议的评审委员。

姚金戈，微软亚洲研究院知识计算组副研究员，目前主要致力于探索自然语言理解与生成中的若干重要问题以及在工程实践中的应用与适配。

知识计算组简介

知识计算组致力于通过知识发现、数据挖掘与计算来理解和服务这个世界。研究组聚集了包括数据挖掘与计算、机器学习、自然语言处理、信息检索和社会计算等领域的多学科研究员，主要从事如下研究方向：实体链接、搜索和知识挖掘与计算，基于结构化数据的文本生成，服务于真实世界的语义计算框架应用，基于大规模行为数据的用户理解。十年来，该组成员的研究成果对微软的重要产品产生了影响，包括必应搜索、微软学术搜索、微软认知服务、微软Office等。

微软研究院AI头条

专注科研19年，盛产黑科技

理论文本生成神经网络论文

相关技术

区块链技术云计算机器学习

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

马尔可夫模型技术

「马尔可夫模型」是指基于马尔可夫性质的模型，其假设一个给定过程的未来状态仅取决于当前状态。根据系统状态是否完全可被观测以及系统是自动的还是受控的，可以将常见的马尔可夫模型分成四种：马尔可夫链、隐马尔可夫模型（HMM）、马尔可夫决策过程（MDP）和部分可观测马尔可夫决策过程（POMDP）。另外还有马尔可夫随机场（MRF）和马尔可夫链蒙特卡洛（MCMC）这两个模型也常常被用于近似和预测。

来源：机器之心

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

序列到序列技术

隐变量技术

在统计学中，隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

来源：维基百科

自然语言生成技术

自然语言生成（NLG）是自然语言处理的一部分，从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时，心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式，因为自然语言多样的表达。NLG出现已久，但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向：自然语言理解系统须要厘清输入句的意涵，从而产生机器表述语言；自然语言生成系统须要决定如何把概念转化成语言。

来源：维基百科