2018/05/18 11:09

吴攀参与

IJCAI 2018 | 腾讯知文等提出新型生成式摘要模型：结合主题信息和强化训练生成更优摘要

让机器能根据文章的主题思想生成人类能够读懂的文本摘要是一个重要的 NLP 研究问题。腾讯知文团队、苏黎世联邦理工学院、哥伦比亚大学和腾讯 AI Lab 的研究者针对这一任务提出了一种引入主题模型和强化学习方法的卷积神经网络方法。该论文已被 IJCAI 2018 接收，机器之心在此进行了摘要介绍。

自动文本摘要在很多不同的自然语言处理（NLP）应用中都发挥着重要的作用，比如新闻标题生成 [Kraaij et al., 2002] 和 feed 流摘要 [Barzilay and McKeown, 2005]。对于文本摘要来说，概括文章的中心思想、信息丰富性、内容代表性等，都是非常重要的。自动文本摘要的关键难题是准确评估摘要结果、选择重要信息、有效地过滤冗余内容、总结相关信息从而得到可读性强的摘要等。与其它 NLP 任务相比，自动文本摘要有自己的难点。比如，不同于机器翻译任务（输入和输出序列通常长度相近），摘要任务的输入和输出序列大都很不平衡。另外，机器翻译任务通常在输入和输出序列之间有一些直接词义层面的对应，这在摘要任务中却没那么明显。

自动摘要技术有两种类型，即抽取式（extraction）和生成式（abstraction）。抽取式摘要 [Neto et al., 2002] 的目标是通过选择源文档中的重要片段并将它们组合来生成摘要；而生成式摘要 [Chopra et al., 2016] 则是根据文档的核心思想来重新组织生成摘要，因此这种摘要的灵活性更高。不同于抽取式摘要，生成式方法能够针对源文档的核心思想重新组织摘要语言，并确保所生成的摘要语法正确且保证可读性；这更接近于人类做摘要的方式，因此也是本论文关注的方法。

近段时间，深度神经网络模型已经在 NLP 任务上得到了广泛应用，比如机器翻译 [Bahdanau et al., 2014]、对话生成 [Serban et al., 2016] 和文本摘要 [Nallapati et al., 2016b]。使用循环神经网络（RNN）[Sutskever et al., 2014] 的基于注意力机制的 sequence to sequence 框架 [Bahdanau et al., 2014] 在 NLP 任务上得到了尤其广泛的应用。但是，基于 RNN 的模型更容易受到梯度消失问题的影响，因为它们具有非线性的链式结构；相比而言，基于 CNN 的模型 [Dauphin et al., 2016] 的结构是分层式的。此外，RNN 的隐藏状态之间的时间依赖也影响了训练过程的并行化，这会使得训练效率低下。

在本论文中，我们提出了一种新方法，该方法基于卷积神经网络的 sequence to sequence 框架（ConvS2S）[Gehring et al., 2017]，引入结合主题模型的注意力机制。就我们所知，这是生成式文本摘要中首个采用卷积框架结合联合注意力机制引入主题信息的研究，这能将主题化的和上下文的对齐信息提供到深度学习架构中。此外，我们还通过使用强化学习方法 [Paulus et al., 2017] 对我们提出的模型进行了优化。本论文的主要贡献包括：

我们提出了结合多步注意力机制和带偏置生成机制的方法，将主题信息整合进了自动摘要模型中，注意力机制能引入上下文信息来帮助模型生成更连贯、多样性更强和信息更丰富的摘要。
我们在 ConvS2S 的训练优化中使用了 self-critical 强化学习方法（SCST：self-critical sequence training），以针对文本摘要的指标 ROUGE 来直接优化模型，这也有助于缓解曝光偏差问题（exposure bias issue）。
我们在三个基准数据集上进行了广泛的实验，结果表明引入主题模型和 SCST 强化学习方法的卷积神经网络能生成信息更丰富更多样化的文本摘要，模型在数据集上取得了较好的文本摘要效果。

3 引入强化学习和主题模型的卷积 sequence to sequence 框架

我们提出了引入强化学习和主题模型的卷积 sequence to sequence 模型，其包含词语信息输入和主题信息输入的双路卷积神经网络结构、一种多步联合注意力机制、一种带主题信息偏置的文本生成结构和一个强化学习训练过程。图 1 展示了这种引入主题信息的卷积神经网络模型。

图 1：引入主题信息的卷积神经网络结构示意图。

3.1 ConvS2S 架构

我们使用 ConvS2S 架构 [Gehring et al., 2017] 作为我们的模型的基础架构。在这篇论文中，我们使用了两个卷积模块，分别与词层面和主题层面的 embedding 相关。我们在这一节介绍前者，在后一节介绍后者以及联合注意力机制和带偏置文本生成机制。

3.2 引入主题模型的多步注意力机制

主题模型是一种用于发现源文章集合中出现的抽象主题思想或隐藏语义的统计模型。在本论文中，我们使用了主题模型来获取文档的隐含知识以及将引入主题信息的多步注意力机制集成到 ConvS2S 模型中，这有望为文本摘要提供先验知识。现在我们介绍如何通过联合注意机制和带偏置概率生成过程将主题模型信息引入到基本 ConvS2S 框架中。

5 结果和分析

表 4：模型在 Gigaword 语料库上生成的摘要示例。D：源文档，R：参考摘要，OR：引入强化学习的 ConvS2S 模型的输出，OT：引入主题模型和强化学习的 ConvS2S 模型的输出。蓝色标记的词是参考摘要中没有出现的主题词。红色标记的词是参考摘要和源文档中都没有出现的主题词。

表 5： Rouge 在 DUC-2004 数据集上的准确度分数。在每种分数上的最佳表现用粗体表示。

表 7：模型在中文语料库 LCSTS 上生成的摘要示例。D：源文档，R：参考摘要，OR：引入强化学习的 ConvS2S 模型的输出，OT：引入主题模型和强化学习的 ConvS2S 模型的输出。蓝色标记的词是参考摘要中没有出现的主题词。红色标记的词是参考摘要和源文档中都没有出现的主题词。

论文：一种用于抽象式文本摘要的强化型可感知主题的卷积序列到序列模型（A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization）

论文链接：https://arxiv.org/pdf/1805.03616.pdf

摘要：在本论文中，我们提出了一种解决自动文本摘要任务的深度学习方法，即将主题信息引入到卷积 sequence to sequence（ConvS2S）模型中并使用 self-critical 强化学习训练方法（SCST）来进行优化。引入词语和主题信息，加入多步注意力机制，我们的方法可以通过带主题偏置的概率生成机制提升所生成摘要的连贯性、多样性和信息丰富性。另一方面，SCST 这样的强化学习训练方法可以根据针对摘要的评价指标 ROUGE 直接优化模型，这也能缓解曝光偏差问题。我们在 Gigaword、 DUC-2004 和 LCSTS 数据集上进行实验评估，结果表明我们提出的方法在生成式摘要上的优越性。

理论腾讯腾讯AI Lab自然语言处理IJCAI 2018论文

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

卷积技术

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

语料库技术

语料库一词在语言学上意指大量的文本，通常经过整理，具有既定格式与标记；事实上，语料库英文 "text corpus" 的涵意即为"body of text"。

来源：维基百科

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

梯度消失问题技术

梯度消失指的是随着网络深度增加，参数的梯度范数指数式减小的现象。梯度很小，意味着参数的变化很缓慢，从而使得学习过程停滞，直到梯度变得足够大，而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文：「Learning long-term dependencies with gradient descent is difficult」，目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

来源：机器之心 Vanishing gradient problem

序列到序列技术

主题模型技术

主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia