自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本。自动摘要可以分成不同的种类。按照输入文本的类别来分,输入最短的是句子摘要,输入稍微长一点的是单文档级的摘要,在单文档级别摘要之上还有多文档的摘要。
除了按照输入文档的类别来分,自动摘要还可以按照产生摘要的方式划分为抽取式摘要和生成式摘要。抽取式摘要,顾名思义就是从原始文本中原封不动地抽取单词或句子,来形成一个摘要。而生成式摘要比较接近于我们先理解文本内容,然后再自己写出一段话来对给定的文本进行概括的一种方式。除此之外,我们还可以从其它角度来划分,比如有query focused的摘要,它给定一个查询,系统给出这个文档针对这个查询的摘要。针对不同的查询,系统可以给出不同的摘要。
抽取式摘要主要是做一个序列标注的任务,相当于我们对句子中的每个词进行0、1的分类。比如标1就是把这个词选下来,这样就可以用抽取式的方法从句子中抽一些重点的词,再将这些重点词作为句子的摘要。句子摘要过去常被叫做句子压缩,用于文档摘要中。
那要怎么用呢?在抽取文档摘要时,我们可能会抽取出一个比较长的句子,然后采用句子压缩的方法把这个句子“剪短”。把句子“剪短”有什么好处呢?在过去的DUC任务中,文档对于输出摘要的长度有所限制,如果选一个特别长的句子达到了它的长度限制,后面就无法选更多的句子了。通过使用句子压缩的办法,就可以为接下来选择更多句子留下更多空间。
生成式摘要基本上都是基于序列到序列(Sequence-to-Sequence)模型的。带注意力模型的Sequence-to-Sequence的编码器就是一个双向的GRU,或者是双向的LSTM,可以将输入的句子进行编码。在解码的时候,它也是由一个GRU或者是LSTM作为一个解码器。这个注意力机制实际上是一个匹配的算法,它可以将当前解码器的状态和输入句子中隐藏的状态进行匹配。
[描述来源:干货 | 如何从编码器和解码器两方面改进生成式句子摘要?|机器之心]
发展历史
和机器翻译一起,自动摘要提出于 20 世纪 50 年代:对于给定的文本,目标是获得一个包含了其中最重要信息的简化版本,一个可以通过提取(extraction)或抽象(abstraction)得到的摘要。其中比较重要的一个研究是H. P. Luhn提出的,他使用数据处理机器扫描机器可读形式的文章的完整文本,并根据标准程序进行分析。 机器使用从词频和分布导出的统计信息来计算重要性的相对度量——首先针对单个词然后针对句子——得分最高的句子被提取并打印出来,成为“自动摘要”。
1969年,Harold P Edmundson描述了一个基于关键短语的范例,除了标准频率依赖权重之外,还使用以下三种方法来确定句子权重:Cue Method,Title Method,Location Method。
1990年,潜在语义分析(LSA)被Susan Dumais等人在论文中诠释,2001年,Yihong Gong 和 Xin Liu首先提出使用LSA为新闻领域中的单文档和多文档摘要选择高排名的句子。
由于抽取式摘要大多数方法计算的句子分数通常没有非常清晰的概率解释,并且许多句子分数是使用启发式计算的,不少研究人员开始转向贝叶斯方法。2003年Andrew Y. Ng等人提出了隐狄利克雷分布(LDA),这可以看作是结合了贝叶斯思想的概率潜在语义分析(pLSA),目前常常被用于文档摘要中。
2015年,Ming Zhou等人在递归神经网络(R2N2)上开发排名框架,以对多文档摘要的句子进行排名。 它将句子排名任务表示为分级回归过程,其同时测量句子及其组成部分(例如,短语)在解析树中的显着性。 此外,使用手工制作的单词特征向量作为输入,递归神经网络被用于自动学习解析树上的排名特征。 然后使用连接原始特征的学习特征进行分层回归。 利用句子和单词的得分来有效地选择信息性和非冗余句子以生成摘要。 在DUC 2001,2002和2004多文档摘要数据集上的实验表明,R2N2优于当时最先进的提取摘要方法。
针对基于 RNN 的模型在文本生成领域获得了惊人成绩。它们在短输入和输出文本上效果非常好,但对长文本的处理不太好,不连贯且会重复的问题。2017年,Richard Socher等人在论文中提出一种新的神经网络模型来克服该局限。他们使用 biLSTM 编码器读取输入,使用 LSTM 解码器生成输出。他们的主要贡献是一种新的注意力内策略(intra-attention strategy),分别关注输入和持续生成的输出;和一种新的训练方法,将标准监督式词预测和强化学习结合起来。
同年,Christopher D. Manning等人提出了一种新颖的架构,以两种正交方式增强标准的序列到序列注意力模型。 首先,他们使用混合指针生成器网络,它可以通过指向从源文本复制单词,这有助于准确再现信息,同时保留通过生成器生成新单词的能力。 其次,他们使用覆盖率来跟踪已经总结的内容,从而阻止重复内容的产生。该模型应用于CNN /每日邮件摘要任务,取得了高于当时最新水平至少2个ROUGE点的成绩。
主要事件
年份 | 事件 | 相关论文/Reference |
1958 | H. P. Luhn使用数据处理机器扫描机器可读形式的文章的完整文本,并根据标准程序进行分析 | Luhn, H. P. (1958). The automatic creation of literature abstracts. IBM Journal of research and development. 2(2): 159–165. |
1969 | Edmundson等人描述了一个基于关键短语的范例,除了标准频率依赖权重之外,还使用以下三种方法来确定句子权重:Cue Method,Title Method,Location Method。 | Edmundson, H. P. (1969). New methods in automatic extracting. Journal of the ACM (JACM) 16(2): 264–285. |
1990 | 潜在语义分析被Susan Dumais等人在论文中诠释 | Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American society for information science, 41(6), 391. |
2001 | Yihong Gong 和 Xin Liu首先提出使用LSA为新闻领域中的单文档和多文档摘要选择高排名的句子 | Gong, Y.; Liu, X. (2001). Generic text summarization using relevance measure and latent semantic analysis. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval. pp 19–25. |
2003 | Andrew Y. Ng等人提出了隐狄利克雷分布(LDA) | Blei, D. M.; Ng, A. Y.; Jordan, M. I. (2003). Latent Dirichlet Allocation. JMLR. pp 993-1022. |
2015 | Ming Zhou等人在递归神经网络(R2N2)上开发排名框架,以对多文档摘要的句子进行排名 | Cao, Z.; Wei, F.; Dong, L.; Li, S.; Zhou, M. (2015). Ranking with Recursive Neural Networks and Its Application to Multi-Document Summarization. AAAI. |
2017 | 针对基于 RNN 的模型在文本生成领域获得了惊人成绩。它们在短输入和输出文本上效果非常好,但对长文本的处理不太好,不连贯且会重复的问题。2017年,Richard Socher等人在论文中提出一种新的神经网络模型来克服该局限 | Paulus, R.; Xiong, C.; Socher, R. (2017). A Deep Reinforced Model for Abstractive Summarization. arXiv:1705.04304. |
2017 | Christopher D. Manning等人提出了一种新颖的架构,以两种正交方式增强标准的序列到序列注意力模型 | See, A.; Liu, P. J.; Manning, C. D. (2017). Get To The Point: Summarization with Pointer-Generator Networks. ACL. |
发展分析
瓶颈
现存的文本摘要的方法中,抽取式比较多,主要是因为选择文本要比从零开始生成文本来得更加容易。然而,另一方面,抽取式摘要的方法过于局限,它不能产生像人一样的文本总结,尤其是面对更长、更复杂的文本时。而目前比较流行的神经网络模型用于抽象式摘要生成时,容易存在重复内容和细节不准确的问题。特别是基于 attention 的端到端模型让从源文本中复制一个单词 w(w 即 word,代表一个单词)变得更加困难。而且,更高水平的抽象——例如更加强大的压缩释义,仍然未被解决。
除此之外的问题还有:
网络没有去聚焦源文本的核心内容,反而概括一些不太重要的信息。
网络错误地组合了原文的片段,例如,作出的摘要是 work incorrectly composes fragments of the source text – for example reporting that,而事实上刚好相反。
多句式摘要有时候并没有构成一个有意义的整体,例如,在没有事先介绍的情况下,就用一个代词(例如 she)去代替一个实体 (例如德国总理 Angela Merkel)。
未来发展方向
针对复制单词困难的问题,模型需要让从源文本生成单词变得更加容易;此外模型的性能(计算量,训练速度等)都是值得关注和优化的方向。另一个非常重要的方向是模型的可解释性,注意力机制是这一方向上的巨大突破,但这还远远不够。
Contributor: Yuanyuan Li