哈工大SCIR转载

2018/05/28 15:08

赛尔推荐

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了四篇关于自动文摘、问题生成、文本简化、实体关系抽取的论文。

1、推荐组：CR

推荐人：朱泽圻（研究方向：自动文摘）

论文题目：Distraction-Based Neural Networks for Document Summarization

作者：Qian Chen, Xiaodan Zhu, Zhenhua Ling, Si Wei, Hui Jiang

出处：IJCAI 2016

论文主要相关：自动文摘，注意力分散机制

简评：

注意力（attention）机制因为能够聚焦文档中与生成内容密切相关的部分，提升了生成时的针对性，在各种seq2seq模型中得到了广泛应用。但是在自动文摘任务中，既要能够体现重点内容，又要覆盖足够多的文章信息，而如果注意力机制持续关注某个局部区域，则可能影响文本摘要的性能。因此本文在基于注意力机制的seq2seq模型上增加了注意力分散机制（distraction）。注意力分散分为两个方面：1）在训练时，生成最后的内容向量（content vector）时通过引入历史内容向量（history content vector）的惩罚机制，生成更多样的内容向量，同时也在注意力权值上引入历史注意力权值惩罚，直接影响内容向量的生成；2）在解码阶段，通过在评分过程中引入KL散度等，对于多样性较高的候选项给予较高的分数，鼓励多样性。这一思路让我联想到了抽取式摘要生成中的最大边缘相关（Maximal Marginal Relevance）方法，在抽取文摘组成句时既重视重要性又重视多样性。

论文链接：

https://arxiv.org/abs/1610.08462

2、推荐组：LA

推荐人：陈三元（研究方向：人机对话）

论文题目：Learning to Ask Questions in Open-domain Conversational Systems with Typed Decoders

作者：Yansen Wang, Chenyi Liu, Minlie Huang, Liqiang Nie

出处：ACL 2018

论文主要相关：问题生成，对话系统

简评：

在大规模开放领域的对话系统中提出好的问题是一项非常重要的任务，但在此前还没有被触及。这一任务与传统问题生成任务很大的不同之处在于它不仅要求以多种形式提出问题，而且还要能够处理多样化的主题。作者通过观察发现一个好的问题是一些疑问词，主题词和普通词的自然组合体。其中，疑问词的多样性产生疑问句式的多样性，主题词处理对话中话题转换的关键信息，普通词使得生成的自然语句有正确的句法和语法。该文章设计了两种typed decoders：soft typed decoder，hard typed decoder。通过估计上述三种词类型的概率分布来调整最终的生成词的概率分布。实验结果显示typed decoders的性能优于state-of-the-art基线系统，并且可以有效地生成更多有意义的问题。

论文链接：

https://arxiv.org/pdf/1805.04871.pdf

数据链接：

http://coai.cs.tsinghua.edu.cn/hml/dataset/

源代码链接：

https://github.com/victorywys/Learning2Ask_TypedDecoder

3、推荐组：QA

推荐人：李威宇（研究方向：问答系统）

论文题目：Simple and Effective Text Simplification Using Semantic and Neural Methods

作者：Elior Sulem, Omri Abend, Ari Rappoport

出处：ACL 2018

论文主要相关：文本简化，复句分解

简评：

句子分解作为一个主要的文本简化操作，本文提出了一种基于自动语义解析器的简单高效的分解算法。本文采用Universal Cognitive Conceptual Annotation（UCCA）进行语义表示的标注，将文本表示为场景，再基于两条规则，分别应用于拆分并列的场景和详细阐述的情况（英语中的从句）。在拆分之后，文本可以进一步进行更精细的简化操作。神经机器翻译（NMT）可以有效地应用在该场景下。以往的工作中，神经机器翻译应用于文本简化方面的劣势在于它太过保守，无法对原文进行随意的修改。而基于语义解析的分解可以缓解这个问题。本文采用了人工评价与机器评价来验证所提出的方法，并且结果表明该方法优于现有的词汇和结构简化系统。除此之外，本文的句子分解采用了语义解析器的方法，避免了对专门语料的依赖。这种先分解再使用神经翻译网络微调的方式，更好地利用了神经网络，避免了其在难以改变语法结构方面的劣势。

论文链接：

http://www.cs.huji.ac.il/~eliors/papers/simplification_ucca.pdf

4、推荐组：RC

推荐人：姜天文（研究方向：信息抽取）

论文题目：Weakly-supervised Relation Extraction by Pattern-Enhanced Embedding Learning

作者：Meng Qu, Xiang Ren, Yu Zhang, Jiawei Han

出处：WWW 2018

论文主要相关：实体关系抽取

简评：

弱监督关系抽取指的是对于给定的特定领域利用少量的关系实例从无标注的文本中抽取大量满足该关系的实体对。相比于基于监督的关系抽取，其应用范围更广，更容易应用于实际任务。以往的关系抽取可以总结为两类：1）基于模版的关系抽取：由于关系表达方式的多样性，此类方法往往需要大量的关系实例进行学习，以获得可靠的模型，但仍然无法对未登录的表达方式进行匹配，而且会带来语义漂移问题；2）分布式方法：即对实体进行表示学习，并通过诸如神经网络等模型的学习训练，以获得关系分类器，但此类方法一般都需要大量的标注数据。本文提出一种弱监督的关系抽取框架，将以上两类方法结合在一起，优势互补并进行联合训练。其中基于模版的方法作为生成器，利用模版抽取候选关系实例，分布式方法作为判别器用来评估候选关系实例。本文提出的方法在知识库补全和篇章级关系抽取这两个任务上取得了显著的效果。

论文链接：

https://dl.acm.org/ft_gateway.cfm?id=3186024&ftid=1958653

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门

相关数据

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

知识库技术

知识库是用于知识管理的一种特殊的数据库，以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家，它是求解问题所需领域知识的集合，包括基本事实、规则和其它有关信息。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科