哈工大SCIR转载

2018/06/13 10:55

赛尔推荐 | 第24期

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了三篇关于序列化建模、注意力机制、自然语言推理、文本蕴含识别、事件检测和多语言机制的论文。

1、推荐组：CR

推荐人：刘元兴（研究方向：推荐）

论文题目：Neural Aentive Session-based Recommendation

作者：Jing Li, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Jun Ma

出处：CIKM 2017

论文主要相关：序列化建模、注意力机制

简评：

基于会话过程（session）的推荐指的是，在给定用户当前会话过程中的商品点击序列数据的前提下，预测下一次用户点击。传统基于会话过程的推荐工作仅仅使用了一次会话过程中用户的点击行为序列。作者在这篇论文中引入了注意力机制来获取用户点击的主要目标。具体而言作者使用GRU模型的最后一个隐层状态输出作为全局编码表示，使用GRU每个时刻的隐层状态输出结合注意力权重的结果作为局部编码表示。全局编码表示代表了用户在当前会话过程中点击的全局目标，局部编码表示代表了用户在当前会话过程中点击的主要目标。最后将两个表示拼接，通过双线性解码输出每个商品的排名得分，根据得分输出预测结果。

论文链接：

https://arxiv.org/pdf/1711.04725.pdf

源代码链接：

https://github.com/lijingsdu/sessionRec_NARM

2、推荐组：QA

推荐人：郭茂盛（研究方向：文本蕴含、自然语言推理）

论文题目：Neural Natural Language Inference Models Enhanced with External Knowledge.

作者：Qian Chen, Xiaodan Zhu, Zhen-Hua Ling, Diana Inkpen and Si Wei.

出处：ACL 2018

论文主要相关：自然语言推理、文本蕴含识别

简评：

人类在自然语言文本上进行推理（或识别文本蕴含）需要借助自身积累的背景知识，而近期的基于神经网络的自然语言推理（Natural Language Inference）的方法却只能从训练集中获得相关知识。这篇文章的贡献在于向神经网络模型中融入了WordNet这样的人工构建的知识，并借助这些知识，在SNLI语料上取得了0.6%的提升（Accuracy)。该文在一个现有的识别蕴含的模型ESIM中的各个步骤中尝试添加知识（基于WordNet词对的同义词、反义词以及上下位词），并对外部知识的添加方法与比重进行了测试。这种添加知识的方法对与其他任务也有所启发。

论文链接：

https://arxiv.org/abs/1711.04289

3、推荐组：RC

推荐人：冯夏冲（研究方向：信息抽取）

论文题目：Event Detection via Gated Multilingual Attention Mechanism

作者：Jian Liu,Yubo Chen,Kang Liu,Jun Zhao

出处：AAAI 2018

论文主要相关：事件检测、多语言机制、注意力机制

简评：

这篇论文针对Event Detection任务中数据稀疏和单语歧义的问题，提出一种Gated MultiLingual Attention (GMLATT) 框架，利用多语言信息，并结合注意力机制来完成Event Detection任务。GMLATT方法一共分为四步，第一步为多语言映射，首先使用翻译工具得到源语言到目标语言的翻译，接着使用工具完成多语言对齐；第二步为句子表示，使用Bi-GRU学习句子表示；第三步为多语言信息融合，该部分是GMLATT的核心部分，分别为：使用单语文本注意力机制学习一种语言的表示和使用跨语言门控注意力机制来控制目标语言流向源语言的信息；第四步为事件类型预测。该方法在ACE2005数据集上取得了SOTA结果。论文中使用了一种语言作为目标语言，但是可以将目标语言扩展到多种，并且可以将该方法运用在其他任务之上。

论文链接：

http://www.nlpr.ia.ac.cn/cip/~liukang/liukangPageFile/Liu_aaai2018.pdf

哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

入门序列化建模注意力机制自然语言推理文本蕴含识别多语言机制

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分：命名实体识别（目标是识别和分类真实世界里的知名实体）和关系提取（目标是提取实体之间的语义关系）。概率模型/分类器可以帮助实现这些任务。

来源：机器之心