2018/08/29 13:30

收下这12篇最新论文，炼丹不愁没灵感

QuAC : Question Answering in Context

@guohao916 推荐

#Machine Reading Comprehension

本文提出了一个基于上下文的机器阅读理解数据集 QuAC，该数据集存在两类人群：Student 和 Teacher。Student 依次提出一系列自由式的问题，而 Teacher 进行回答，该回答是基于文章内部的片段产生的。不同于以往的机器阅读理解数据集，该数据集存在以下特点：

1. 问题是开放式的，也就是说问题的答案不一定存在于文章的片段中。因此 Student 在提问前不知道是否能够被回答；

2. Teacher 的回答必需基于文章内部的片段，不存在自由片段（游离于文章内容的片段）；

3. 对话终止的条件包括：从开始对话到现在，(a). 已经有 12 个问题被回答了；(b). Student 和 Teacher 中的某一位主动提出结束对话；(c). 有两个问题不能够被回答。

论文采用了 Pretrained InferSent，Feature-rich logistic regression，BiDAF++ 以及 BiDAF++ w/ x-ctx 作为基准算法，选用 HEQQ，HEQD 和 F1 等作为效果度量指标，进行了一系列实验。实验结果表明，目前的基准算法得到的最好结果，相较于人工判断的效果还存在很大提升空间。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2255

数据集链接

http://quac.ai/

Densely Connected CNN with Multi-scale Feature Attention for Text Classification

@wangshy 推荐

#Text Classification

本文是清华大学发表于 IJCAI 2018 的工作。针对文本分类任务中卷积神经网络通常无法灵活学习可变 n 元特征（n-gram）的问题，论文提出了一种具有适应式注意力机制的密集连接的卷积神经网络。该模型通过建立底层特征和高层特征之间的跨层连接，从而获得了丰富的多尺度特征，而注意力模型能够自适应地选择合适尺度的特征以适用于各种不同的文本分类问题。该法面向六个公开数据集均实现了超过基线的预测精度。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2240

源码链接

https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention

On the Decision Boundary of Deep Neural Networks

@lykaust15 推荐

#Deep Neural Networks

近年来，深度学习在各个领域以及工业界都取得了令人瞩目的成功。但是人们一直无法解释为什么深度学习在分类上的 performance 会比传统的方法要好那么多。尤其是，人们无法解释为什么模型复杂度那么高的神经网络没有灾难性的 overfitting 问题（确实存在 overfitting 问题，但是没有严重到过于影响到模型的performance）。

这是一个非常值得研究的问题。它能够帮助我们更进一步理解深度学习从而进一步提升深度学习的 performance。同时，它也有可能帮助我们解决一些实际的问题，比如 adversarial attacking，catastrophic forgetting。

在前人的工作基础上，本文从理论和实验上证明了深度学习和 SVM 的内在联系。如果训练数据的 cross entropy loss 趋向于 0，那么使用 SGD 训练深度学习会使神经网络的最后一层的参数的方向趋向于 SVM solution 的方向。

也就是说，如果将深度神经网络划分成两个部分，最后一层和除了最后一层的所有层。我们可以将除了最后一层的所有层当做一个 mapping function，这个 mapping function 将原始的输入映射到一个 hidden representation 上。而网络的最后一层实际上是一个 linear classifier。如果使用 hidden representation 和原始的 label 训练一个 SVM，我们会发现 SGD 会使神经网络的最后一层的参数的方向 converge 到这个 SVM solution 的方向上。

本文还用大量的实验证明神经网络最后一层 classifier 的 bias 也非常接近 SVM 的 bias。本文显示 margin theory 有可能解释深度学习的 generalization property。

和前人的工作不同，本文没有对神经网络进行任何的简化，研究的模型就是平时常用的模型，比如 resnet，densenet。本文的结论非常具有实用性。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2252

源码链接

https://github.com/lykaust15/NN_decision_boundary

Next Item Recommendation with Self-Attention

@daven88 推荐

#Recommender System

本文提出了一种基于 self-attention 的基于序列的推荐算法，该算法是用 self-attention 从用户的交互记录中自己的去学习用的近期的兴趣，同时该模型也保留了用户的长久的兴趣。整个网络是在 metric learning 的框架下，是第一次将 self-attention 和 metric learning的结合的尝试。

实验结果表明，通过 self-attention，模型可以很好的学习用户的短期兴趣爱好，并且能有效的提升模型效果。通过和近期的文章得对比发现，该方法可以在很大程度上改善序列化推荐的效果。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2246

A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization

@yangdali 推荐

#Abstractive Summarization

本文是腾讯发表于 IJCAI 2018 的工作，文章提出了一种基于卷积神经网络的总结式文本摘要生成方法，并结合主题模型的注意力机制，利用强化学习方法进行优化，在 DUC、Gigaword 和 LCSTS 数据集上达到 state of the art。 undefined

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2234

Fake Sentence Detection as a Training Task for Sentence Encoding

@lunar 推荐

#Sentence Embeding

本文给出了一个新颖的看法，即一些垃圾数据对训练也可以是有用的。作者人为制造出很多假数据（通过随机从文本中丢失一些词和打乱一些词的顺序），训练出一个二分类网络用于判别真假文本，这种方式训练出的模型在很多任务上有更好的表现。有点像 CV 界数据增强的逆向玩法。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2229

Dropout is a special case of the stochastic delta rule: faster and more accurate deep learning

@chlr1995 推荐

#Bayesian Deep Learning

本文从数学角度尝试解释 Dropout 的作用，深入探究 dropout 的本质。论文提出了一种从权重层面引入噪声的方法。实验结果显示，这种方法不仅可以提高网络的最终收敛结果，也可以加速收敛。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2212

源码链接

https://github.com/noahfl/densenet-sdr

Backprop Evolution

@lunar 推荐

#Genetic Algorithms

本文是 Google Brain 发表于 ICML 2018 的工作，作者希望能够找到一种能够替代反向传播的方法。因此，他们设计了一种 domain-specific language (DSL) 来函数式描述数学公式（例如反向传播），然后利用演化算法来发现新的传播算法，旨在找到泛化性能比 BP 更好的算法。最终通过实验，他们找到的算法能够在训练前期收敛得更快，但是收敛时并没有表现得更好。

BP 算法虽然取得了很大的成就，但是近年学界前沿也指出它的一些局限性，本文给这方面的研究探出了一小步。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2211

Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network

@Qfengly 推荐

#Dialog System

本文是百度发表于 ACL 2018 的工作，论文将 attention 应用于多轮对话，打破之前的 RNN 和 CNN 结构，在多轮上速度快，达到了目前最好效果。其次，本文使用 self-attention 和 cross-attention 来提取 response 和 context 的特征。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2250

NASH: Toward End-to-End Neural Architecture for Generative Semantic Hashing

@EricShen 推荐

#Recommender Systems

本文在 ACL 2018 上获得了 Best Paper Honourable Mention Award。现有的句子表示大多都是基于连续的 vector（skip-thought vector 等），而本文考虑用离散的 binary vector 来表示句子（文档），并首次提出用端到端的 Variational Autoencoder 来学习 binary 的句子表示。基于这些 binary 的向量，两个文档的相似度就可以通过他们 representations 之间的 hamming distance（即有多少 bit 不同）来进行判断。

相较于连续的 vector 上的 inner product 操作，这种策略有更快的计算速度（这种方法被称为 semantic hashing）。同时，离散的向量在 storage 上也比连续的向量更加节省空间。

在 information retrieval 的几个 benchmark 数据集上，本文的模型相对于以前的 semantic hashing 方法在搜索准确率上实现了明显的提升。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2225

Geometric Understanding of Deep Learning

@pxwluffy 推荐

#Deep Learning

本文从几何的角度理解深度学习，为深度学习提供严密的数学论证。深度学习目前还停留在实验科学的阶段，其严格的数学解释还未完全建立。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2216

A Multi-task Learning Approach for Improving Product Title Compression with User Search Log Data

@aforever 推荐

#Multi-task Learning

本文是阿里发表于 AAAI 2018 的工作，论文利用用户搜索日志进行多任务学习以压缩商品标题，生成的商品短标题在离线自动评测、人工评测以及在线评测中均超过传统抽取式摘要方法。端到端的训练方式避免了传统方法的大量人工预处理以及特征工程。多任务学习中的 Attention 分布一致性设置使得最终生成的商品短标题中能透出原始标题中重要的词，尤其是能引导成交的核心词，对于其他电商场景也有重要意义。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2253

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论论文

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。自动编码器的目的是学习一组数据的表示（编码），通常用于降维。最近，自动编码器已经越来越广泛地用于生成模型的训练。

来源：Wikipedia

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分，在机器学习领域，分类问题通常被认为属于监督式学习(supervised learning)，也就是说，分类问题的目标是根据已知样本的某些特征，判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

来源：Wikipedia

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

多任务学习技术

主题模型技术

主题模型（Topic Model）在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲，如果一篇文章有一个中心思想，那么一些特定词语会更频繁的出现。比方说，如果一篇文章是在讲狗的，那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的，那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是，一篇文章通常包含多种主题，而且每个主题所占比例各不相同。因此，如果一篇文章10%和猫有关，90%和狗有关，那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科