@guohao916 推荐
#Machine Reading Comprehension
本文提出了一个基于上下文的机器阅读理解数据集 QuAC,该数据集存在两类人群:Student 和 Teacher。Student 依次提出一系列自由式的问题,而 Teacher 进行回答,该回答是基于文章内部的片段产生的。不同于以往的机器阅读理解数据集,该数据集存在以下特点:
1. 问题是开放式的,也就是说问题的答案不一定存在于文章的片段中。因此 Student 在提问前不知道是否能够被回答;
2. Teacher 的回答必需基于文章内部的片段,不存在自由片段(游离于文章内容的片段);
3. 对话终止的条件包括:从开始对话到现在,(a). 已经有 12 个问题被回答了;(b). Student 和 Teacher 中的某一位主动提出结束对话;(c). 有两个问题不能够被回答。
论文采用了 Pretrained InferSent,Feature-rich logistic regression,BiDAF++ 以及 BiDAF++ w/ x-ctx 作为基准算法,选用 HEQQ,HEQD 和 F1 等作为效果度量指标,进行了一系列实验。实验结果表明,目前的基准算法得到的最好结果,相较于人工判断的效果还存在很大提升空间。




▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2255
数据集链接
http://quac.ai/
@wangshy 推荐
#Text Classification
本文是清华大学发表于 IJCAI 2018 的工作。针对文本分类任务中卷积神经网络通常无法灵活学习可变 n 元特征(n-gram)的问题,论文提出了一种具有适应式注意力机制的密集连接的卷积神经网络。该模型通过建立底层特征和高层特征之间的跨层连接,从而获得了丰富的多尺度特征,而注意力模型能够自适应地选择合适尺度的特征以适用于各种不同的文本分类问题。该法面向六个公开数据集均实现了超过基线的预测精度。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2240
源码链接
https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention
On the Decision Boundary of Deep Neural Networks
@lykaust15 推荐
#Deep Neural Networks
近年来,深度学习在各个领域以及工业界都取得了令人瞩目的成功。但是人们一直无法解释为什么深度学习在分类上的 performance 会比传统的方法要好那么多。尤其是,人们无法解释为什么模型复杂度那么高的神经网络没有灾难性的 overfitting 问题(确实存在 overfitting 问题,但是没有严重到过于影响到模型的performance)。
这是一个非常值得研究的问题。它能够帮助我们更进一步理解深度学习从而进一步提升深度学习的 performance。同时,它也有可能帮助我们解决一些实际的问题,比如 adversarial attacking,catastrophic forgetting。
在前人的工作基础上,本文从理论和实验上证明了深度学习和 SVM 的内在联系。如果训练数据的 cross entropy loss 趋向于 0,那么使用 SGD 训练深度学习会使神经网络的最后一层的参数的方向趋向于 SVM solution 的方向。
也就是说,如果将深度神经网络划分成两个部分,最后一层和除了最后一层的所有层。我们可以将除了最后一层的所有层当做一个 mapping function,这个 mapping function 将原始的输入映射到一个 hidden representation 上。而网络的最后一层实际上是一个 linear classifier。如果使用 hidden representation 和原始的 label 训练一个 SVM,我们会发现 SGD 会使神经网络的最后一层的参数的方向 converge 到这个 SVM solution 的方向上。
本文还用大量的实验证明神经网络最后一层 classifier 的 bias 也非常接近 SVM 的 bias。本文显示 margin theory 有可能解释深度学习的 generalization property。
和前人的工作不同,本文没有对神经网络进行任何的简化,研究的模型就是平时常用的模型,比如 resnet,densenet。本文的结论非常具有实用性。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2252
源码链接
https://github.com/lykaust15/NN_decision_boundary
@daven88 推荐
#Recommender System
本文提出了一种基于 self-attention 的基于序列的推荐算法,该算法是用 self-attention 从用户的交互记录中自己的去学习用的近期的兴趣,同时该模型也保留了用户的长久的兴趣。整个网络是在 metric learning 的框架下,是第一次将 self-attention 和 metric learning的结合的尝试。
实验结果表明,通过 self-attention,模型可以很好的学习用户的短期兴趣爱好, 并且能有效的提升模型效果。通过和近期的文章得对比发现,该方法可以在很大程度上改善序列化推荐的效果。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2246
@yangdali 推荐
#Abstractive Summarization
本文是腾讯发表于 IJCAI 2018 的工作,文章提出了一种基于卷积神经网络的总结式文本摘要生成方法,并结合主题模型的注意力机制,利用强化学习方法进行优化,在 DUC、Gigaword 和 LCSTS 数据集上达到 state of the art。




▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2234
@lunar 推荐
#Sentence Embeding
本文给出了一个新颖的看法,即一些垃圾数据对训练也可以是有用的。作者人为制造出很多假数据(通过随机从文本中丢失一些词和打乱一些词的顺序),训练出一个二分类网络用于判别真假文本,这种方式训练出的模型在很多任务上有更好的表现。有点像 CV 界数据增强的逆向玩法。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2229
@chlr1995 推荐
#Bayesian Deep Learning
本文从数学角度尝试解释 Dropout 的作用,深入探究 dropout 的本质。论文提出了一种从权重层面引入噪声的方法。实验结果显示,这种方法不仅可以提高网络的最终收敛结果,也可以加速收敛。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2212
源码链接
https://github.com/noahfl/densenet-sdr
@lunar 推荐
#Genetic Algorithms
本文是 Google Brain 发表于 ICML 2018 的工作,作者希望能够找到一种能够替代反向传播的方法。因此,他们设计了一种 domain-specific language (DSL) 来函数式描述数学公式(例如反向传播),然后利用演化算法来发现新的传播算法,旨在找到泛化性能比 BP 更好的算法。最终通过实验,他们找到的算法能够在训练前期收敛得更快,但是收敛时并没有表现得更好。
BP 算法虽然取得了很大的成就,但是近年学界前沿也指出它的一些局限性,本文给这方面的研究探出了一小步。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2211
@Qfengly 推荐
#Dialog System
本文是百度发表于 ACL 2018 的工作,论文将 attention 应用于多轮对话,打破之前的 RNN 和 CNN 结构,在多轮上速度快,达到了目前最好效果。其次,本文使用 self-attention 和 cross-attention 来提取 response 和 context 的特征。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2250
@EricShen 推荐
#Recommender Systems
本文在 ACL 2018 上获得了 Best Paper Honourable Mention Award。现有的句子表示大多都是基于连续的 vector(skip-thought vector 等),而本文考虑用离散的 binary vector 来表示句子(文档),并首次提出用端到端的 Variational Autoencoder 来学习 binary 的句子表示。基于这些 binary 的向量,两个文档的相似度就可以通过他们 representations 之间的 hamming distance(即有多少 bit 不同)来进行判断。
相较于连续的 vector 上的 inner product 操作,这种策略有更快的计算速度(这种方法被称为 semantic hashing)。同时,离散的向量在 storage 上也比连续的向量更加节省空间。
在 information retrieval 的几个 benchmark 数据集上,本文的模型相对于以前的 semantic hashing 方法在搜索准确率上实现了明显的提升。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2225
@pxwluffy 推荐
#Deep Learning
本文从几何的角度理解深度学习,为深度学习提供严密的数学论证。深度学习目前还停留在实验科学的阶段,其严格的数学解释还未完全建立。





▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2216
@aforever 推荐
#Multi-task Learning
本文是阿里发表于 AAAI 2018 的工作,论文利用用户搜索日志进行多任务学习以压缩商品标题,生成的商品短标题在离线自动评测、人工评测以及在线评测中均超过传统抽取式摘要方法。端到端的训练方式避免了传统方法的大量人工预处理以及特征工程。多任务学习中的 Attention 分布一致性设置使得最终生成的商品短标题中能透出原始标题中重要的词,尤其是能引导成交的核心词,对于其他电商场景也有重要意义。




▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2253