2018/07/27 09:05

本周份AI论文推荐新鲜出炉！真的很skr了~

Sliced Recurrent Neural Networks

@Ttssxuan 推荐

#Recurrent Neural Networks

本文是上海交大发表于 COLING 2018 的工作，论文提出了一种对 RNN 进行加速的方法，相对标准 RNN 其可以加速达到 136 倍，如果针对长序列，可以得到更大的加速比，此外从数学上证明了，RNN 是 SRNN 的一个特例。

SRNN 把 RNN 序列分成每份 K 份，这样每份可以各自运行（并行），得到长度为 N 的新序列，后续可以新序列上继续如上操作，一直到序列长度等于 1 或满足需求。通过在 6 个较大规模的情感分类数据集上测试，相比于 RNN，SRNN 都取得很大的性能优势。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2143

源码链接

https://github.com/zepingyu0512/srnn

SentEval: An Evaluation Toolkit for Universal Sentence Representations

@pwathrun 推荐

#Sentence Representations

SentEval 是 Facebook AI Research 推出的一个用于测评 Sentence representation model 性能的 framework。其中自定义了至少 13 个任务（后续有添加），任务数据包括了文本文类，文本相似性检测，NLI，图片摘要的任务。其着眼点是目前 NLP 领域内不同模型的跑分不能很好的进行复现，进而导致横向比较模型性能比较困难的痛点。

任何已训练的模型都已放在 SentEval 框架内，SentEval 会使用目标任务来对提供的模型进行测试，因为测试环境统一，以此获得的评测结果可以和其它的模型的测试分数进行统一的比较，而不是只是比较论文中的纸面数据，有利于复现相关模型的真实性能，而且是相关模型针对不同 NLP 任务的性能。

具体实现是通过自定义和修改 SentEval 的固定命名方法（batcher ()，prepare ()等）使得 SentEval 可以将目标任务的文本导入模型，获得向量输出，进而进行相关任务的比较。比如文本分类就是获得向量输出之后训练一个分类器来比较分类的准确率。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2105

源码链接

https://github.com/facebookresearch/SentEval

Learning Chinese Word Representations From Glyphs Of Characters

@mwsht 推荐

#Chinese Word Representations

本文是台湾大学发表于 EMNLP 2017 的工作，论文提出了一种基于中文字符图像的 embedding 方法，将中文字符的图像输入卷积神经网络，转换成为词向量。因为中文是象形文字，这样的词向量能够包含更多的语义信息。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2141

Competitive Inner-Imaging Squeeze and Excitation for Residual Network

@superhy 推荐

#Residual Network

本文来自华南理工大学，论文在 SE-Net（Squeeze-Excitation）的基础上，根据已有的残差映射作为恒等映射的一种补充建模的论点，提出了残差和恒等流进行竞争建模共同决定 channel-wise attention 输出的改进，使得恒等流能自主参与对自身补充的权重调控。

另外，本文针对网络中间特征的精炼建模任务，提出了对 channel squeezed 特征进行重成像，将各个信道的 global 特征重组为一张新的 feature map，并使用卷积（21，11 两种）操作完成对重组特征图的建模，以此学习来自残差流和恒等流所有 channels 的信道关系信息，将之前的：1. 分别建模 chanel-wise 关系；2. 再合并建模残差映射和恒等映射竞争关系，这样两步融合为建模综合信道关系一步；称这一机制为 CNN内部特征的重成像（Inner-Imaging），探索了一种新的，考虑位置关系的，使用卷积进行 SE（channel-wise attention）建模的 CNNs 设计方向。

本文实验在 CIFAR-10，100，SVHN，ImageNet2012 数据集上进行，验证了提出方法的有效性，并发现提出方法对较小规模网络的潜力挖掘作用，使其能用更少的参数达到甚至超越原先更大网络才能达到的效果。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2161

源码链接

https://github.com/scut-aitcm/CompetitiveSENet

TequilaGAN: How to easily identify GAN samples

@TwistedW 推荐

#GAN

本文来自 UC Berkeley，GAN 生成的样本在视觉方面已经达到与真实样本很相近的程度了，有的生成样本甚至可以在视觉上欺骗人类的眼睛。区分生成样本和真实样本当然不能简单的从视觉上去分析，TequilaGAN 从图像的像素值和图像规范上区分真假样本，证明了真假样本具有在视觉上几乎不会被注意到的属性差异从而可以将它们区分开。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2116

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

@born2 推荐

#Image Caption

本文提出了一个 caption 数据库，特点是能够生成故事性的描述句子。相对于传统一般的 caption 任务，这个新提出的任务，生成的句子更具有故事性的特色，而不是单纯无感情的描述。为了解决这个问题，首先需要构建一个数据库，相对于一般的需要人工标记的数据库而言，这里采用无监督的方式，直接使用一些既有的自然语言处理的技术来解决这个问题。

作者提出了一套框架，以此来构建从传统的句子到故事性句子的映射。为了方便训练和解决这个问题，作者提出两段式的训练，从图像到关键词，再从关键词到故事性的句子，避免了标注，方便了训练，值得一读。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2160

源码链接

https://github.com/computationalmedia/semstyle

Log-DenseNet: How to Sparsify a DenseNet

@mwsht 推荐

#DenseNet

本文是 CMU 和微软发表于 ICLR 2018 的工作，DenseNet 是 ResNet 的改进，本文在 DenseNet 的基础上提出了一种较为接近的但同时更少连接数目的 skip connecting 的方法：选择性地连接更多的前几个层，而不是全部连接。相较于 DenseNet，本文拥有更少的连接数目，较大幅度地减少了计算量，但同时拥有较为接近的 performance。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2103

Training Neural Networks Using Features Replay

@jhs 推荐

#Neural Networks

本文来自匹兹堡大学，论文提出了一种功能重播算法，对神经网络训练有更快收敛，更低内存消耗和更好泛化误差。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2114

Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

@paperweekly 推荐

#Question Generation

本文是马里兰大学发表于 ACL 2018 的工作，论文基于完全信息期望值（EVPI，expected value with perfect information）架构构建了一个用于解决澄清问题排序的神经网络模型，并利用问答网站“StackExchange”构建了一个新的三元组（post, question, answer）数据集，用于训练一个能根据提问者所提出的问题来给出澄清问题的模型。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2146

源码链接

https://github.com/raosudha89/ranking_clarification_questions

NCRF++: An Open-source Neural Sequence Labeling Toolkit

@PatrickLiu 推荐

#Sequence Labeling

本文主要介绍了神经网络序列标注工具包“NCRF++”。NCRF++ 被设计用来快速实现带有 CRF 推理层的不同神经序列标注模型。用户可以通过配置文件灵活地建立模型。工具包使用 PyTorch 实现。解释该工具包架构的论文已被 ACL 2018 作为 demonstration paper 接受，即本篇论文。 使用 NCRF++ 的详细实验报告和分析已被 COLING 2018 接受，详细论文解读：COLING 2018 最佳论文解读：序列标注经典模型复现

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2138

源码链接

https://github.com/jiesutd/NCRFpp

SEE: Towards Semi-Supervised End-to-End Scene Text Recognition

@jxlxt 推荐

#Object Recognition

本文设计了一个端到端的半监督文本检测和识别模型，通过在 SVNH 和 FSNS 数据集上验证了该模型的 work。文章的模型不需要提供文本检测的 bounding box 只需要提供正确的 label，然后通过预测误差反向传播修正文本检测结果。

端到端的模型 loss 设计困难，通常识别只专注于文本检测或文本识别，但本文使用了 STN 来进行文本检测结合 ResNet 进行识别。先通过 STN 检测文本位置，输出特定区域的文本图片后再通过 CNN 识别文本。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2113

源码链接

https://github.com/Bartzi/see

Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

@jamiechoi 推荐

#Image Synthesis

本文是密歇根大学和 Google Brain 发表于 CVPR 2018 的工作，论文首先从文字用一个 box generator 预测出物体类别所在的 bounding box 的位置，然后用 shape generator 在 box 的基础上生成更细腻的 mask，最后把 mask 和文字信息输送到 image generator 进行图片的生成。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2112

Deep Inductive Network Representation Learning

@xuzhou 推荐

#Network Representation Learning

本文是由 Adobe Research、Google 和 Intel Labs 发表于 WWW ’18 上的工作，论文提出了通用的归纳图表示学习框架 DeepGL，DeepGL 具有多种优势，对今后的研究具有一定的参考意义。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2151

Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

@paperweekly 推荐

#Attention Mechanism

本文是南洋理工大学发表于 KDD 2018 的工作，论文在问答和对话建模方向为各种检索和匹配任务提出了一个通用神经排序模型。该模型在神经网络模型的基础上引入了 attention 机制，不再仅仅将 attention 作为 pooling 操作，而是将其作为一种特征增强方法。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2159

Modeling Polypharmacy Side Effects with Graph Convolutional Networks

@xuehansheng 推荐

#Bioinformatics

本文来自斯坦福大学，论文将 Graph Convolution Neural Network 应用于药物副作用研究中。本文提出了一种通用的多关联链路预测方法——Decagon，该方法可以应用于任何多模态网络中，能够处理大量边缘类型的多模态网络。

▲ 论文模型：点击查看大图

论文链接

https://www.paperweekly.site/papers/2127

源码链接

https://github.com/Bartzi/see

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门AI论文

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

分类数据技术

一种特征，拥有一组离散的可能值。以某个名为 house style 的分类特征为例，该特征拥有一组离散的可能值（共三个），即 Tudor, ranch, colonial。通过将 house style 表示成分类数据，相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。有时，离散集中的值是互斥的，只能将其中一个值应用于指定样本。例如，car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下，则可以应用多个值。一辆车可能会被喷涂多种不同的颜色，因此，car color 分类特征可能会允许单个样本具有多个值（例如 red 和 white）。

来源：Google ML glossary

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看，其与目前主流资讯检索技术有两点不同：首先是查询方式为完整而口语化的问句，再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例，使用者不需要思考该使用什么样的问法才能够得到理想的答案，只需要用口语化的方式直接提问如“请问谁是美国总统？”即可。而系统在了解使用者问句后，会非常清楚地回答“奥巴马是美国总统”。面对这种系统，使用者不需要费心去一一检视搜索引擎回传的网页，对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看，问答系统使用了大量有别于传统资讯检索系统自然语言处理技术，如自然语言剖析（Natural Language Parsing）、问题分类（Question Classification）、专名辨识（Named Entity Recognition）等等。少数系统甚至会使用复杂的逻辑推理机制，来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上，除了传统资讯检索会使用到的资料外（如字典），问答系统还会使用本体论等语义资料，或者利用网页来增加资料的丰富性。

来源：维基百科