@Ttssxuan 推荐
#Recurrent Neural Networks
本文是上海交大发表于 COLING 2018 的工作,论文提出了一种对 RNN 进行加速的方法,相对标准 RNN 其可以加速达到 136 倍,如果针对长序列,可以得到更大的加速比,此外从数学上证明了,RNN 是 SRNN 的一个特例。
SRNN 把 RNN 序列分成每份 K 份,这样每份可以各自运行(并行),得到长度为 N 的新序列,后续可以新序列上继续如上操作,一直到序列长度等于 1 或满足需求。通过在 6 个较大规模的情感分类数据集上测试,相比于 RNN,SRNN 都取得很大的性能优势。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2143
源码链接
https://github.com/zepingyu0512/srnn
@pwathrun 推荐
#Sentence Representations
SentEval 是 Facebook AI Research 推出的一个用于测评 Sentence representation model 性能的 framework。其中自定义了至少 13 个任务(后续有添加),任务数据包括了文本文类,文本相似性检测,NLI,图片摘要的任务。其着眼点是目前 NLP 领域内不同模型的跑分不能很好的进行复现,进而导致横向比较模型性能比较困难的痛点。
任何已训练的模型都已放在 SentEval 框架内,SentEval 会使用目标任务来对提供的模型进行测试,因为测试环境统一,以此获得的评测结果可以和其它的模型的测试分数进行统一的比较,而不是只是比较论文中的纸面数据,有利于复现相关模型的真实性能,而且是相关模型针对不同 NLP 任务的性能。
具体实现是通过自定义和修改 SentEval 的固定命名方法(batcher (),prepare ()等)使得 SentEval 可以将目标任务的文本导入模型,获得向量输出,进而进行相关任务的比较。比如文本分类就是获得向量输出之后训练一个分类器来比较分类的准确率。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2105
源码链接
https://github.com/facebookresearch/SentEval
Learning Chinese Word Representations From Glyphs Of Characters
@mwsht 推荐
#Chinese Word Representations
本文是台湾大学发表于 EMNLP 2017 的工作,论文提出了一种基于中文字符图像的 embedding 方法,将中文字符的图像输入卷积神经网络,转换成为词向量。因为中文是象形文字,这样的词向量能够包含更多的语义信息。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2141
@superhy 推荐
#Residual Network
本文来自华南理工大学,论文在 SE-Net(Squeeze-Excitation)的基础上,根据已有的残差映射作为恒等映射的一种补充建模的论点,提出了残差和恒等流进行竞争建模共同决定 channel-wise attention 输出的改进,使得恒等流能自主参与对自身补充的权重调控。
另外,本文针对网络中间特征的精炼建模任务,提出了对 channel squeezed 特征进行重成像,将各个信道的 global 特征重组为一张新的 feature map,并使用卷积(21,11 两种)操作完成对重组特征图的建模,以此学习来自残差流和恒等流所有 channels 的信道关系信息,将之前的:1. 分别建模 chanel-wise 关系;2. 再合并建模残差映射和恒等映射竞争关系,这样两步融合为建模综合信道关系一步;称这一机制为 CNN内部特征的重成像(Inner-Imaging),探索了一种新的,考虑位置关系的,使用卷积进行 SE(channel-wise attention)建模的 CNNs 设计方向。
本文实验在 CIFAR-10,100,SVHN,ImageNet2012 数据集上进行,验证了提出方法的有效性,并发现提出方法对较小规模网络的潜力挖掘作用,使其能用更少的参数达到甚至超越原先更大网络才能达到的效果。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2161
源码链接
https://github.com/scut-aitcm/CompetitiveSENet
@TwistedW 推荐
#GAN
本文来自 UC Berkeley,GAN 生成的样本在视觉方面已经达到与真实样本很相近的程度了,有的生成样本甚至可以在视觉上欺骗人类的眼睛。区分生成样本和真实样本当然不能简单的从视觉上去分析,TequilaGAN 从图像的像素值和图像规范上区分真假样本,证明了真假样本具有在视觉上几乎不会被注意到的属性差异从而可以将它们区分开。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2116
@born2 推荐
#Image Caption
本文提出了一个 caption 数据库,特点是能够生成故事性的描述句子。相对于传统一般的 caption 任务,这个新提出的任务,生成的句子更具有故事性的特色,而不是单纯无感情的描述。为了解决这个问题,首先需要构建一个数据库,相对于一般的需要人工标记的数据库而言,这里采用无监督的方式,直接使用一些既有的自然语言处理的技术来解决这个问题。
作者提出了一套框架,以此来构建从传统的句子到故事性句子的映射。为了方便训练和解决这个问题,作者提出两段式的训练,从图像到关键词,再从关键词到故事性的句子,避免了标注,方便了训练,值得一读。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2160
源码链接
https://github.com/computationalmedia/semstyle
@mwsht 推荐
#DenseNet
本文是 CMU 和微软发表于 ICLR 2018 的工作,DenseNet 是 ResNet 的改进,本文在 DenseNet 的基础上提出了一种较为接近的但同时更少连接数目的 skip connecting 的方法:选择性地连接更多的前几个层,而不是全部连接。相较于 DenseNet,本文拥有更少的连接数目,较大幅度地减少了计算量,但同时拥有较为接近的 performance。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2103
@jhs 推荐
#Neural Networks
本文来自匹兹堡大学,论文提出了一种功能重播算法,对神经网络训练有更快收敛,更低内存消耗和更好泛化误差。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2114
@paperweekly 推荐
#Question Generation
本文是马里兰大学发表于 ACL 2018 的工作,论文基于完全信息期望值(EVPI,expected value with perfect information)架构构建了一个用于解决澄清问题排序的神经网络模型,并利用问答网站“StackExchange”构建了一个新的三元组(post, question, answer)数据集,用于训练一个能根据提问者所提出的问题来给出澄清问题的模型。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2146
源码链接
https://github.com/raosudha89/ranking_clarification_questions
@PatrickLiu 推荐
#Sequence Labeling
本文主要介绍了神经网络序列标注工具包“NCRF++”。NCRF++ 被设计用来快速实现带有 CRF 推理层的不同神经序列标注模型。用户可以通过配置文件灵活地建立模型。工具包使用 PyTorch 实现。解释该工具包架构的论文已被 ACL 2018 作为 demonstration paper 接受,即本篇论文。 使用 NCRF++ 的详细实验报告和分析已被 COLING 2018 接受,详细论文解读:COLING 2018 最佳论文解读:序列标注经典模型复现
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2138
源码链接
https://github.com/jiesutd/NCRFpp
@jxlxt 推荐
#Object Recognition
本文设计了一个端到端的半监督文本检测和识别模型,通过在 SVNH 和 FSNS 数据集上验证了该模型的 work。文章的模型不需要提供文本检测的 bounding box 只需要提供正确的 label,然后通过预测误差反向传播修正文本检测结果。
端到端的模型 loss 设计困难,通常识别只专注于文本检测或文本识别,但本文使用了 STN 来进行文本检测结合 ResNet 进行识别。先通过 STN 检测文本位置,输出特定区域的文本图片后再通过 CNN 识别文本。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2113
源码链接
https://github.com/Bartzi/see
@jamiechoi 推荐
#Image Synthesis
本文是密歇根大学和 Google Brain 发表于 CVPR 2018 的工作,论文首先从文字用一个 box generator 预测出物体类别所在的 bounding box 的位置,然后用 shape generator 在 box 的基础上生成更细腻的 mask,最后把 mask 和文字信息输送到 image generator 进行图片的生成。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2112
@xuzhou 推荐
#Network Representation Learning
本文是由 Adobe Research、Google 和 Intel Labs 发表于 WWW ’18 上的工作,论文提出了通用的归纳图表示学习框架 DeepGL,DeepGL 具有多种优势,对今后的研究具有一定的参考意义。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2151
@paperweekly 推荐
#Attention Mechanism
本文是南洋理工大学发表于 KDD 2018 的工作,论文在问答和对话建模方向为各种检索和匹配任务提出了一个通用神经排序模型。该模型在神经网络模型的基础上引入了 attention 机制,不再仅仅将 attention 作为 pooling 操作,而是将其作为一种特征增强方法。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2159
@xuehansheng 推荐
#Bioinformatics
本文来自斯坦福大学,论文将 Graph Convolution Neural Network 应用于药物副作用研究中。本文提出了一种通用的多关联链路预测方法——Decagon,该方法可以应用于任何多模态网络中,能够处理大量边缘类型的多模态网络。
▲ 论文模型:点击查看大图
论文链接
https://www.paperweekly.site/papers/2127
源码链接
https://github.com/Bartzi/see