https://zhuanlan.zhihu.com/p/139069973
1.REFORMER:THE EFFICIENT TRANSFORMER[1]
论文小结:作者提出了一种新的转换器模型,对体系架构进行了两项重大改进:1)使用可逆层以防止需要存储所有层的激活来进行反向传播;2)使用局部敏感哈希来估算耗时间的softmax计算。该Reformer的性能与SOTA Transformer模型相当,但内存效率更高,长序列的速度更快。
代码地址:google/trax
2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations[2]
论文小结:ALBERT是BERT的扩展,它试图回答一个问题,即较大的模型是否可以解决NLP任务?Albert通过跨层参数共享获得SOTA结果。通过共享参数,ALBERT可以变小并具有相似的性能。采用更多参数,ALBERT的表现更好,但其训练速度仍比BERT快。当训练时间相同,ALBERT的表现要好于BERT。这些结果表明单纯构建更复杂、更大、更深的模型并不总是提高模型性能的最佳方法。
代码地址:google-research/albert
3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators[3]
论文小结: 预训练语言模型的常见操作是mask输入,并让模型预测被mask的内容。本文介绍了一种称为令牌检测的新的预训练方法。在新方法中,作者从生成器中采样来替代某些令牌,然后训练一个鉴别器来预测生成器是否替换了输入中的每个令牌。论文操作方法的数据效率更高,比以往方法提高了约15%。它表明在如何训练语言模型方面还有更多的创造空间。
代码地址:github.com/google-resea
4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue[4]
论文小结:本文提出了一种用于开放域对话知识选择的新方法,称为序列隐模型,该模型将知识历史表示为某种隐表示。这样做是因为跟踪知识历史记录可减少因会话的知识选择差异而引起的歧义,但也可以帮助更好地使用信息反馈。这项工作表明,改进知识选择可以大大提高响应生成质量。这对构建更强大的对话应用程序产生影响。
代码地址:bckim92/sequential-knowledge-transformer
5.A Probabilistic Formulation of Unsupervised Text Style Transfer[5]
论文小结:作者提出一种无监督文本样式转换的概率模型。该方法大致想法是通过使用来自两个域的非并行数据作为部分观察到的并行语料库。作者提出的模型可以学习将序列从一个域转换为另一域。通过生成并行隐序列,模型能以无监督的方式学习该序列。文章表明在无监督的情感转换、作者模仿和机器翻译等领域取得效果。本文介绍的方法不需要成对的训练数据,这使得数据收集更加容易。
代码地址:github.com/cindyxinyiwa
6.The Curious Case of Neural Text Degeneration[6]
论文小结:论文作者提出了一种新的解码策略,即核心采样、同时截去尾部概率分布,从包含绝大多数概率质量的令牌动态核中采样。与直觉相反的经验观察结果是,即使针对多样语言理解任务,使用似然作为训练目标能提供高模型质量,但作为解码目标,似然会导致文本理解乏味且重复。论文表明即使在最新的语言模型中,文本退化也是一个问题。对于各种NLP任务,解码策略对于类人的文本生成很重要。去掉beam search之类的贪婪算法将有助于执行下游任务。
代码地址:ari-holtzman/degen
7.What Can Neural Networks Reason About[7]
论文小结: 本文介绍了一种称为算法alignment的框架,用于评估神经网络在推理任务上的表现。与已知算法解决方案作align的神经网络能够更好地学习这些解决方案。该框架大致认为,要使模型能够学习并成功地概括推理任务,它需要简单学习(近似)推理任务的步骤。作者提出图神经网络非常适合,因此可以学习解决动态编程问题。这是一篇晦涩的理论论文,解释了人们一直在凭直觉做出的架构选择,并为以后研究并探索新架构来更好地适应机器学习任务奠定基础。
代码地址:github.com/NNReasoning/
参考
- https://arxiv.org/pdf/2001.04451.pdf
- https://arxiv.org/pdf/1909.11942.pdf
- https://arxiv.org/pdf/2003.10555.pdf
- https://arxiv.org/pdf/2002.07510.pdf
- https://arxiv.org/pdf/2002.03912.pdf
- https://arxiv.org/pdf/1904.09751.pdf
- https://arxiv.org/pdf/1905.13211.pdf