该项目的主要动机如下:
维护最新 NLP 研究学习资源,如当前最优结果、新概念和应用、新的基准数据集、代码/数据集发布等。
创建开放性资源,帮助指引研究者和对 NLP 感兴趣的人。
这是一个合作性项目,专家研究人员可以基于他们近期的研究和实验结果提出变更建议。
第一章:简介
自然语言处理(NLP)是指对人类语言进行自动分析和表示的计算技术,这种计算技术由一系列理论驱动。NLP 研究从打孔纸带和批处理的时代就开始发展,那时分析一个句子需要多达 7 分钟的时间。到了现在谷歌等的时代,数百万网页可以在不到一秒钟内处理完成。NLP 使计算机能够执行大量自然语言相关的任务,如句子结构解析、词性标注、机器翻译和对话系统等。
深度学习架构和算法为计算机视觉与传统模式识别领域带来了巨大进展。跟随这一趋势,现在的 NLP 研究越来越多地使用新的深度学习方法(见图 1)。之前数十年,用于解决 NLP 问题的机器学习方法一般都基于浅层模型(如 SVM 和 logistic 回归),这些模型都在非常高维和稀疏的特征(one-hot encoding)上训练得到。而近年来,基于稠密向量表征的神经网络在多种 NLP 任务上得到了不错结果。这一趋势取决了词嵌入和深度学习方法的成功。深度学习使多级自动特征表征学习成为可能。而基于传统机器学习的 NLP 系统严重依赖手动制作的特征,它们及其耗时,且通常并不完备。
图 1:过去 6 年 ACL、EMNLP、EACL、NAACL 会议上深度学习论文的比例(长论文)。
Ronan Collobert 等人 2011 年的研究《Natural Language Processing (Almost) from Scratch》展示了在多个 NLP 任务上优于当时最优方法的简单深度学习框架,比如命名实体识别(NER)、语义角色标注(SRL)和词性标注。之后,研究人员提出了大量基于复杂深度学习的算法,用于解决有难度的 NLP 任务。本文综述了用于自然语言任务的主要深度学习模型和方法,如卷积神经网络、循环神经网络和递归神经网络。本文还讨论了记忆增强策略、注意力机制,以及如何使用无监督模型、强化学习方法和深度生成模型解决语言任务。
本文综述了 NLP 研究中最流行的深度学习方法,结构如下:第二章介绍分布式表征的概念,它们是复杂深度学习模型的基础;第 3、4、5 章讨论了流行的模型(如卷积、循环、递归神经网络)及其在不同 NLP 任务中的应用;第 6 章列举了强化学习在 NLP 中的近期应用,以及无监督句子表征学习的近期发展;第 7 章介绍了深度学习模型结合记忆模块这一近期趋势;第 8 章概述了多种深度学习方法在 NLP 任务标准数据集上的性能。机器之心选取了第 2、3、4、8 章进行重点介绍。