近日,AI 技术大牛李航博士(已加入今日头条)在《国家科学评论》(National Science Review,NSR)上发表了一篇题为《Deep Learning for Natural Language Processing: Advantages and Challenges》的论文,扼要地探讨了深度学习 NLP 的当前现状与未来机遇。作者认为深度学习可通过与强化学习、推断等技术的结合,进一步扩展 NLP 的边界。
论文链接:https://academic.oup.com/nsr/article/doi/10.1093/nsr/nwx110/4107792/Deep-Learning-for-Natural-Language-Processing
1. 介绍
深度学习是指学习和利用「深度」人工神经网络比如深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)的机器学习技术。目前深度学习已成功应用于自然语言处理(NLP)并取得了重大进展。本论文对深度学习在 NLP 方面的最新进展做了总结,并进一步探讨了其优势与挑战。
我们认为 NLP 有五个主要任务:分类、匹配、翻译、结构化预测、与序贯决策过程。对于前四个任务,深度学习方法的表现优于或显著优于传统方法。
端到端训练与表征学习是深度学习的核心特征,这使其成为 NLP 的强大工具。但深度学习并非万能,它在对解决多轮对话等复杂任务异常关键的推断和决策上表现欠佳。此外,如何结合符号处理与神经处理、如何应对长尾现象等问题依然是深度学习 NLP 面临的挑战。
2. NLP 的进展
如上所述,我们认为 NLP 主要有五个任务:分类、匹配、翻译、结构化预测、与序贯决策过程。自然语言处理中的绝大多数问题皆可归入其中的一个,如表 1 所示。在这些任务中,单词、词组、语句、段落甚至文档通常被看作标记(字符串)序列而采取相似的处理,尽管它们的复杂度并不相同。事实上,语句是 NLP 中最常用的处理单元。
最近发现,深度学习有助于解决前四个任务,并成为解决这些问题的当前最佳技术(比如 [1-8])。
表 1:NLP 的五个主要任务
表 2:不同方法在 NLP 问题上的表现对比
表 2 表明在示例问题上深度学习的表现已超越传统方法。在所有的 NLP 问题中,机器翻译的进展尤其引人注目。神经机器翻译(使用深度学习的机器翻译)的表现显著优于传统的统计机器翻译。当前最佳的神经翻译系统采用了包含 RNN [4-6] 的序列到序列学习模型。
此外,深度学习首次使某些应用变成可能。比如,深度学习成功应用于图像检索(又叫 text to image),首先使用 CNN 把查询和图像转换成与 DNN 匹配的向量表征,然后计算查询和图像的相关性 [3]。深度学习还可用于基于生成的自然语言对话,该任务中给出一句话,系统可以自动生成回答,该模型使用序列到序列学习进行训练 [7]。
第五项任务中,序贯决策过程,如马尔科夫决策过程,是多轮对话的关键问题。但是,深度学习对该任务有何贡献尚未得到完全验证。
3. 优势和挑战
深度学习应用于自然语言处理时具备很多优势,也面临许多挑战,如表 3 所示。
表 3. 深度学习 NLP 的优势和挑战
3-1. 优势
我们认为端到端训练和表征学习真正使深度学习区别于传统的机器学习方法,使之成为自然语言处理的强大工具。
深度学习中通常可以执行端到端的训练。原因在于模型(深度神经网络)能够提供充足的可表征性,数据中的信息能够在模型中得到高效「编码」。比如,在神经机器翻译中,模型完全利用平行语料库自动构建而成,且通常不需要人工干预。与传统的统计机器翻译(特征工程是其关键)相比,这是一个明显的优势。
使用深度学习,数据可以有不同形式的表征,比如,文本和图像都可以作为真值向量被学习。这使之能够多模态执行信息处理。比如,在图像检索任务中,将查询(文本)与图像匹配并找到最相关的图像变得可行,因为所有这些都可以用向量来表征。
3-2. 挑战
深度学习还面临着更普遍的挑战,比如,缺乏理论基础和模型可解释性、需要大量数据和强大的计算资源。而 NLP 需要面对一些独特的挑战,即长尾挑战、无法直接处理符号以及有效进行推断和决策。
自然语言数据通常遵循幂律分布(power law distribution)。因此,词汇量随着数据规模的增加而增加。这意味着不管有多少训练数据,通常都会存在训练数据无法覆盖的情况。如何处理长尾问题对深度学习来说是一个巨大挑战。仅仅凭借深度学习解决该问题比较困难。
语言数据是自然符号数据,和深度学习通常使用的向量数据(真值向量)不同。目前的方法是,先将语言中的符号数据转换成向量数据,然后输入神经网络中,再把神经网络的输出转换成符号数据。事实上,自然语言处理的大量知识都是符号的形式,包括语言学知识(如语法)、词汇知识(如 WordNet)和世界知识(如 Wikipedia)。目前,深度学习方法尚未有效利用这些知识。符号表征易于解释和操作,而向量表征对歧义和噪声具有一定的鲁棒性。如何把符号数据和向量数据结合起来、如何利用二者的力量仍然是 NLP 领域一个有待解决的问题。
自然语言处理领域有很多复杂任务,这些任务可能无法仅使用深度学习来轻松完成。例如,多轮对话是一个非常复杂的过程,涉及语言理解、语言生成、对话管理、知识库访问和推断。对话管理可以正式作为序贯决策过程,其中强化学习发挥关键作用。很明显,把深度学习和强化学习结合起来可能有利于完成任务。
总之,深度学习 NLP 仍然面临许多待解决的挑战。深度学习与其他技术(强化学习、推断、知识)结合起来将会进一步扩展 NLP 的边界。
参考文献
1. P Blunsom, E Grefenstette and N Kalchbrenner. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore USA, 655-65, 2014.
2. B Hu, Z Lu and H Li et al. Advances in Neural Information Processing Systems 27, Montreal Canada, 2042-50, 2014.
3. L Ma, Z Lu and L Shang et al., Proceedings of International Conference on Computer Vision, Santiago, Chile, 2623-31, 2015.
4. K Cho, B Van Merriënboer and C Gulcehre et al. Proceedings of Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 1724-34, 2014.
5. D Bahdanau, K Cho and Y Bengio. Proceedings of the 3rd International Conference on Learning Representations, San Diago USA, 2015.
6. Y Wu, M Schuster and Z Chen et al. CoRR, vol. abs/1609.08144, 2016.
7. L Shang, Z Lu and H Li. ACL-IJCNLP'15, Proceedings of the 53th Annual Meeting of Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Beijing, China, 1577-86, 2015.
8. D Chen and C D. Manning. Proceedings of Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 740-50, 2014.