在过去的 2018 年中,自然语言处理出现了很多令人激动的新想法与新工具。从概念观点到实战训练,它们为 NLP 注入了新鲜的活力。
在这一年中,清华大学副教授刘知远和他所在的清华自然语言处理实验室同样在这个领域做出了很多成果,他们关注如何结合深度神经网络与大型知识库,并期望构建更多鲁棒及可解释性的自然语言理解系统。在这一篇文章中,机器之心采访了刘知远教授,他向我们介绍了 NLP 在过去一年的重要发展历程,以及实验室的重要研究成果与方向。
从 18 年走进 19 年
机器之心:在过去一年,您认为人工智能或者机器学习领域方面有哪些比较重要的研究成果?
刘知远:我认为去年最有里程碑意义的研究是 BERT,每个从事自然语言处理的研究者和开发者,甚至每个人工智能研究者都会比较关注。它的地位可能和 CV 中的 ResNet 相似,都是充分利用更多数据自动学习预训练模型,改进相关任务的性能。
参考文章:谷歌终于开源 BERT 代码:3 亿参数量,机器之心全面解读
机器之心:Transformer 在 2018 年有了更广泛的应用,除了机器翻译以外,它在语言模型和问答系统也都有所应用。您认为这是不是体现了一种趋势?
刘知远:我们可以把 Transformer 看做是以往神经网络的一个升级版,能够一定程度上解决以往 CNN 和 RNN 对长程依赖建模的问题。并且提出完全利用 Attention 机制来进行句子表示学习,结构也比较清晰,目前在机器翻译任务上取得了大幅提升。
在文本表示方面,深度神经网络主要存在两种做法:一种是 RNN/GRU/LSTM 系列,将句子作为字符序列进行顺序编码处理;另一种如 CNN 就不再关注句子中词之间的序列关系,而是通过诸如 Convolution(卷积)的机制,从局部开始逐渐形成整个句子的表示。前一种做法更符合语言理解特点,而后一种做法则并行计算性能更好。
Transformer 现在有比较大的影响力,一个方面就是其每层都会利用 Attention(注意力)来捕捉全局的信息,能够提升长程依赖的学习能力,这是 CNN 所不具备的。同时 Transformer 能在 GPU 上得到非常好的加速,可以从更多训练数据学习更好的效果,这是 RNN 系列模型难以做到的。此外简单利用自注意力机制可以方便层次化建模,这也是之后深层 Transformer 以及 BERT 等相关模型效果显著的重要因素。
总的来说,Transformer 比较好地解决了 RNN 和 CNN 等传统神经网络模型的缺陷,但更侧重于模型的并行化,对于语言序列性质的考虑还比较简单。当然,我认为未来这两种做法还会有此消彼长的过程。可能再发展一两年,我们又会在 Transformer 中把句子的序列性质着重考虑进来,让性能进一步提高,这也是一个互相借鉴的过程。
机器之心:您在 18 年都有哪些比较重要的研究成果,能介绍一下吗?
刘知远:2018 年我们围绕知识与语言开展了很多工作。我们认识到不同类型知识对语言理解的重要意义,是纯数据驱动方法无法胜任的。所以,我们的总目标是构建知识指导的自然语言处理框架,近年来一直探索如何将世界知识、语言知识和行业知识用于自然语言理解,以及反过来如何利用深度学习技术从无结构文本中抽取各类知识。
2018 年,在世界知识方面,我们进一步探索了利用深度学习技术抽取实体关系的技术,推出了 OpenNRE 工具包,获得了国内外的广泛关注;我们也利用知识表示学习技术,将世界知识用于文本实体分类、信息检索的文本排序等任务,验证了世界知识对于文本理解的积极意义。在语言知识方面,我们进一步探索了如何将用义原标注的词汇知识库 HowNet 融入到深度学习语言模型中;我们也探索了跨语言进行义原知识标注的可行性,有望加速多语言义原标注的效率。在行业知识方面,我们探索了如何将自然语言处理技术与法律知识相结合,提高法律领域的智能化水平。
实际上,从无结构文本中抽取结构化知识形成大规模知识图谱后,这些知识反过来可以融入深度学习模型中,帮助我们更好地实现对自然语言的理解。我认为这是深度学习模型与知识图谱不断互相正反馈的过程:如果有越来越大、越来越精确的知识图谱,也会有越来越好、越来越鲁棒的自然语言理解模型,它们是共同发展的。