2019/01/10 15:34

晋耀红作者

工程化的NLP如何确保落地？

本文作者晋耀红博士，神州泰岳AI研究院首席科学家，近二十年NLP理论和工程化的探索者与践行者，向我们揭示NLP的工程化落地途径。一般认为，NLP是象牙塔中的研究，都是博士硕士们采用的深奥复杂的算法，似乎有种神秘的色彩。实际上，在晋耀红博士的带领下NLP已经走出象牙塔，并已经在众多典型行业的工程化中得到了落地。

NLP的工程化，不是一个个算法的累积，也不是一个个任务的独立优化，而应该是系统工程，综合考虑语言、计算、场景等多种因素，不断演进融合，寻求效果满意解的过程。根据赫伯特.西蒙（图灵奖和诺贝尔奖双料得主）的有限理性模型，受到所处环境的高度复杂性和有限的信息加工能力限制，因此NLP应用落地时，我们不可能遵循”最优化“的策略，而应该以获取当前可接受的“满意解"为目标。"最优解"可以作为实验室环境下的研究目标，而”满意解“是工程化的条件下我们唯一的选择。

我们提出了“语言、计算、场景”三角形满意解的NLP工程化技术路线，希望从工程化的角度，综合语义的符号化表示、传统语言学的知识表示、深度学习的算法模型等多种技术，在具体场景需求的约束下，寻找NLP工程应用的满意解。

最小化的语言特征是基础的语言资源

基础的语言特征是有限的，否则，语言将呈不稳定态，人们之间互相理解语言也将不可能。基础语言特征，包括词库、词汇的句法语义属性、词汇之间的关联性（同义、反义、上下位）等。比如，“打败”是一个动词，“高兴”是动物的一种情绪，“胜利”和“失败”的反义关系，“胜利”和“打败”的同义关系等。这些词语的意思和它们之间的关系，无论在那个行业场景中都是基本不变的。

我们已经构建了中文、英文的基础语言特征集，其中包括80000多个常用词汇，覆盖了大部分常用词汇。据统计中文常用的5万个词可以覆盖人民日报新闻用词的99%。基础的语言特征集是分类的，比如针对情感计算的基础语言特征中包含了140多种情绪。

基础的语言特征集，必须通过人工方式构建。我们有30多人的语言学团队，经过长达10年的积累，已初步构建完善。

语言特征的泛化是必需的计算技术

语言的使用是动态的，特定场景下的新词、新用法会层出不穷的出现。比如“深度学习”原来不是一个词，但近几年被广泛使用，特指一类神经网络算法。这一类的特征表示，可以采用机器学习算法（包括深度学习），从真实语料中自动学习，对基础语言特征进行扩充和泛化。利用机器学习算法，也可以进行同义词的泛化，比如“查看、查查、查一查、查询一下、查寻一下”等是“查询”的同义词。同时，也可以开展词语关联的泛化，比如“马云-阿里巴巴”的关系和“马化腾-腾讯”的关系类似等。

机器学习得到的新词、新用法，可以通过相似度计算等算法，将学习结果与基础语言特征对齐，以获得新词对应的语言属性。比如“深度学习”是一个名词，是“算法”的下位，与“神经网络”同义等。对齐操作保证了泛化特征的一致性。

语言和算法的有效结合是关键

根据每一类语言结构的特点，有指导的选择算法。比如，对于汉语的流水句的处理，哪些语言特征是流水句的激活特征，流水句是否适合LSTM算法，哪些特征参与LSTM的运算等。而不是针对所有句法结构，采用一种LSTM模型来进行句法分析。

语言结构因为其动态性，不适合把结构本身作为机器学习的输入，而应该在输入侧，通过语料标注或规则设计，把结构进一步抽象成为一个更抽象的特征，输入给机器学习、深度学习算法。如在形容词谓语句的分析中，“形容词短语”作为一个抽象特征，输入给句子分析算法，而不用关心“形容词短语”是用什么算法得到的。相反，机器学习算法的输出，必须以语言特征或语言结构的形式，这样才能保证结果的可解释性。

我们认为，深度学习只是NLP算法库中的一部分，也许只在某一个具体的环节中效果最好，对机器学习（深度学习）算法的“有的放矢”的使用，是NLP工程化的关键。

应用场景是无法回避的约束条件

应用场景是NLP应用的需求和使用环境，不同的应用场景，其约束条件是不同的。有的场景是处理营销数据的，有的是处理客服数据的；有的场景可以提供大量的标注数据，有的只能提供有限的业务规则；有的场景是同步的，有的是异步的。NLP应用必须在满足场景约束的前提下，选择处理流程、计算算法、语料资源等内容的配置。比如，对同样一批数据，同样一个文本，营销场景和客服场景的输出要求完全不同，所用算法也可完全不同，客服场景可以用分类算法，但营销场景也许需要用抽取算法。

很多NLP应用场景下，客户都希望在很短的时间内、在没有训练语料的情况下，快速看到NLP应用的效果，实现“冷启动”。比如某电信企业，客服的动单分类有 2000 多项。电信自己整理了3个多月，每一个分类下的数据都很少，但电信也不可能在每一个细分小类，都帮助我们训练出那么大量的数据，提供给机器学习算法训练。

“冷启动”的关键是规则方法与机器学习方法的有效融合。第一步，采用规则方法，构建一批应用规则，对应用场景下的典型语料，进行规则分析，针对性的获取特征，并对典型语料进行标注。第二步，把典型语料的标注数据，作为机器学习算法的样本，利用各种机器学习（深度学习）算法去做扩充、泛化。对泛化的结果，采用抽样方法，进行人工校验，加入到典型语料中去。这样循环处理，形成一个良性循环，不断的逼近客户要求。

NLP工程化的目标

NLP系统的开发与应用，既需要尊重语言学知识，以语言学知识为指导，又需要充分利用机器学习（深度学习）技术的计算优势，以机器学习为工具，持续迭代发展，才能在工程应用中发挥NLP的能力，实现满意解。

NLP工程化期望达到以下目标：

（1）可解释性，NLP系统输出的结果，应该符合基本的语言学规律，可以用语言学的术语进行解释，而不是给出一堆杂乱无章的数据，让用户从沙海淘金。

（2）一致性，NLP系统的处理过程，应该是随着处理对象的层次和深度，而逐步叠加模块，下级模块使用上级模块的结果，方便进行优化。而不是针对每个任务，采用“一竿子插到底”的复杂算法，中间过程完全是黑盒子。

（3）即用性，NLP系统的应用，需要做到即插即用的“冷启动”，或者是在很小的数据集上进行规则表述和预训练。一切需要用户标注海量数据，才能启动的NLP系统，都是耍流氓。

（4）可迁移性，NLP系统，应该在不用大的改动前提下，即可迁移到类似场景。而不应该是千人千面，过分个性化。

（5）自知之明，NLP系统的终极目标是做到自知之明，系统对输出的结果应该有明确的置信度，哪些结果一定保证是对的，哪些一定是不对的，哪些是不确定，需要人工干预的。有了可靠的自知之明的能力，NLP系统才具备了达到人类理解水平的基本条件。

小编偷偷告诉你，近两年很多媒体报道，计算机在阅读理解、机器翻译等领域超过了人类水平，其实是媒体的一种夸大其辞的误导，计算机只是做了端到端的匹配，匹配结果与标准答案做了个百分比的统计。计算机对阅读理解的内容一无所知，对匹配结果的对错毫无概念，从自知之明的角度衡量的话，计算机的水平可能还达不到小学一年级学生的水平。

语言理解是人工智能皇冠上的明珠，要达到真正的理解能力，道阻且长；正确处理好语言、计算、场景的融合，NLP技术已经可以在非结构化转结构化等应用方向上大展宏图，取得巨大的商业价值。

自知之明的NLP终极目标，任重道远，我们将与您一路同行。

泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台，旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/

产业NLP深度学习机器学习

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域，涉及计算机科学、心理学和认知科学（cognitive science)。在计算机领域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态，并且适应它们的行为，对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

来源：Wikipedia

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/