自然语言处理,简称NLP(Natural language processing),就是用机器来处理人类赖以交流的书写文字和口头语言。它利用语言学和统计学,加上机器学习,以便在自动化服务中对语言进行建模。
好吧,这是一个干巴巴的定义。
实际上,
NLP是(或者说几乎是)所有信息密集型处理过程的核心。NLP驱动了搜索引擎、虚拟个人助理、系统推荐、现代生物医药研究、智能和商业调查、消费者洞察……
世界上在NLP上投资最多的公司,无出其右,就是谷歌了。
我最近拜访了谷歌公司的Enrique Alfonseca,请他回答了我提出的一些问题。
[caption id="attachment_6795" align="alignleft" width="239"]
Enrique Alfonseca[/caption]
人物简介:Enrique Alfonseca管理着谷歌苏黎世研究院的自然语言理解(NLU,Natural Language Understanding)研究团队,研究信息提取和文本自动摘要的应用。总体来说,谷歌研究院NLU团队「带领、构建和革新着语义分析、表征、句法分析与实现、形态与词汇发展等领域的方法。我们的工作直接影响着 Google Now、知识图谱、谷歌翻译等机器智能研究中的对话式搜索。」
在加入NLU团队之前,Enrique曾在与广告相关性和搜索排名有关的广告质量和搜索质量团队中担任过不同的职位。他在广告质量目标(付费搜索)和查询扩展方便进行了改革,极大地提高了广告收入。他还是位于苏黎世的瑞士联邦理工学院(ETH)的讲师。
接下来请看这位技术大牛的观点:
Seth Grimes:你的工作涉及到NLP领域的多个方向。那么,请先谈一下你目前的研究主题是什么?
Enrique Alfonseca:现在,我的团队正在研究谷歌搜索中的问答系统,这允许我和我的同事在我们富有经验的不同领域内共同创新。以我为例,我在信息提取、事件抽取、文本摘要和信息检索等方面工作了许多年,而这些组合起来,就是问答系统——信息检索用来在网络上寻找和排名相关的段落,信息提取用来识别具体对象和搜索的实际答案,文本摘要将它以一种简洁的方式呈现给用户。
Seth:那么您谷歌苏黎世研究院的同事们在研究什么课题呢?
Enrique:苏黎世团队的工作与谷歌其他办公团队及相关合作产品联系非常紧密,所以很难为“谷歌苏黎世研究组”与谷歌其他部分找出明确的界限。这就是说,苏黎世的同事们参与到了语言处理(文本分析、生成、对话等)、视频处理、手写识别等领域。
[caption id="attachment_6798" align="alignright" width="287"]
谷歌地图上的谷歌苏黎世研究院[/caption]
Seth:你们只做「纯」学术研究,还是你们已经在一定程度上影响了谷歌的产品路线图?
Enrique:Alfred Spector、Peter Norvig和Slav Petrov在2012年发表的一篇论文很好地概括了我们的研究思路。一方面,我们认为做研究需要在产品团队中进行,实际上也确实如此。我们大部分的软件工程师都有硕士或博士学位以及在所研究课题上先前的工作经验。他们把这份专业知识应用在了产品开发的方方面面,如搜索质量、广告质量、垃圾检测等等。与此同时,我们有许多长期项目,致力于解决整个谷歌公司应该在未来几年内解决的问题。对于大多数的这些问题,我们把复杂的挑战细分成可处理的更小的问题,以便快速进步,同时我们有一路走来影响谷歌产品的目标,这激励着我们向长期目标迈进。
举个例子,当我们开始研究文本事件模型时,我们还没有考虑到具体的产品,尽管我们猜测理解新闻报道的含义应该会有很多应用场景。研究了一段时间之后,我们意识到,这对于确保网络搜索中显示的知识图谱信息与最新报道保持同步更新是十分有效的。虽然我们还没有得到精度高、新闻覆盖面广、理解深入的模型,但这项技术已经被证明对我们的用户非常有用。
Seth:你们涉足研究创新成果产品化吗?在谷歌,是否有从研究到产品的典型路径?
Enrique:是的,我们负责把我们开发的技术转化为产品。如果研究和生产是分开处理的,就会有以下这两个导致失败的常见原因。
如果研究团队不贴近生产需要的话,他们的评估和数据集就有可能无法充分代表整个产品的实际需要。这在研究团队攻关不断更新的产品时尤其成问题。除非是直接研究产品本身,否则很可能团队正在研究的设置将很快被淘汰,积极成果也不会转化为产品的提升。
同时,如果把研究的创新成果应用在产品上的人并不是研究者自己的话,他们很可能不够了解新技术,也就没法做出正确的决策,比如在产品需求要求你权衡降低一些准确性来减少计算成本的时候。
Seth:在谷歌语言技术大会上,仅仅Your LT-Accelerate 的展示就占据了两天的会议议程。但是,你计划主要探讨信息提取和一些其它的主题。你已经写到信息提取是非常困难的。你提到的挑战包括知识库的实体解析和一致性问题。那么,首先,「实体解析」和「知识库」的定义是什么?
Enrique:我们把给定主题文字的查询问题称为「实体解析」,知识库的入口代表那个主题。例如,如果你的知识库是维基百科,人们可以把这个入口用英文定义为「Barack Obama」,「Barack」,「Obama」,「美国总统」等等。同时,「Obama」也可能指的是任何有相同名字的的人,所以这里存在一个模糊性问题。在字面上,人们也把这个问题称作实体连接或者实体消歧。两年前,谷歌的一些员工发布了一个实体解析注释的超大文集,这个大的网络文集包括对Freebase主题的110亿次引用,它是由世界上研究信息提取的研究人员开发的。
当我们谈到知识集,我们指的是真实世界(或者虚拟世界)的结构化信息,在许多其他应用中,人们能够对文字进行语言分析。这些一般包括主题(概念和实体)、属性、关系、类型层次、推理规则...知识表征和人工、自动知识获取的研究进行了许多年,但是这些都是远未解决的难题。
Seth:那么模糊性、名字匹配、代词、回指等等各种各样的指代都是挑战的一部分。总体上,实体解析的技术发展状况如何?
Enrique:指代确实是一个相关的难题,我认为它应该和实体解析一起被解决。
使用不同的数据集和测试集,结果会变化,但是表述式注释目前已经达到了8-9成的正确率。大多数的数据集,像维基百科和Freebase,大部分是人工构建的,并没有具体的应用,并且当用户使用让它们进行实体消岐时,总是出现问题。
Seth:知识层面的连贯性问题一般都会出现在哪里?是在表达差异之中,定义不兼容之间,某个瞬间的捕获,或仅仅就是对事实的不同意?(以上就是我认为人类认知上最大可能产生不一致的原因。)从用户的角度来看,不一致性是如何影响谷歌这方面表现的?
Enrique:各主题的不同报道深度,以及在不同的领域中不同层次的细节描述,是常见的问题。根据不同应用,人们可能想要调整分辨率系统更偏向解决提到作为头部实体或尾实体,以及某些实体可以人为提升的仅仅是因为它们是在一个更密集的,网络的更详细的部分中的 知识库。在此之上,模式被认为出去是本体论正确的,但例外情况发生一般;许多知识基地已建成通过合并数据集不同的粒度级别,从而引发和解问题;和维基百科包含未明确与其他即使他们显然与他们的话题多「孤儿节点」。
Seth:例如,数据的综合处理(curation)是一种解决方案吗?就像IBM沃森和 Wolfram Alpha(一个能够根据问题直接给出答案的新一代搜索引擎)所使用的那种,或者这些挑战能够以算法解决吗?除了谷歌只来,还有哪些学术界或者产业界的公司在这方面做了有趣的研究?
Enrique:毫无疑问,手动数据处理manual curation可以提供部分解决方案解决方案。同时,如果我们希望可以事无巨细地记录那些冗长的事实数据,将所有信息都手动添加进去并让其保持永久更新,这是不现实的。自动协调现有的结构化来源,就像数据库、图书、体育比赛结果,等等,也是解决方案的一部分。我相信它将最终有可能应用在信息提取技术方面,不管是结构化数据源还是非结构化数据源,但这也面临着不小的挑战。我之前提到过,「实体解析」系统的准确率在80%至90%之间。这意味着,对于任意自动提取的实例集,它们中有至少10%会被关联到错误的实体中——这种错误意味着实例提取模型中的任何错误都会在顶部积累。聚合功能能够有效的降低错误率,但这对于长尾来说就没那么有效了。
事情也有好的一面,那就是这个领域正在繁荣发展——在ACL、EMNLP和其他会议上的内容,足够证明这个领域的飞速发展。通过对查询的语义分析来回答Freebase(一个类似维基百科的创作共享类网站)上似是而非的问题,如何将深度学习整合至KB表征和推理任务,更好的将目标和应用于实体解析的局部模型结合起来,等等,这些都是在过去的十几年中已经取得重要突破的几个问题。
Seth:最后,自然语言处理领域内有什么新闻和令人兴奋的事情?
Enrique:一方面,整个行业在个人助理功能上正在快速创新——一个可以通过自然对话与人类互动的工具,了解人们的一切,包括他们的利益和需求等,回答他们的信息需求,在规划和记忆任务反面提供帮助,并能协助控制他们的设备,以使他们的生活更舒适。自然语言处理等许多领域需要改进来使前面提到的长期愿景成为现实,但我们已经开始看到它是如何改变我们的生活。
在另一方面,语言和实体之间的关系将有进一步的发展作为发展发生在机器人领域,我们将不只是能够接地我们的语言分析了虚拟的知识基础,但在实际的体验。
来自breakthroughanalysis,作者Seth Grimes,机器之心翻译出品。参与:Philip Liu,姜振东,赵云峰,Sane Chen,Gabrielle Zhang,汪汪。