在解决搜索的最后一公里上,人类一直在不断探索,从自动摘要到知识图谱到机器阅读理解。追一科技高级研究员杨雪峰博士在WOT大会上,分享机器阅读理解的前沿动态,企业服务落地应用中的困难与挑战。
WOT2018全球人工智能技术峰会11月30-12月1日在北京召开。通用技术、应用领域、行业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。
追一科技亮相盛会,分享在前沿AI技术研发应用上的探索。追一科技高级研究员杨雪峰博士受邀主持WOT机器学习分论坛,并发表了「阅读理解技术探索与企业服务中的应用」主题演讲,介绍了机器阅读理解的前沿动态和研究突破,应用落地中,追一科技如何解决诸如冷启动、高并发和拒绝回答等一系列挑战。
「从搜索引擎的下一步,到今天在企业服务中多种探索应用,阅读理解是目前自然语言处理里面新兴的、非常有挑战、非常有实际意义的场景」。杨博士表示,在阅读理解上,模型的复杂程度、数据量级等,都给了大家很大的操作空间,包括科技巨头等都对阅读理解趋之若鹜,纷纷刷榜各种比赛。
杨博士介绍说,追一科技也在努力探索阅读理解的应用落地,包括客服培训、专业咨询、儿童教育等知识问答领域,都有阅读理解的应用场景,但同时也面临很多的挑战,比如冷启动阶段的数据处理,金融私有化环境下如何提速、高并发,获取新模型等等。
“我们会应用多种技术方案,实现综合效果的最优化。”杨博士介绍说,追一会尽量提供给用户智能化的简单有用的平台,启动之后,能够不断的循环和滚动优化,后续运营起来会越来越简单。
以下为杨博士在本次WOT大会分享摘要:
阅读理解解决了什么?
杨雪峰博士在WOT演讲
机器阅读理解有很多形式,通俗的说就是针对给定的问题,从段落、上下语境中找到答案,答案可以是很多种形式,一个词、片段、数字、符号都有可能,答案还有可能不在原先文本中,需要去总结出来的答案,这都是阅读理解的不同的形式。
需要找到答案的形式不同,难度也是有很大区别的。
再说一下机器阅读理解本身的意义。在解决搜索的最后一公里上,人们不断探索,从自动摘要到知识图谱到机器阅读理解。
如果从实际角度来说,搜索引擎公司是最关注阅读理解的。之前大家经常会说“搜索引擎目前还不够好,大家在下一步要走向何方”?在比较早的时候,大家会说自动摘要Summarization是一个特别重要的方向。把搜集到的网页提取出一个摘要、简略的描述,用户在搜索的时候,不点击进网页就可能知道网页是不是他想要的东西,主题是不是他关心的。
后来在2012年的时候,谷歌将本体语义网的技术应用到搜索场景之中,而且重新起了一个名字Knowledge Graph,特别火爆,直接替代了在学术界惯用的一些名词,现在成为了知识图谱、语义网、本体这些技术的统称。
Knowledge Graph可以让我们直接从结构化或者是非常半结构化的数据里面找到针对问题的具体场景的答案。但是它的作用还是有限的,因为知识必须存储在已经处理好的可以人工提取或者半自动提取的知识库里。它的成本是很高的,只能处理你处理过的东西。
阅读理解帮助我们从一个完全无结构的文本当中,找到想要的答案。可以是一个网页、一段文字、APP下的描述性文字,甚至是微信文章。直接帮你从网页里面去找到你最希望要的答案,可能是一个数字。比如问姚明身高,用知识图谱,可能直接里面存了一个节点,姚明这个实体和属性身高,就是一个具体值。如果没有这个知识,但是在网站百科或者某一个页面里有介绍姚明,介绍了身高多少,这时候用阅读理解技术一样去解决这个问题。
目前对这些技术最感兴趣的就是各大搜索巨头,包括百度、谷歌、微软。
阅读理解场景应用
结合追一科技这块的探索,分享几个阅读理解的场景。
第一个是,需要快速教育引导新员工的场景。比如客服,是流动性很强的群体,而企业希望新人可以尽快的上岗。涉及读一些操作手册、业务常用文档,阅读理解就可以起到作用。真实线上应用的时候,阅读理解可以实时帮助员工,针对相关问题从需要学习的文档中找到答案,解决问题,避免犯错,从而尽快上岗。
还有在很多金融领域里面一些专业咨询。比如说买某只基金、咨询一些问题的时候,客户经理或者经纪,有些东西一样是要查询,如果有当时的文档和数据,也可以直接用阅读理解的方式去查询。
第三个是General Knowledge QA。主要目前需求场景是在K12以下的给孩童用于教育应用的通用知识问答系统,比如说儿童早教机,幼儿辅导。有些环节,随便问一些问题就可以找到答案,相当于起到半娱乐、半丰富大家知识的功能。
在YiBot系统里会有很多不同的子机器人和对话管理系统去衔接。有解决FAQ类的,有解决任务型、流程导航的,如订机票、开基金;有针对闲聊的,针对查询数据库的,还有目前在尝试落地的针对阅读理解,知识在结构文档内。
在阅读理解的流程是三个方面,第一个是Query Rewrite. 常用NLP里Query Rewrite功能,分词、命名实体识别、归一化等。接下来是Context Searching,真正的侯选文档并不是一个文档,是一个文档集,上百篇上千篇段落,从里面筛选出最有可能的Top 3,Top 3之后再进入MRC系统,找到一个真实的答案。
如何突破冷启动
冷启动这个问题在阅读理解是非常难处理的。
不同的公司业务场景不一样,但是目前阅读理解很难说做出一个通用的模型去解决大家所有文档的直接问答的问题,这是不切实际的,目前达不到这样的情况。所以,我们针对不同的业务的时候,会做很多不同的处理。
最难点就是数据问题,追一科技会给客户提供比较智能化的标注平台。想让客户标注,建立起业务,就要把客户的操作简化成划、点,只有用这些简单的操作的时候,客户才会愿意去帮你做起来。必须要提供给客户一个非常简单易用的平台,后续越来越简单,甚至后续不用标注数据的形式, 可以直接给标注人员推荐问题。
万事开头难。最前面的标注是避免不了的,但是后续会越来越简单。这时候我们也要求不能只标注我们推荐对的,因为这样最终问题会趋向于几类最简单的问题,还要求让他有些直接操作,必须给我们每天标注多少个,这样可以发现实际的问题。
Unanswerable问题如何破?
有很多问题AI是回答不了的,如果回答不了,还随意给一些答案的话,会造成非常严重的后果,特别是一些保险、金融行业,一旦遇到金融场景或者是跟钱相关的,都会比较敏感。
怎么去解决这样的问题,目前只能找到一些变相手段去缓解。
第一个当然是标注更多,人力去干扰的事情,这是随着人力投入更多效果会更好的事情。第二个是不同的Context之间,把很多问题交互进行一些应用、数据的增强。把除了这个答案之外的片段进行各种组合,文本的变换,去重,和其他的文本进行变换,变相的达到一种增强。
未来还有很多挑战值得我们去做。
客户在CPU机器上,可能还想不断叠加数据之后训练新的模型。因为金融模型都会要私有化部署,数据整个东西都是接触不到的,客户希望是一个闭环系统。这种情况下,想要在CPU机器上去训练这样的模型,目前阶段是非常有挑战的事情,基本上说不可能,他可能等一周,那种情况下这个东西就不可用了。
还有更高一级的,Yes或者是No的逻辑。
大部分客户问问题的时候,并不会非常直接问文档里面找到的问题,而是更倾向于一种文本蕴含的形式,判断用户说的逻辑与企业的文本里面描述的逻辑,是不是一个意思,只要告诉用户Yes或者是No。后续追一科技还会去支持这样情况的阅读理解,判断是否是一样信息、一致意思的功能。
最后,就是目前产品过程中都只是像SQUAD,答案必须是连续片段,没有自己生成,后续也许会添加,从文本当中自己生成这样的东西。
杨雪峰博士简介:
追一AI Lab 高级研究员,新加坡南洋理工大学博士。
主要研究方向为文本的向量化表达,语义匹配,阅读理解,信息抽取,对话系统。
杨雪峰博士在智能服务、金融科技等领域的AI技术落地有多年经验,现在追一科技主要从事前沿技术探索与实践工作,主导阅读理解技术相关产品。深圳市海归高层次人才,CMRC2018阅读理解比赛冠军。