Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

刘焕勇、薛云志作者

事理图谱,下一代知识图谱

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮。

而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

人工智能起起落落,但人工智能进步的步伐从未停歇。从人工智能的发展阶段来看,人工智能先后经历了从计算智能到感知智能再到认知智能的三个发展阶段。在计算智能时代,以神经网络遗传算法为代表的学习算法,让机器能够帮助人类存储和快速处理海量数据,使得机器开始像人类一样“能说会算”。

感知智能时代,机器能够开始看懂和听懂,并采取一些行动和听懂语音的音箱,帮助人类高效地完成看和听的相关工作。认知智能时代,是人工智能的终极目标,即机器能够像人一样思考,并采取行动,如完全独立驾驶的无人驾驶汽车、自主行动的机器人等,完成全面辅助或替代人类的工作。随着数据、模型、计算能力的全面提升,计算智能和感知智能已经初步实现,而真正实现机器的认知智能依然面临着诸多挑战。

认知智能与知识图谱

认知智能的核心在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进行识别、判断、感知,思考强调机器能够运用知识进行推理和决策,主动学习突出机器进行知识运用和学习的自动化和自主化。这三个方面概括起来,就是强大的知识库、强大的知识计算能力以及计算资源。

知识存在于我们的大脑当中,我们在从事社会活动的过程中,实际上是对知识的获取和使用过程。就知识库言,大致两类知识,一类是常识知识库(commonsense knowledgebase),另一类是百科类知识库(cyclopedia knowledgebase)。常识知识库包括人类认知系统中的概念、语言规则知识库,如现在的wordnet ,mindnet ,Framenet, Probase等,另一类百科知识库,则描述了现实生活中的事实知识(fact)。如Freebase , YAGO , DBpedia等。

以描述实体与实体、实体与属性值为形式化表示的知识图谱目前已是大家耳熟能详的一个概念,而何谓知识图谱?我们可以从几个方面来看,从AI的视角来看,知识图谱是一种理解人类语言的知识库,从数据库视角来看,知识图谱是一种新型的知识存储结构;从知识表示视角来看,知识图谱是计算机理解知识的一种方法;从web视角来看,知识图谱是知识数据之间的一种语义互联。从最初的逻辑语义网(semantic-net)、到语义网络(semantic-web)再到Linked-data,在到现在的大规模应用的知识图谱,已经前前后后经历了将近50年的时间。而知识图谱真正作为一个突出热点走进大家眼球的,还是在2012年以收购freebase作为后台知识图谱的google,以简洁答案、知识卡片的方式颠覆传统文档搜索形式的横空出世,从这个时间算起,也就7年的时间,所以知识图谱既是年老又是年轻的。

知识图谱,是实现认知智能的知识库,是武装认知智能机器人的大脑,这是知识图谱与认知智能的最本质联系,知识图谱,与以深度神经网络为代表的连接主义不同,作为符号主义,从一开始提出就注定了要从知识表示、知识描述、知识计算与推理上不断前行。目前知识图谱在诸如问答、金融、教育、银行、旅游、司法等领域中取得了大规模的运用。基于知识图谱的智能问答、在抓捕本拉登时斩获战功的Palantir、战胜人类的IBM深蓝机器人、颠覆传统网页搜索模式的谷歌知识图谱等等,都显示出了知识图谱的强大生命力。目前,我们以金融领域和全行业领域为试点,开展了相关对研发工作,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种的行业知识图谱和涵盖A股的上市公司金融知识图谱

1、全行业产业链知识图谱

产业链知识图谱,目标是构建起全行的上下行业图谱,行业之间的上下游关系,行业中个大元素之间的关系,例如行业下产品、公司之间的关联等等。为了保证产业链中数据的准确性,我们通过行业研究员人工定义本体,耗时半年时间,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种,几千家上市公司,共计几百万条关系边的产业链知识图谱,如下图2所示:

图2

2、上市公司金融知识图谱

公司金融领域研究的核心对象,公司作为金融中的重要角色,构建起公司知识全景图谱对于进一步知识整合、公司监测、公司运营等具有显著作用。我们以A股上市公司为基本数据来源和研究对象,构建起涵盖公司、行业、板块、人物、原料、产品等共17类实体,并购、竞争、供应、投资等共16类实体关系,规模达百万级的A股上市公司知识图谱,如下图3所示:

图3

知识图谱到事理图谱

知识图谱的本质上来说,是以传统本体概念为基础进行知识组织的,而在知识处理领域,这种传统本体概念依然存在着一些局限性,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述,经典的“网球”问题就是典型的例子。实际上,许多哲学家认为世界是物质和运动的,物质和运动的世界是由事物和事件组成,物质是相对静态的知识形式,反映了客观世界中事物存在的规律。然而,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系。以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。人类主要是以“事件”为单位进行记忆和理解现实世界的,事件关系到多方面的概念,是比概念粒度更大的知识单元。传统本体所使用的概念模型难以反映事件这一更高层次和更复杂的语义信息,模型缺少了更高层次的结构。

从知识刻画上来说,知识图谱的局限主要体现在两个方面:一是对人类知识的刻画上上不具备动态属性。知识图谱中所刻画和描述的知识是静态的非黑即白的一种确定性事实,而现实人类社会当中,知识是动态变化的,知识本身会因为外部条件的变化而失真。另一个是知识图谱在应用上的一种局限性,知识图谱只能回答什么是什么的问题,对包括基于已知知识推断未知知识,对已知知识进行正确性校验的知识推理,从根本上来说也没有跳出“静态”这一属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏力。

事实上,目前关于这方面的知识需求应用场景有很多,如金融投资领域有捕捉外部事件、根据事件的逻辑关系进行推理、推演和预测的需求,例如“智利发生地震会对哪些商品标的造成何种影响?”,情报舆情领域有预测事件后续影响的需求、寻找事件发生原因的需求,如“目标市场区域内棉花采购量突然增多、可能的原因有哪些?”。客服及咨询领域有正确定义、刻画客户服务过程中的状态变化,以提高服务精准化的需求,如“客户购买了此产品,如果中途赎回,哪些产品适合再次推荐给客户?”等等。

传统知识图谱中的知识是静态的,描述的是实体以及实体之间的关系,这些关系是相对确定和静态的知识,这个可以作为强大的知识库让机器人“才高八斗,学富五车”。但如何使这“八斗才”和“五车学”给“弄活”,让机器学会知识的运用,真正学会思考。那么就需要给这个知识再加上知识的“把玩规则”,形象的来说,就是一套逻辑规则。

图4

举例来说,如图4所示,我们在思考的过程当中,脑海里经常会比如“为什么”,“按以往的经验”、“八成会”、“据我分析”、“这个应该是”、“怎么可能”等词,这些词很形象的表现表示出了我们思考的过程,我们将思考的过程,定义为运用“事理”的过程,所谓“事理”,就是“事情”的道理,是思考的那条路径,这个“事情”就是我们所需要的事件。对于事理,我们可以有多种理解,事理是一套经验总结,是一套对知识的规则,是一套逻辑推理的方法论,是对特定环境下知识在时空域上的展开。图5展示了知识、事件、实体、事理之间的关系,事件高于实体,实体是事件的组成部分,事件是事理的重要组成部分,事理和实体共同组成了知识。

图5

目前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进行了探索,如哈尔滨工业大学信息检索实验室刘挺老师团队首先提出了“事理图谱”这一概念,并做了一些实验和基础性的工作[1][2][3];中科院自动化所赵军老师团队,上海大学刘宗田老师团队分别在事件抽取[4]和事件本体表示[5]上取得了丰硕的成果。

知识图谱的组织形式相仿,实体通过头尾相连,可以组织形成图谱状的知识图谱,事理采用类似的组织方式,可以形成事理图谱。知识图谱与事理图谱两者之间存在着诸多异同之处,我们在参考前人的工作上,结合自己的研究工作,从描述知识、研究对象、构建目标、知识形式等共10个方面进行了总结,如图6所示:

图6

知识图谱描述知识是万物实体,所研究的对象是名词性实体及其属性、关系。事理图谱所要描绘的是一个逻辑社会,研究对象是谓词性事件及其内外联系。两者都是有向图的组织性质,在知识的确定性上,知识图谱中的知识是以事实三元组为存储型的、确定的,知识状态相对静态,变化缓慢,但精度要求极高,实时性要求极高。事理图谱中的知识时一个包含事件、论元集合、逻辑关系等的多元组,知识逻辑是不确定的,存在一种转移概率。

在应用上,知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。传统概念之间的分类关系即上下文关系不同,事件与事件之间除了上下位等分类关系外,还存在非分类关系,包括组成关系、因果关系、并发关系、条件关系、排斥关系等,这些关系一起对现实动态知识种的逻辑知识进行了描述。图7主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、顺承事理、上下位事理、组成事理、并发事理共七类事理:

图7

因果事理描述的是认知体系中的一种前因后果联系,前面一个事件会导致后面一事件的发生;条件事理描述的是认知体系中的一种条件结果关系,是一种预设与结果逻辑;反转事理往往描述的是认知体系中的一种互斥逻辑,是一种真假值逻辑;顺承事理描述的认知体系中的一种时间上的偏序关系,是一种先后动作逻辑;组成事理,刻画的是事件之间整体与部分的逻辑;上下位事理,描述的是事件在分类体系中一种逻辑;并发事理,描述的是事件在时间上的一种共生关系,指一个事件发生下另一个事件一定发生。

事理图谱的构建

目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确率高但构建成本较大,且规模难以快速增长;后者所见即所得,构建成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,但缺点是精确度受多方面因素影响,准确率较前者要低。事实上,目前事理逻辑广泛存在于海量文本当中,当我们打开百度或者谷歌搜索引擎,输入“导致”或者“lead to”这一词时,会返回多个包含因果事理的结果,如图8所示。此外,问答社区等资源也为基于海量文本自动化获取事理逻辑提供了可能。

图8

事理逻辑的挖掘,可以分成基于显式因果逻辑的挖掘和隐式因果逻辑逻辑两种。前者通过人工设定因果模式可以获取大量的因果事件对,例如对于句子“受范冰冰阴阳合同事件牵连,唐德影视、华谊兄弟开盘大跌”,可以结构化出<范冰冰阴阳合同事件,导致,唐德影视、华谊兄弟开盘大跌>这样的因果事件对。通过对原因事件和结果事件进行进一步解析,我们可以得到原因事件的关联主体是人物,即影视明星“范冰冰”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司,华德影视和华谊兄弟,事件的动作是股价大跌。

结合上下文,可进一步明确事件发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成一种逻辑规则,即影视明星“阴阳合同->传媒公司股价下跌”这样一条因果模式链。更进一步,通过对动作本身的情感极性进行泛化,我们可以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可以进一步泛化成“明星负面消息->公司利空”这条更为抽象的因果模式链。这样,通过大量的显示模式对事理逻辑进行结构化,对不同来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的事理逻辑,借助知识图谱首尾相接的方式,我们对构建好的一条条事理逻辑进行链接,就形成了一个图谱形式的事理逻辑脉络,即事理图谱。

说到事理图谱,就不得不说事件表示。事件表示是事理图谱中的重要问题之一,目前学界和业界正在寻求一种尽可能灵活、简单的方式去表示事件。在事件表示上,有上海大学刘宗田老师团队提出的“事件六要素本体模型”[5],即将事件建模成e = { A,O,T,V,P,L}的表示形式, 其中:A 为动作要素; O 为对象要素; T 为时间要素; V 为环境要素; P 为断言要素;L 为语言表现。 而这种表示方式无法直接用于图谱节点表示,更可能成为一种事件描述信息隐藏于图谱事件节点背后。我们在实际的工作当中,尝试了几种事件表示方式,如含义、举例、优缺点如图9所示:

图9

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮,而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。

但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

我们从汉语句法学和语义学的角度出发,全面梳理了上千条事件逻辑关系显示表达模式,构建起了两千万领域新闻资讯库,运用事件抽取、事件对齐、事件融合以及泛化技术,形成了规模约400万的事理图谱,并实现了事理图谱的动态更新。接下来,我们分别介绍在顺承事理图谱和因果事理图谱上的一些成果:

图10分别是部分“出行”和“烹饪”两个顺承子图谱。从中我们看到,围绕着“去丽江”这一事件所产生的顺承逻辑,如“拿#身份证”->“去#售票口”-> “去#买票”->“遇上#旺季”->“去#丽江”这一顺承逻辑,“去#丽江”-> “预订#客栈”->“看过#攻略”->“结合#眼光”->“没有#价值”->“擦亮#眼睛”这一顺承逻辑结构。“去#庄园”->“去#竹林”->“挖#冬笋”->“切成#块”->“配上#鳊鱼”-> “匀以#薯粉”->“成#棒状”->“入#油锅”->“炸成#小块”这一顺承事件链形象地描述了“烹饪”这一事件的时序关系。这种顺承事理逻辑在揭示叙述性与步骤型事务的刻画上是一种很好的形式。

图10以下分别是以“银行降准”和“智利地震”事件为核心所关联的因果事理逻辑链,今年10月07日,央行宣布银行降准,这势必会造成多骨诺米牌效应,如图11中所示:

图11

银行降准会导致保险股高开、银行股持续走强,银行股持续走强先后带来银行板块集体拉升、板块个股出现普涨状态等结果。在“智利地震”这一事件因果事理图谱中,我们可以看到受波及的一些列后续事件,如高档鱼粉价格上浮、早盘稀土板块高开、国际纸浆价格大幅上涨等事件,这些事件又进一步传导,最终导致之家集体反弹、北京生活用纸普遍提价、沪铝价格波动区间上移等结果。这些因果逻辑在普通人看来,并不能立刻想到,相反的,只有具有专业背景的人员才能有这种逻辑推导思维。如此看来,事理图谱对于这类专业的逻辑链条可以进行良好的组织和刻画。

事理图谱和知识图谱的融合

如上面所介绍到的事理图谱中是以事件为单位一种逻辑链路,而实体识事件的一个重组成部分,通过实体识别和实体链接技术可以将事件中的实体链接到相应的实体知识库当中。如图12所示:“范冰冰阴阳合同违法”这一事件当中,人物“范冰冰”可以链接到包含“范冰冰”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、华谊嘉信、华谊兄弟等传媒公司的股价下跌这一事件中,光线传媒、华谊嘉信以及华谊兄弟这些公司类实体,实体可以进一步连接到以公司为实体的公司金融知识图谱,该图谱中包含了公司的主营产品、所属板块、竞争对手等各方面的信息,图13显示了融合后的状态。

图12

图12显示了事理图谱和知识图谱融合后的状态(部分),通过因果关系事件,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展,查询,从而实现整体图谱的联动。

图13

除公司知识图谱与事理图谱的融合之外,我们在产业链知识图谱和事理图谱融合的工作上进行了尝试,如图14所示展示了“澳大利亚锌矿执行复产计划事件”的融合效果子图(部分),从“澳大利亚锌矿执行复产计划事件”缓解相关铅产量恢复等事件出发,可以将事件与“铅”商品这一商品、有色产业链等行业板块类实体与行业相链接,进一步找到相应的商品、个股等信息,通过这种链接和融合,可以进一步对事件进行知识信息的扩展,形成从事理到知识概念的通路。

图14

事理图谱的应用探讨

事理图谱有多种应用场景,我们在实践过程中,主要总结出了以下5种应用形式:

1、基于事理图谱的知识问答。由于后台有以事件和静态知识为核心的事理逻辑,可以在完成“when”,“who”,“what”,“where”等常识问题的同时,进一步回答“how”以及“why”的问题,这种问答的形式既可以是可视化搜索式,也可以是问答形式,如图15所示:

图15

当用户输入“特朗普和金正恩又骂战了会怎么样?”这一问句后,系统能够给出直接的回答“这很有可能会是的美国朝鲜局势更为紧张,朝鲜局势紧张可能会带来全球股市走低、避险情绪升温、金价上涨等一系列影响”。通过对该回答,再配以可视化因果逻辑链的展示方式,可以进一步为这一回答提供佐证。

2、基于事理图谱的消费意图识别。本文在前面说到,顺承事理图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。而我们正好可以利用这种阶段性的特征,完成消费推荐的任务。如图16所示:

图16

例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;“预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求。全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。

3、基于事理图谱的重要新闻判别与推荐。大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务。目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。

事理图谱的出现,提供了一种重要性判别方式和新闻推荐方式。“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事理图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐,如图17所示:

图17

4、基于事理图谱的知识管理。知识图谱的本质上是一种以实体、实体属性、实体与实体/属性之间关系形成的一个知识库。而由于知识图谱中的知识是动态变化的,尤其在多源知识融合、知识对齐当中,为了保证知识的准确性、实时性,通常需要进行知识管理和编辑,这种操作可以类似成数据库的增、删、改、查操作,图18是我们开发的一个知识图谱编辑和管理工具,该工具可以支持对知识图谱中知识数据的CRUD操作。当然,这种知识更新的方式是人工自动发现并进行编辑,本质上来说,并没有实现知识图谱中数据的全自动更新。

图18

知识图谱不同,事理图谱这一以事件为实体节点,并融入静态实体的知识组织方式将静态的知识和动态的逻辑规则(前面说到的多种事件关系)形紧密相连,形成一个强大的逻辑链路网络,使得事理图谱天生具备了知识更新指导能力。将事理图谱与实际的业务逻辑系统相结合,并不断赋予事理更全面、更精细的逻辑体系,能够在一方面对根据外界事件知识的变化而对已有静态知识进行及时动态更新,如银行客服系统中的会话流程控制、互斥业务控制,用户邮储状态的更新等,这将提升银行客户系统的体验和智能水平。

举一个实际的例子:银行业务中知识图谱中有一条知识数据,即用户同时办理了业务A和业务B,而实际上,办理业务A和办理业务B两者之间存在一种互斥关系,那么则可以通过两个业务办理的先后顺序,更新用户的业务知识信息,将办理业务B这条知识进行移除。类似的例子还有很多。

5、基于事理图谱的推理与辅助决策。知识推理是知识图谱的终极目标,基于过去已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够在业务的推理和辅助决策上也能带来一定帮助,如智能投研中的未知风险预警、公司舆论控制等,如图19展示了我们目前开发形成的事件驱动工具,通过人工自定义构造传导链,进行既定模式检索,可以完成对既定知识逻辑路线的发现与探索。

图19

以上图中描述的“寻迹”模式进行逻辑链条传导的方式不同,基于事理图谱的事件传导中的逻辑联系更为接近于人脑中的真实逻辑链条。前者传导的路径存在着一个基本型的假设,即知识与知识之间的属性或关系通过人工方式强制地进行映射和编制,其中有个十分明显的缺陷就是传导边上的逻辑概率量化问题。

“事理图谱”的出现,则从事件状态的逻辑转移上为这种推理机制提供了一个新的方向。如图20所示的demo所示,用户输入一个事件点击提交之后,运用事件规范化和事件相似性计算等方法,我们会在后台400万个事理图谱找到一个与用户输入事件最为相似的一个事件,以该事件为核心会返回多条相似事件所造成的影响事件。

针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件中一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。图20中展示了以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图。从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。

图20

当然,基于因果事理图谱的逻辑影响推理仍然存在着诸多不足,比如多层逻辑推理上的效应传导量化与误差传播问题,事件对齐与泛化问题,这些对事理逻辑的准确性都有着较大的影响,这都是后续努力攻克的方向。

事理图谱的未来和挑战

知识图谱从提出至今,经过技术的更新和体系的逐步完善,已经在各方面得到了一定规模的运用,但在描述动态现实社会知识和认知智能思考上还存在一定不足,如何解决以上两个问题,赋予知识图谱更大的力量,将是未来知识图谱努力的方向。就知识而言,静态的知识需要一个上层的知识运用逻辑体系,一个知识逻辑体系需要底层强大的知识库作为有效承载,事理图谱,作为一个新的知识组织、表示和管理方式,是认知智能的一个重要突破口。事理图谱是知识图谱“动起来”的神经,知识图谱是事理图谱运行的血肉载体,描述知识逻辑架构的事理图谱与刻画静态概念知识内容的知识图谱携手并进将是未来的一个趋势。

事理图谱是一个庞大的课题,未来还有很长的路要走,如何找到一种灵活的事件表示方式,事理的执行、预测和推演机制,构造出一种知识的自我更新和生长方式,最终实现机器知识的自我更新和生长,将是未来漫漫长路中需要攻克的难题。得益于前人在事理图谱上的一系列非常有启发性的探索工作,我们在知识图谱、事理图谱上的应用场景、技术理论、技术实现上做了一些基础性的推进工作,未来,我们将进一步细化事理关系,完善事理图谱各方面的技术体系,深化事理图谱的构建以及在场景中的应用,愿同各位一道,在通往认知智能的道路上,努力前行!

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论知识图谱事理图谱认知科学
16
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

网页搜索技术

Web搜索引擎是一种软件系统,旨在搜索万维网上的信息。 搜索结果通常以一系列结果呈现,通常称为搜索引擎结果页面(SERP)。 该信息可以是网页、图像和其他类型的文件的混合。一些搜索引擎还挖掘数据库或打开目录中可用的数据。 与仅由人工编辑器维护的网络目录不同,搜索引擎还通过在网络爬虫上运行算法来维护实时信息。 不能被网络搜索引擎搜索的因特网内容通常被描述为深度网络(deep web)。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~