作者: 哈工大SCIR博士生 郭茂盛
1 文本蕴含的研究背景
随着自然语言处理(Natural LanguageProcessing, NLP)领域研究的不断深入,如何让机器能够真正地理解自然语言,而不是仅仅简单地处理语句的表层信息,渐渐成为了许多学者面临的问题。实现对文本深层次理解,是自然语言处理研究最主要也是最重要的目的之一。如果将其比作是自然语言处理研究领域的一顶皇冠的话,那么基于自然语言的语义推理无疑是这顶皇冠上最璀璨的一颗明珠。因为在获取了文本的语义后,一旦获得了它们之间的推理关系,这些文本便不再互相孤立,而是彼此联系起来,构成一张语义推理网络,从而促使机器能够真正理解并应用文本的语义信息。
文本间的推理关系,又称为文本蕴含关系[1] (TextualEntailment, 下一节将给出详细定义),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。很多自然语言处理任务或多或少地都需要面对包含蕴含关系的文本,如果有一种技术能够识别其中的蕴含关系,那这种技术就能够为这些任务提供助力。因此,文本蕴含相关研究是自然语言处理领域的一项基础性工作。
例如,在问答系统中,若提问“谁是网易公司的创始人?”,而语料库中恰恰有诸如“丁磊于1997年5月创立了网易公司。”这样的句子,如果问答系统能够由此推理得出“丁磊是网易公司的创始人”的话,就可以直接对这样的问题进行作答。事实上,问题与候选答案、候选答案与支持文档之间一般都存在推理蕴含关系。有些问答系统[2-5]便利用文本蕴含技术来生成候选答案,或对用其他方法生成的候选答案进行筛选排序。试验[5]表明,应用文本蕴含技术能够把回答正确率提高20%左右。
在关系抽取领域中,Romano等人[6]使用文本蕴含技术扩展了抽取所用的模板,极大地丰富了目标关系的表现形式,从而提升了抽取的召回率。
在多文档文摘任务中,候选文摘中句子间的蕴含关系一定程度上指示了它们之间的语义包含关系,因此可以使用文本蕴含技术来辅助精简文本[7]。
在机器翻译评价领域,文本蕴含技术也有一席之地。在理想情况下,正确的机器译文应当和人工标注的标准答案具有相同的语义,因而双方彼此可由对方文本推理得出,所以可以利用机器译文和标准译文的互相蕴含程度来对机器翻译系统的性能进行评估。Pado等人[8]据此建立了基于文本蕴含技术的机器翻译自动评价系统。
类似地,在学生作业评分任务[9]中,学生的作答与标准答案之间的蕴含关系也可以指示学生答案的完善程度。Nielsen等人[10]据此利用文本蕴含技术建立了一套学生作业评分系统。
在句法分析结果评价领域中文本蕴含技术也有用武之地。由于错误的句法分析结果会导致蕴含关系判定失败,因此可以使用基于句法特征的文本蕴含识别系统对其进行反向评价[11]。
同时,在人们的日常生活中,近年来出现了不少所谓的“个人智能助理”,例如AppleInc.的Siri语音助手,Microsoft的小娜(Cortana)个人助理等。她们能够聆听并“理解”用户的一些简单命令,帮助用户处理一些日常生活的简单任务,从而提高了用户的工作效率,也增加了这些智能设备的可玩性。但是,当前的个人智能助理并不能很好地处理用户的复杂需求,也不能在回答用户问题时有效地举一反三。其技术瓶颈在于当前技术不能有效地理解用户的语义并进行推理,这与目前文本蕴含相关技术尚未达到成熟商用的水平有关。因此,研究文本蕴含相关技术是日常生活应用的迫切需要。
文本蕴含相关研究的终极目标就是提供一个一般意义上基于文本的推理引擎来支撑其他语义相关的自然语言处理任务以及日常应用。
2 文本蕴含的研究范畴
2.1 文本蕴含关系的定义
文本蕴含的概念由Dagan 等人[1]于2004年首次提出,其定义如下:
定义1. 文本蕴含定义为一对文本之间的有向推理关系,其中蕴含前件记作T(Text),蕴含后件记作H(Hypothesis)。如果人们依据自己的常识认为H的语义能够由T的语义推理得出的话,那么称T蕴含H,记作T → H [1] 。
举例来说,T1-H1符合前述文本蕴含的定义,它们的关系称为阳性蕴含关系(Positive Textual Entailment)。在不引起歧义的情况下,可以将阳性蕴含关系简称为蕴含关系;对于T2-H2,人们获知T2的语义之后,可以推理得出H2这个命题为假,它们构成了矛盾关系(Contradiction),又称阴性蕴含关系(Negative Textual Entailment);对于T3-H3,人们在获知T3的语义后,并不能以此为据判定命题H3的真假,因此,它们所构成的关系称为未知蕴含关系(Unknown Entailment),又称中性关系(Neutral)。
除非特别说明,本文中所提到的两个文本构成蕴含关系,指的都是由T可以推理得出H的阳性蕴含关系。
2.2 文本蕴含与其他文本间关系的区别与联系
首先,文本蕴含的研究范畴要和复述(Paraphrasing)进行区分。复述,通常用来表示两个文本片段包含的相同的语义。所以严格来讲,复述可以认为是一种语义上的对等(Textual Equivalence)关系,或者叫做双向蕴含关系(Bi-directional Textual Entailment)。而文本蕴含关系是单向推理关系。如上例中,T1可以推理得出H1,但反之不可。关于复述和蕴含的异同,Androutsopoulos等人[12]作出了系统性的辨析。
另外,文本蕴含的研究范畴要和文本相似(Text Similarity)有关研究进行区分。文本相似,指的是一对文本包含的相似的语义。比如,T4-T5这对文本,其语义是相似的,都表示了某种动物对于更大范畴的归属关系;同时,如果使用编辑距离或其他相似度量进行考察,两句的文本相似度也较高。但是它们并不构成蕴含关系,因为“斑马”和“野马”并不构语义上的包含关系,从而T5的语义并不能由T4推理得出。事实上,文本相似度常常用作识别蕴含关系的重要特征[13-16],但是相似的文本未必构成蕴含关系。
最后,文本蕴含关系并不是严格数学意义上的逻辑推理(Logical Inference)关系。从文本蕴含的定义可以看出,判别T-H间是否构成文本蕴含关系,关键在于一般人类读到T之后,能否以T所包含的语义命题为依据,结合自身知识,判断H的语义命题的真伪。尽管有些识别文本蕴含关系的方法[17-22]借鉴了逻辑推理的基本思想,但文本蕴含关系并不严格遵守数学逻辑推理原则,其判别过程也与数学逻辑推理过程不同。
综上,学者站在不同的角度去考察文本的相关属性,就得出了不同的文本间关系,它们既有区别,也互相联系,具体如表1所示。
3 文本蕴含的基本问题
在自然语言处理领域,有三类围绕二元关系所展开的基本研究,分别是二元关系的识别、二元关系的抽取以及二元关系的生成。所谓“识别”,是指给出一对可能构成某二元关系的文本对,要求机器对其关系是否成立给出判定;所谓“抽取”,就是要求机器能够自动地从大量自然语言文本中把构成该二元关系的成对文本片段抽取出来;所谓“生成”,是指给出一个文本片段,要求机器能够生成与之构成该二元关系的另外一方。由此可见,“识别”是研究二元关系的第一步,其目的是为了“培养”机器对这种二元关系的认知鉴别能力;“抽取”则是第二步,目的是利用机器对该二元关系的鉴别能力,从自然语言文本中获取大量的样本,积累知识;“生成”是第三步,做到这一步就可以认为机器已经掌握了该二元关系,能够举一反三,“灵活应用”了。
由定义1可知,文本蕴含关系也是一种二元关系,因此,对应地也有这三个基本问题,即文本蕴含关系的识别、文本蕴含知识的获取以及文本蕴含对的生成。
3.1 文本蕴含关系识别
识别文本蕴含关系是全部文本蕴含研究的基础。下面给出给出其定义:
定义2. 给定一对文本T-H,要求机器对其是否构成蕴含关系做出判定,这样的问题称为识别文本蕴含关系(Recognizing Textual Entailment, RTE)。
识别文本蕴含关系形式上是一种文本对分类问题。其中最基本的是二元分类,即分为蕴含关系与非蕴含关系,此外,也可以把非蕴含关系进一步划分为矛盾关系和中性关系,形成多元分类。另外,有学者单独研究矛盾关系,提出了矛盾检测问题(Contradiction Detection)[23]。
识别文本蕴含关系本质上是一种基于语义进行推理的过程。因此,其中有两个核心问题需要考虑——语义表示和推理机制。这是一对相辅相成而又互相矛盾的问题。一方面,在识别文本蕴含关系的过程中,语义的表示形式是为方便推理机制的执行而设计的,反过来,推理机制也能一定程度上弥补文本对T-H的语义表示上的鸿沟,因此,二者相互配合,缺一不可;另一方面,语义建模的鲁棒性和推理机制的严谨性却是一对不可兼得的矛盾。自然语言处理技术中有一系列语言分析(Language Analysis)工具,诸如分词(Word Segmentation)、词性标注(POS Tagging)、句法分析(Parsing)、语义角色标注(Semantic Role Labeling)、形式化逻辑表示(Formal Logic Representation)等。在这个序列中,自前至后各个语言分析工具对文本语义的刻画越来越精确:分词仅仅是把文本按单词进行切割,词性标注在此基础上增加了词性信息……形式化逻辑表示已经把语义表示成为精确的数学逻辑了。越严谨的推理机制对语义表示的精确性要求就越高,例如,若能把文本对T-H用形式逻辑表示成为两个命题,就可以借用数学上严谨完备的机器证明工具进行推理;但如果仅用单词或词性来对语义建模,就只能应用单词重叠度、相似度或其他简易的启发式方法进行“模糊推理”了。事实上,在上述序列中自前至后语言分析的难度在不断增加,同时靠后的语言分析工具也依赖前面的分析结果,由于错误级联效应,导致语义建模的正确性不断降低。而即使应用严谨的推理机制也不能保证基于错误的语义表示所得到的推理结果的正确性。故而在识别文本蕴含关系的实际应用中,需要有一个折衷取舍(trade-off)的考量。语义表示与推理机制这两个核心问题的关系如图1所示。
图1 文本蕴含关系识别的核心问题
3.2 文本蕴含知识获取
由前面的讨论可知,对文本中蕴含现象的识别能力是获取蕴含知识的基础。反过来,识别文本蕴含关系也离不开相关蕴含知识的积累,尤其是基于逻辑演算或转换的方法,其性能直接依赖于可应用的蕴含知识。
广义地讲,所谓蕴含知识就是对于识别文本蕴含关系有用的知识。狭义地讲,蕴含知识是由LHS(Left-hand Side)和RHS(Right-hand Side)两部分组成的蕴含规则,即“LHSRHS”。例如,若已知“苹果 → 水果”,就可以得出“他吃了一个苹果。→ 他吃了一个水果。”;若已知“X购买了Y → X拥有Y”,就可以得出“我买了一台电脑。 → 我拥有一台电脑。”下面给出文本蕴含知识获取任务的定义:
定义3. 给定一个文本集合S,要求机器对其中构成文本蕴含关系的文本片段以“LHS → RHS”的形式抽取出来,该任务称为文本蕴含知识获取(Textual Entailment Knowledge Acquisition)。
文本蕴含知识获取研究中也有两个核心问题需要考虑——知识表示和知识来源。
知识的表示形式是为了方便应用而设计的,蕴含知识根据是否含有变量可以划分为两类:单词及短语级别的蕴含知识(不含有变量,如“苹果 → 水果”)和模板级别的蕴含知识(含有变量,如“X购买了Y → X拥有Y”)。事实上,蕴含知识的应用场景往往是特定的,很少有放之四海而皆准的蕴含知识。例如,“acquire”作为及物动词既有“购买”的意思,也有“学习”的意思,蕴含知识“X acquire Y → X purchase Y” 在“AT&T acquire(收购) T-Mobile → AT&T purchase T-Mobile”的上下文中成立,但在“Children acquire(习得) skills → Children purchase skills”的场景下中并不成立,因此如何对蕴含知识的应用场景进行建模是知识表示问题中需要考虑的地方。
蕴含知识的潜在来源有很多,例如词典、百科、新闻语料、普通互联网文本等等。按照是否有专家参与构建可以把知识源分为人工构建的资源和大规模语料两类,前者小而精,后者广而粗,针对不同的知识来源需要设计不同的知识获取方法。图2展示了文本蕴含知识获取的两个核心问题,章节2.2将从围绕这两个问题对当前蕴含知识获取研究取得的进展进行梳理。
图2 文本蕴含知识获取的核心问题
3.3 文本蕴含对的生成
定义4.给定一个文本片段T和蕴含知识库D,要求机器根据D生成能够被T蕴含的文本片段H,使T → H 成立,该任务称为文本蕴含对的生成。
从定义4可以看出,文本蕴含对的生成任务实际上是在模拟人类根据自身掌握的知识(D)对给定线索(T)进行推理的过程。目前文本蕴含领域的研究主要集中在文本蕴含的关系识别和知识获取两个任务上,对文本蕴含对的生成方面研究较少[24-26]。其原因大致有以下几方面:
内因:一方面,H的候选项个数随推理步数的增加呈指数级增长:假设蕴含知识库中的每个LHS平均对应三个不同的RHS,那么经过一步推理可能产生3个一级候选项(RHS1,RHS2, RHS3),由于蕴含关系的传递性,则可能产生9个二级候选(RHS11, RHS12, …, RHS33)……3N个N级候选项。另一方面,推理的可靠性随推理步数的增加迅速降低:假设知识库中的每个推理规则的平均可靠度为0.8,当可靠度低于0.5时认为推理不可靠,那么由于错误的级联效应,经过四次推理,其可靠度为0.84≈0.4<0.5就可以认为其正确性难以保证。因此,在研究文本蕴含对生成问题时,在推理广度和深度上都要进行有效剪枝。
外因:一方面,蕴含对的生成需要依赖蕴含识别技术所提供的推理机制和知识获取技术所积累的知识库,但是当前关系识别和知识获取的研究尚不够成熟,推理机制不够鲁棒,知识库中的推理规则的完备性和实用性也有所欠缺。另一方面,由于推理的发散性,文本蕴含对的生成技术缺少广泛的应用场景。目前已有学者[25]在对话系统领域进行了尝试。
3.4 识别、获取与生成的关系
作为文本蕴含研究领域的三个基本问题,文本蕴含的关系识别、知识获取与蕴含对生成三项研究彼此联系,相辅相成,构成了一个紧密结合的整体,其关系如图3所示:
图3 文本蕴含的基本问题及其关系
文本蕴含关系识别研究是文本蕴含有关研究的基石,培养了机器的对蕴含的识别能力,“输出”了推理机制;而文本蕴含知识的获取需要识别技术对自然语言文本中的蕴含知识进行识别,进而输出蕴含知识库;同时,蕴含知识库对某些基于转换或演算的识别研究提供了便利;而文本蕴含对的生成则需要推理机制和蕴含知识库共同为其提供动力。
4 总结
本文第1节对文本蕴含的研究背景、应用场景、研究目的进行了阐述;第2节给出了文本蕴含的定义,与其他文本间关系的区别与联系,界定了其研究范畴;第3节指出了文本蕴含研究的三个基本问题——关系识别、知识获取和蕴含对的生成:3.1节指出了关系识别的两个核心问题——语义表示与推理机制,并给出了他们的制约关系,3.2节指出了知识获取的两个核心问题——知识表示与知识来源,3.3节指出了目前蕴含对生成相关研究进展缓慢的内因和外因,最后,3.4节讨论了识别、获取与生成的关系。
注:本文节选自《郭茂盛,张宇,刘挺,文本蕴含关系识别与知识获取研究进展及展望,计算机学报,2016,Vol.39,在线出版号 No.156》
5 参考文献
[1] Dagan I, Glickman O. Probabilistic textualentailment: Generic applied modeling of language variability. //Proceedings ofthe PASCAL Workshop on Learning Methods for Text Understanding and Mining,Grenoble, France, 2004: 26-29
[2] Wang B, Zheng D, Wang X. Multiple-choicequestion answering based on textual entailment. Acta Scientiarum NaturaliumUniversitatis Pekinensis, 2016, 52(1): 134-140 (in Chinese)
[3] Bhaskar P, Banerjee S, Pakray P, et al. Ahybrid question answering system for Multiple Choice Question (MCQ).//Proceedings of the Question Answering for Machine Reading Evaluation(QA4MRE)at Conference and Labs of the Evaluation Forum, Valencia, Spain, 2013:1-18
[4] Iftene A, Gînsca A-L, Moruz M A, et al.Enhancing a Question Answering System with Textual Entailment for MachineReading Evaluation. //Proceedings of the Conference and Labs of the EvaluationForum (Online Working Notes/Labs/Workshop), Rome, Italy, 2012:1-12
[5] Harabagiu S, Hickl A. Methods for usingtextual entailment in open-domain question answering. //Proceedings of the 21stInternational Conference on Computational Linguistics and the 44th annualmeeting of the Association for Computational Linguistics. Association forComputational Linguistics, Sydney, Australia, 2006: 905-912
[6] Romano L, Kouylekov M, Szpektor I, et al.Investigating a generic paraphrase-based approach for relation extraction.//Proceedings of the Conference of the European Chapter of the Association forComputational Linguistics, Proceedings of the Conference, Trento, Italy.2006:409-416
[7] Harabagiu S, Hickl A, Lacatusu F. Satisfyinginformation needs with multi-document summaries. Information Processing &Management, 2007, 43(6): 1619-1642
[8] Padó S,Cer D, Galley M, et al. Measuring machine translation quality as semanticequivalence: A metric based on entailment features. Machine Translation, 2009,23(2-3): 181-193
[9] Dzikovska M O, Nielsen R D, Brew C, et al.SemEval-2013 task 7: The joint student response analysis and 8th recognizingtextual entailment challenge. //Proceedings of the First Joint Conference onLexical and Computational Semantics, Atlanta, USA, 2013: 263-274
[10] Nielsen R D, Ward W, Martin J H. Recognizingentailment in intelligent tutoring systems. Natural Language Engineering, 2009,15(4): 479-501
[11] Yuret D, Han A, Turgut Z. Semeval-2010 task 12:Parser evaluation using textual entailments. //Proceedings of the 5thInternational Workshop on Semantic Evaluation. Uppsala, Sweden, 2010: 51-56
[12] Androutsopoulos I, Malakasiotis P. A Survey ofParaphrasing and Textual Entailment Methods. Journal of Artificial IntelligenceResearch, 2010, 38(1):135-187
[13] Heilman M, Smith N A. Tree edit models forrecognizing textual entailments, paraphrases, and answers to questions. //HumanLanguage Technologies: The 2010 Annual Conference of the North American Chapterof the Association for Computational Linguistics. Association for ComputationalLinguistics, Los Angeles, USA, 2010: 1011-1019
[14] Mehdad M, Matteo N, Elena C, et al. EDITS: AnOpen Source Framework for Recognizing Textual Entailment. //Proceedings of theText Analysis Conference. Gaithersburg, USA, 2009: 169-178
[15] Adams R. Textual entailment through extendedlexical overlap. //Proceedings of the Second PASCAL Challenges Workshop onRecognising Textual Entailment. Venice, Italy, 2006: 128-133
[16] Jijkoun V, de Rijke M. Recognizing textualentailment using lexical similarity. //Proceedings of the First PASCAL ChallengeWorkshop. Southampton, UK, 2005:73-76
[17] Raina R, Ng A Y, Manning C D. Robust textualinference via learning and abductive reasoning. //Proceedings of the NationalConference on Artificial Intelligence(AAAI). Pittsburgh, USA, 2005: 1099-1105
[18] Moldovan D, Clark C, Harabagiu S, et al. Cogex:A logic prover for question answering. //Proceedings of the 2003 Conference ofthe North American Chapter of the Association for Computational Linguistics onHuman Language Technology. Edmonton, Canada, 2003: 87-93
[19] Akhmatova E. Textual entailment resolution viaatomic propositions. //Proceedings of the PASCAL Challenges Workshop onRecognising Textual Entailment. Southampton, UK, 2005:61-64
[20] Bayer S, Burger J, Ferro L, et al. MITRE’s Submissions to the EU Pascal RTE Challenge.//Proceedings of the Pattern Analysis, Statistical Modelling, and ComputationalLearning (PASCAL) Challenges Workshop on Recognising Textual Entailment.Southampton, UK, 2005: 44-44
[21] Bos J. Is there place for logic in recognizingtextual entailment? Linguistic Issues in Language Technology, 2013, 9(3): 1-18
[22] Roy S, Vieira T, Roth D. Reasoning aboutquantities in natural language. Transactions of the Association forComputational Linguistics, 2015, 3: 1-13
[23] De Marneffe M-C, Rafferty A N, Manning C D.Finding Contradictions in Text. //Proceedings of the ACL: HLT, Association forComputational Linguistics, Columbus, USA, 2008: 1039-1047
[24] Nevěřilová Z. Paraphrase and Textual EntailmentGeneration. //Proceedings of the International Conference on Text, Speech, andDialogue. Brno, Czech Republic, 2014: 293-300
[25] Jia J. The generation of textual entailmentwith NLML in an intelligent dialogue system for language learning CSIEC.//Proceedings of the IEEE International Conference on Natural LanguageProcessing and Knowledge Engineering, Piscataway, USA, 2008: 194-201
[26] Kolesnyk V, Rocktäschel T, Riedel S. GeneratingNatural Language Inference Chains. arXiv preprint arXiv:1606.01404, 2016.
本文来源于哈工大SCIR