Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深擎科技

结合指针网络的注意力机制(PAN模型)实现金融领域事件抽取

金融市场每时每刻都在发生新的事件,媒体不断的产生出新闻资讯,在互联网大数据时代,网络文章铺天盖地,如何从中发掘出有价值的信息一直是学术和工业界研究努力的方向。新闻资讯中隐藏着许多的投资机会,纷繁复杂的资讯文章中及时有效的提取出这些有价值的信息,将为投资者提供非常有价值的参考决策依据。

金融市场每时每刻都在发生新的事件,媒体不断的产生出新闻资讯,在互联网大数据时代,网络文章铺天盖地,如何从中发掘出有价值的信息一直是学术和工业界研究努力的方向。新闻资讯中隐藏着许多的投资机会,纷繁复杂的资讯文章中及时有效的提取出这些有价值的信息,将为投资者提供非常有价值的参考决策依据。

事件分析的难点,主要是在语义层面、事件的指向、事件跨句子描述等问题。由于新闻资讯类文本的描述形式与常见语法中主谓宾等形式界定不尽相同,且事件主体依赖于事件定义,事件在文本中的描述形式变化多样,不能简单的从词性和词集角度定义谓词论元。此外,金融领域的事件对时态状态也有要求。时态包括过去现在将来,状态包括否定转义成功失败暂缓延期等等,每一个元素都决定了事件是否成立。

本文所述算法建模的目标就是在文章中发现公司及其关联的事件类型,我们将这个问题分成多个步骤进行建模,包括了:命名实体识别(公司名)、指代消解、事件类型和事件主体识别。

一、怎么才算是一个“事件”?

一个事件通常有几个核心要素组成:事件类型、事件触发结构、事件论元和论元角色,

·  事件类型 (Event):业务场景决定了事件类型的划分方式,可以是多个层级股权类、经营类等,具体事件类型比如经营扩张、产能过剩、资金紧张等。

·  事件触发结构(Trigger):即代表事件内涵的核心表达词汇、短语、搭配方式等,多为动词或名词等具备具体含义的词汇组成。

·  论元(Argument):事件的参与者。在语言学中,论元就是指一个句子中带有名词性的词。比如,“证监会对康美药业责令整改,给予警告,并处60万元的罚款” 。这里含有两个论元,即证监会和康美药业。

·  论元角色(Role):事件参与者在事件中充当的角色,例如事件的施事者或受事者。即证监会是施事者,康美药业就是受事者。

二、把事件“抽”出来分几步?

事件抽取的任务主要是从非结构化信息中抽取出结构化信息。根据一个事件的组成要素,我们可以将事件抽取可分解为4个子任务:潜在事件监测、事件类型分类、论元识别、角色分类

潜在事件监测和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。这两个任务相互依赖,论元角色分类依赖事件识别的输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。

按照事件要素在文本涉及的范围,又可以将任务分为,

·  句子级别的事件抽取:只使用句子内部获取的特征;

·  篇章级别的事件抽取:使用跨句、跨文档抽取的特征信息。

特征工程方面,可以从两个角度来提取语义信息,

·  词法特征:包括词性、实体信息以及形态学特征。目标是获取词语的语义以及词语背后的知识。例如当前词以及周边词的Uni/Bi-Gram、词性标签、同义词等;

·  上下文特征:结合上下文信息,目的在于理解事件在一个大的范围中是如何被联系到一起的。

三、事件抽取的常见方法

1. 基于模式匹配的事件抽取

模式匹配方法基于业务经营预定义抽取模板和规则化表达式,具备较强的业务逻辑性,其优点在于简单易上手,精确可解释。缺点在于人工构造规则工作量大,后期维护成本较高,而且模式的可移植性差,缺乏语义泛化能力,召回率普遍较低。

2. 基于神经网络的事件抽取

深度神经网络方法,可以自动学习有效特征。输入特征可以采用预训练的词向量,而且还融入了单词的语法和位置信息,不仅能够构建语义信息,还能自动组合构建更上层的特征。

除了基于CNN的特征学习模型外,还有采用RNN对文本中的序列信息进行建模,从而做事件抽取任务。通过基于联合模型的神经网络做事件抽取,简单理解为多个任务同时学习,部分参数共享学习。在事件抽取任务中,往往是将事件识别和论元角色分类任务同时联合学习。

适用于事件抽取的神经网络模型包括:

·  LSTM, long short term memory,长短期记忆网络,是一种通过精心设计的RNN,能够学习长期的依赖关系,能较好解决梯度消失问题

·  BiLSTM,Bi-Direction LSTM, 双向LSTM,一个向前学习的LSTM和一个向后学习的LSTM,具有同时从上文和下文中提取信息的能力。

·  BiLSTM-CRF模型,序列标注任务中很流行的深度学习模型。CRF(Conditional Random Field) ,条件随机场是给定一组输入随机变量条件下,另外一组输出随机变量的条件概率分布模型,其特点是假设输出变量构成马尔可夫随机场。将词向量输入BiLSTM后,学习到上下文特征信息,以及长距离依赖信息,然后输出到CRF,于是CRF能更好地构造字与字之间的特征对应关系。

经过实践验证,这里推荐一篇事件分析相关的经典论文: Event Extraction via Dynamic Multi-pooling Convolutional Neural Networks(2015)

·  该论文率先尝试神经网络方法应用于事件抽取任务,并相对传统方法取得较好效果。

·  采用预训练的词向量作为单词的初始表示,将事件类型特征用于角色分类任务。

·  在上层特征学习模型方面,研究中使用CNN来自动抽取有效特征进行事件抽取任务。

论文提出了Dynamic Multi-Pooling 动态多池化方法:一个句子或许包含两个或者更多的事件,以及一个argument候选或许给不同的trigger扮演着不同的角色。为了做出准确的预测,随着候选词的变化获取最有价值的信息是必要的。因此在argument阶段,根据候选argument以及预测出的trigger将每个特征图分割为3个部分,只保留每一分割部分的最大值——动态多池化,而不是用一个特征图的最大值代表这个句子。与传统的最大池化相比,多池化保留更多的有价值的信息,从而不会错过最大池化值。目前该模型在ACE公测数据集上取得了最佳效果。

四、分步打造事件抽取系统

1. 事件主体识别

事件主体识别是从文本中找出在事件中充当的主体角色元素。经过多重经典模型的对比,我们采用了基于指针网络带注意力机制(PAN,Point Attention Network)的事件主体识别模型,模型结构设计为四层:

第一层是预训练语言模型层,用BERT来做动态词向量表示。自Google在2018年10月底发布BERT(Bidirectional Encoder Representation from Transformers)后,这是第一个真正意义上做到双向编码表示学习的深层预训练语言模型网络,并且在11项NLP任务上有很好表现,为整个NLP研究打开了全新的视角,彻底改变了预训练产生词向量和下游具体NLP任务的关系。正是BERT的优异表现,我们这里也尝试用BERT作为词汇特征表示。

第二层是编码层用双向LSTM。得到BERT向量特征表示序列后,融合事件类型,我们用BiLSTM做编码,前向和后向的LSTM能更好的学习到上下文序列特征。

第三层是注意力匹配层。我们利用Self-Attention机制,它的特点在于无视词之间的距离直接计算依赖关系,能够学习一个句子的内部结构,实现也较为简单,并且可以并行计算,使模型能更多的聚焦到事件对应的主体上。

第四层是序列抽取层。我们利用指针网络(Pointer Networks)做序列抽取,指针网络在计算整个序列之后,选择概率最大的状态元素作为输出。然后将抽取结果和NER识别的公司实体再做距离和字符串上的校验匹配,得到最终的事件主体。

最终在我们积累的数十万金融领域风险事件样本中,实际测试效果还是比较理想的,达到了业务可用水平。部分类型事件主体识别评测效果:

2. 事件类型识别模型

金融领域的事件类型是指文本所包含商业信息的事件,比如经营扩张、产能过剩,资金紧张等。事件类型根据业务场景定义,常用做法是使用正则表达式或关键词做初始积样本筛选,然后通过人工标注积累训练样本,之后利用分类算法训练分类模型。

金融事件的特征相对明显,业务术语等很大程度上决定了分类的效果,我们直接采用了简单有效的Fasttext分类模型,在句子级的事件识别任务中达到了95.7%的准确率

3. 基础模型的优化

事件抽取任务的优化还涉及到很多具体的细节,抽取效果很大程度上依赖底层基础模型的效果,包括例如:

·  针对文本描述中事件跨句子段落难以匹配主体的问题,使用指代消解来还原文章中公司名的指代词,建立跨句子段落的事件与主体之间的联系。

·  对于事件的时态和状态,采用频繁模式挖掘以及句法分析,找到与事件和主体的修饰关系来解决。如“暴风集团股东拟减持不超0.67%股份”,“拟”表示将来时态,修饰的是“股东减持”这个事件类型。

·  句法分析依赖于分词和词性标注的效果。使用大规模的金融领域资讯语料单独进行分词器和NER模型的训练,一步步解决分词、词性和实体识别的问题。

·  针对公司名识别,采用bert-bilstm-crf算法进行命名实体识别,通过序列标记位滑动窗口模型(SW,sliding window),对预测不完整或不准确的部分进行自适应纠正,提升NER识别准确率,优化后F1值从88.2%提高到90.6%。

4. 量大而精的训练样本
模型优秀的泛化能力绝非一日之功,一方面依赖于充分的领域预训练模型,另一方面也非常依赖高质量的标注样本。在很多任务中,数据的影响性往往是决定性的。
专业领域事件样本的标注门槛尤其高,对于业务知识背景的要求,事件内涵及外延的准确拿捏要求都相对较高,那么如何大规模的、标准化的进行专业事件样本标注变的尤其重要。
通过深擎自主研发的事件标注平台和多人协同标注及交叉校验机制,我们从数百万篇财经资讯中积累了数十万条高质量的金融事件样本数据,覆盖了金融领域一百多种专业事件类型,为事件抽取相关模型的训练提供了高质量的数据保障。

五、领域事件抽取道阻且长

目前就事件抽取任务的研究大多是基于ACE标准数据集展开,只针对某个特定领域或几个类型的事件进行研究,并不能够随着领域的变化进行快速的移植或扩展。

针对金融领域的专业事件,我们尝试过无监督、半监督、有监督的多种方法,也探索过经典机器学习深度学习的模型,最终经过实际数据回测对比,我们综合采取了模式匹配和多种神经网络模型的联合学习方式,较为有效的兼顾了训练样本筛选、精确标注、模型冷启动以及泛化兼容性等问题。

事件抽取任务的研究中涉及了大量的算法模型及知识图谱等底层技术的积累和数据沉淀,距离真正做好,能够支撑事件驱动分析,影响性传播分析,最终指导投资和风控业务等目标应用场景,还有很长的路要走。

不过在探索过程中,我们发现不知不觉间积累的模型其实不光可以用在事件抽取任务,还可以被广泛用在金融文本分析的各种业务场景,包括资讯主题标签、资讯多空分析、问题意图理解、个股实体消歧、个性化资讯推荐等,都取得了显著的效果提升。

深擎科技
深擎科技

上海深擎信息科技有限公司是一家深耕AI+金融的科技创业公司,拥有一流的AI研发团队。团队主体来源于IBM中国人工智能实验室,在人工智能领域研究能力突出,精通人工智能相关领域自然语言处理、知识图谱、机器学习等模型与算法。团队具有多年金融行业人工智能服务经验,能够将企业客户的痛点与最新的人工智能技术结合,提升企业的智能化水平。

http://www.shenqingtech.com/
专栏二维码
工程事件抽取PAN模型注意力机制金融
5
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

马尔可夫随机场技术

具有马尔可夫性质的随机场。 随机场:当给每一个位置(site)按照某种分布随机赋予相空间(phase space)的一个值之后,其全体就叫做随机场

条件随机场技术

条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链接式的架构,链接式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐马尔可夫模型那般强烈的假设存在。 线性链条件随机场应用于标注问题是由Lafferty等人与2001年提出的。

频繁模式挖掘技术

频繁模式是在数据集中出现的频率不小于用户指定的阈值的项目集、子序列或子结构(著名例子:尿布和啤酒)。例如,frequent itemset,如牛奶和面包,就是是频繁项集。子序列,例如先购买PC,然后是数码相机,然后是存储卡,如果它经常出现在购物历史数据库中,是一种(频繁的)顺序模式。子结构,subsequence可以参考不同的结构形式,例如子图、子树或子格,这些结构形式可能与项目集或子序列相结合。如果一个子结构经常出现在一个图形数据库中,它被称为(频繁)结构模式 (frequent) structural pattern。发现频繁模式在挖掘关联、关联和数据之间的许多其他有趣关系中扮演着重要的角色。此外,它还有助于数据索引、分类、集群和其他数据挖掘任务。因此,频繁的模式挖掘已经成为数据挖掘研究中的一个重要的数据挖掘任务和一个聚焦的主题。其比较典型的有apriori, FP-growth and eclat三个算法。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

梯度消失问题技术

梯度消失指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

条件概率分布技术

条件概率分布(Conditional Probability Distribution,或者条件分布,Conditional Distribution )是现代概率论中的概念。 已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

事件识别技术

事件识别(事件模式匹配)指检测与处理相关的事件,从而提供实施反应措施的机会。比如识别计算机网络节点中的攻击,视频内容中的人类活动,社交网络上的新兴故事和趋势,智能城市中的交通和运输事件,电子市场中的欺诈,心律失常和流行病传播等。在每个场景中,事件识别通过理解大数据流而做出相应的反应。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

指代消解技术

在计算语言学中,共参考分辨率是一个在话语中被充分研究的问题。为了得出对文本的正确解释,或者甚至估计各种提到的主题的相对重要性,代词和其他引用表达必须与正确的个体相关联。目的解决指代的算法通常首先查找与引用表达式兼容的最近的一个之前个体。

F1值技术

为了能够评价不同算法的优劣,在Precision和Recall的基础上提出了F1值的概念,来对Precision和Recall进行整体评价。F1的定义如下: F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

推荐文章
暂无评论
暂无评论~