中心隆重发布了董振东先生父子毕三十年之功建立的《知网》语言常识知识库,董强先生在发布会上也对《知网》发布做了重要阐释。
HowNet特点:
首次开源知网(HowNet)核心数据
在线检索知网词条,展示义原结构
提供丰富的调用接口方便用户使用
HowNet发展情况:
OpenHowNet API
存放HowNet核心数据和THUNLP开发的OpenHowNet API,提供方便的HowNet信息查询、义原树展示、基于义原的词相似度计算等功能。
HowNet核心数据
数据文件(HowNet.txt)由223,767个以中英文词和词组所代表的概念构成,HowNet为每个概念标注了基于义原的定义以及词性、情感倾向、例句等信息。下图提供了HowNet中一个概念的例子:
接口说明
get(self,word,language=None)
功能说明:检索HowNet中词语标注的完整信息
参数说明:word表示待查词,language为en(英文)/ch(中文),默认双语同时查找word表示待查词,language为en(英文)/ch(中文), structured表示是否以结构化的方式返回,merge控制是否合并多义项,expanded_layer控制展开层数,默认全展开。
get_sememes_by_word(self,word,structured=False,lang='ch',merge=False,expanded_layer=-1)
功能说明:检索输入词的义原,可以选择是否合并多义,也可以选择是否以结构化的方式返回,还可以指定展开层数。
参数说明:word表示待查词,language为en(英文)/ch(中文), structured表示是否以结构化的方式返回,merge控制是否合并多义项,expanded_layer控制展开层数,默认全展开。
initialize_sememe_similarity_calculation(self)
功能说明:初始化基于义原的词语相似度计算(需要读取相关文件并有短暂延迟)
calculate_word_similarity(self,word0, word1)
功能说明:计算基于义原的词语相似度,调用前必须先调用上一个函数进行初始化
get_nearest_words_via_sememes(self,word,K=10)
功能说明:在使用基于义原的词语相似度度量下,计算和检索词最接近的K个词
参数说明:Word表示检索词,K表示K近邻算法取的Top-K
面向应用的研究:
2012年开发出词语相关性计算器
2012年开发出语义群计算器
2014年推出了基于HowNet的英汉机器翻译系统
2016年推出了基于HowNet的中文文本分析系统
2016年推出了基于HowNet的英文文本分析系统
相关研究
基于义原的词表示学习
Improved Word Representation Learning with Sememes
词向量的学习是自然语言处理中一项非常重要而有意义的任务,这项研究探索将义原信息融入词表示学习模型中来提高词向量的效果,核心思想是利用中心词所标注的义原来更准确地捕捉到在当前上下文中,中心词所表现出来的语义。
具体而言,这项研究基于Skip-gram模型,同时学习词、义项和义原向量,采用注意力机制来检测中心词在不同上下文中的义项。在词相似度和词类比实验中,这项研究提出的模型实现了比其他词向量表示学习模型更好的性能。
这项研究表明通过采用注意力机制,义原信息可以更好地融入词向量中,提高词向量学习效果。
基于义原的语言模型
Language Modeling with Sparse Product of Sememe Experts
传统语言模型在编码输入序列后直接在词层面或字层面进行预测,而这项研究希望通过引入知网中“义原-词义-单词”的结构关系,层次化这样的预测过程,进而提高语言模型的性能和可解释性。这样的语言模型称为义原驱动的语言模型(SDLM)。
义原驱动的解码器以循环神经网络输出的上下文向量作为输入,输出预测下一个单词的概率,其结构包括以下三个层次化的模块:
给定循环神经网络最后生成的上下文向量,预测每个义原将在下个词中出现的概率;
使用上下文向量和A中的预测,给出每个词义出现的概率;
将B中的词义出现的概率边缘化得到每个单词的概率。
中文语言模型数据集上的实验结果证明了SDLM模型相比较传统语言模型和之前使用层次化解码器的语言模型在性能上的优势。
新词的义原推荐
1. Lexical Sememe Prediction via Word Embeddings and Matrix Factorization
人工标注义原、构造义原数据集费时费力,并且会有较大的不一致性和噪声。这项研究工作首次提出利用词向量来为新词自动进行义原标注,采用了推荐系统中的协同过滤和矩阵分解的方法,相应地提出了两个模型SPWE和SPSE。
在实验中,两个模型,以及两个模型的集成模型在义原预测任务上表现出较好的效果。这项研究将对现有义原标注的准确性和和一致性检验以及新词的义原标注有重要意义。
2. Incorporating Chinese Characters of Words for Lexical Sememe Prediction
现有的义原自动标注方法,都只利用了大规模文本信息(即外部信息),对于低频词的推荐效果很差。针对这个问题,这项研究提出了一个新颖的框架,充分利用词的内部汉字信息和外部上下文信息进行义原推荐,并提出了两种方法:
基于词-字过滤的方法以及基于字符和义原向量的方法对内部信息进行利用。基于词-字过滤的方法将词分为前中后,并统计每个字符对应的义原概率。
而基于字符和义原向量的方法预先学习字符向量,并使用矩阵分解的方法学习义原向量。在表示义原和词的距离时,使用距离义原向量最近的字来表示一个词。
实验结果表明本文中两种方法的集成模型在不同频率的词表上表现均比现有最好方法有显著提升,特别是在低频词上呈现出更加鲁棒的性能。
跨语言词的义原推荐
Cross-lingual Lexical Sememe Prediction
知网(HowNet)仅仅为中英双语词标注了义原,对于大多数其他语言,尤其是低资源语言,没有像知网这样的义原知识库,这在一定程度上阻碍了将义原用于这些语言的自然语言处理任务中去。通过机器学习的方法,将现有知网中的义原知识迁移到其他语言中,相比于从头构建其他语言义原知识库,无疑是一种省时省力的方法。
因此这项研究提出了跨语言词的义原推荐这一任务,并且设计了基于融合义原信息的双语词表示和协同过滤的框架,实现了较好的跨语言词义原推荐效果。
PPT具体内容:
(点击文末阅读原文即可下载)
演讲视频
清华大学知识智能研究中心发布会(上)
清华大学知识智能研究中心发布会(下)