我们以前文介绍的一个场景本体的实例,银行领域客服投诉分析挖掘的场景本体模型,来说明本体树辅助建模。模型包括三部分:本体模型、要素模型、概念模型。本文说明本体树模型的辅助建模。
要素树辅助建模
要素树辅助建模(也称要素发现)实现的功能是,对输入的客服投诉文本数据,利用深度学习等技术,对输入的要素“种子词”,自动发现种子词相关的实体,并对实体按照属性进行聚类,给出多种属性的下级要素,以自动对要素种子词的自动扩展,自动发现其下级要素。
以种子词“信用卡”为例,辅助建模给出的结果为:(冒号前是信用卡相关的语义聚类维度,冒号后是此维度下的相关实体)。
“业务”:“申请、升级、开卡、退款、签约”等
“卡种”:“白金卡、金卡、联名卡、招行金葵花卡”等
“费据”:“账单、年费”等
......
在DINFO-OEC平台中,分类体系辅助建模的输出结果,就是本体树的节点,在本体模型中可以方便查看。
DINFO-OEC平台提供的语义资源包括2大类:
1、常用语义资源库,包括8万多常用概念,可以分为“心理概念”、“语言学概念”、“异常类概念”等类别。每类概念按上下位的类进行组织,如“心理概念”,其下级有“评价”、“情感”等,“情感”的下级有“高兴、悲伤”等概念。
2、领域资源库,包括60多个领域的3000万个概念,如银行领域、保险领域、快递领域等。
平台提供的语义资源,会定期自动更新。有专业的语言资源建设团队负责维护和更新。
在特定的场景应用下,对概念的使用,可能会相当灵活,一个概念的表达不仅可以是一个词语,而且可以是一个短语,或一个子句,如“等了两天了还没送到”(表达“不及时”的概念),甚至可以是一段话。
对这种不是词语的概念,一般在平台提供的常用语义资源中不可能完整,而需要利用机器学习算法,从场景应用的数据中自动学习得到。概念树辅助建模,就是帮助自动发现这些复杂概念。
概念树辅助建模,输入一个种子词语,或者一个复杂概念的组合,如“态度+好”,建模工具会利用机器学习算法,对语料自动进行概念相似度计算,发现其相关概念。如“态度+好”的相关概念有“温柔、利索、忙前忙后、谦虚、和蔼可亲”等,“态度+不好”的相关概念有“蛮横、傲慢、冷淡、恶劣、冷漠”等。