2019/04/08 10:57

华仔作者

迈向电商认知智能时代的基石：阿里电商认知图谱揭秘

阿里妹导读：电商平台最大的挑战是从日益增长的海量商品（数十亿）中挑选出的一个小的子集（几十或上百）展示给用户，以满足用户的个性化的购物需求。为了解决仍存在的重复推荐、缺少新意等问题，我们提出建设大规模电商认知图谱。

今天，搜索推荐事业部认知图谱团队全面总结了目前在构建电商认知图谱方面的探索，主要介绍认知图谱的定义、整体的构建思路，构建过程中一些具体的算法问题，和最终在搜索推荐上的应用。

背景

纵使近年来电商搜索、推荐算法已经取得了长足的进步，但这些算法依然存在许多问题，如推荐中经常为人诟病的重复推荐、缺少新意等。究其本质，这是因为现有的算法主要还是沿袭“商品到商品”的思路，并不是直接从用户需求来驱动的，甚至对用户需求没有一个清晰的定义。而另一方面，理解并满足用户需求又是这些算法所要达成的最终目标，这两者之间的有着天然的隔阂。

为了打破这个隔阂，让搜索、推荐算法更好地认知用户的需求，我们提出建设大规模电商认知图谱（E-commerce ConceptNet），将用户需求显式地表达成图中的节点（称为E-commerce Concept），并将这些需求点和电商领域内的商品、类目，电商外部的通用领域知识等关联起来，为商品认知、用户认知和知识认知提供统一的数据基础，并为下游搜索推荐算法提供新的优化思路和更多的可能性。

什么是e-commerce concept？

前面提到，我们将用户需求称为“e-commerce concept”: 一个有商品需求的概念，一般情况下以一个符合常识，语义完整，语序通顺的短语表示。例如：“连衣裙”、“儿童防走失”、“烧烤必备”、“宝宝保暖”、“波西米亚连衣裙”、“春节庆祝”等。这些concept需要满足如下的基本原则：

如上所示，右边的短语均违背了电商概念的基本原则，所以在实际挖掘过程中都是会被过滤掉的。进一步，我们将concept分为了三大类：

购物场景（shopping scenario）：表示一类非特定品类的用户需求，场景感较强，如“儿童防走失”、“春节送礼”等。
泛品类（extensive category）：表示一类有特定品类的用户需求，可以是不加修饰的纯净品类，如“连衣裙”、“水果”等，也可以是有属性限制的品类，如“韩版波点连衣裙”、“儿童羽毛球拍”等。
通用概念（general concept）：表示一类通用的概念，可以和电商外部的开放领域知识相关联，如“防晒”、“烧烤”、“老人”等。

E-commerce concept从哪里来？

在明确了定义和基本原则之后，我们需要挖掘大量的concept用以覆盖各式各样的用户需求。目前，我们认为用户在使用淘宝或天猫搜索时输入的搜索词（query）和商品的标题（title）是concept挖掘可以利用的最大来源。而我们的工作主要是要将满足我们上述原则的concept短语，从充满噪音的query、title中挖掘出来，这一步称为“Concept Mining”。

Concept Mining主要分为两步，一个是候选生成（Candidate Generation），另一个是概念正确性判断（Concept Classification）。总体流程如下:

其中，候选的生成分为两块，一块是使用AutoPhrase按照字粒度从句子中切分出来的短语信息，一块是通过序列模板抽取器(Sequential Pattern Extractor)做频繁序列挖掘后的模板信息，结合2-gram的统计语言模型，得到concept候选。在得到候选后，我们会利用一个判别模型来融合语言模型embedding，concept的序列信息，以及规则前后缀，pv统计等特征，判断concept是否是符合要求的。

★ Candidate Generation

我们首先通过pattern抽取器从现有的正负concept中提取pattern并计算权重，然后通过这些pattern，并结合三个窗口内的统计语言模型，进行候选的剪枝，最后生成的候选基本都是符合语序，满足基本常识的。

★ Concept Classification

我们一方面结合一些简单的规则进行特征抽取，另一方面，利用现有的序列特征训练Wide&Deep model，来进行concept的合理性判断。在初始数据的处理方面，由于我们大部分的concept都是短文本，而query和title中大部分的term序列不符合正常的语序，我们还利用长文本的parsing infomation进行候选抽取和截断，训练了ELMo作为基础的语言模型，并在同样长度的gram内调整语序，来得到最佳的序列信息再给判别模型。

Ontology

在明确了e-commerce concept的定义并挖掘出了大量的concept后，我们会疑惑，concept作为一个词（phrase），除了name之外，没有分类（domain），没有描述（description），也没有属性（attributes），怎么叫”图谱“呢？这么少的信息量如何能在下游应用中起到作用呢？concept要成为图中的节点，那我们的图到底是什么呢？

为了更好地理解e-commerce concept，同时和外部知识图谱对齐，引入更多的通用知识，我们定义了一套电商认知图谱的本体（Ontology），用以描述实体、概念的属性和其之间的关系。实体表示客观世界存在的具体实例，例如，歌手刘德华为一个具体的实例。概念表示客观世界中的宽泛概念，例如，娱乐明星为一个泛指的概念。分类体系与属性关系定义（Schema），包括定义实体和概念的类别，以及实体和概念具体的属性与属性值。例如，在分类体系中，歌手刘德华属于人物→娱乐人物→歌手，属性包含出生日期，代表作等。

在这里，我们参考Schema.org、cnSchema.org中对客观事物进行描述的结构，建立了以事物类(Thing)为根节点的电商知识图谱底层本体分类体系。在事物类的子类中，包括“动作”、“创作品”、“活动”、“无形物”、“品类”、“医疗实体”、“机构”、“人物”、“地点”共9大类。每一个子类又有其自己的子类，每一个子类将继承父类的所有属性和关系。具体结构如下图所示：

本体分类体系，其中括号内内容为类别对应的中文名和英文缩写

在这里，中心白色节点为事物类，是所有类的根节点。环绕在事物类周围的9个节点是事物类的直接子类。其中每一个类别又有自己的节点。在该图中，以无形物类为例，受众类是无形物类的子节点，而受众：动物类、受众：身体部位类、受众：人群类、受众：植物类是受众类的子节点。在通过结构化、半结构化、非结构化数据进行知识获取时，数据按照该分类体系进行录入。

如前文所述，电商认知图谱的终极目标是刻画用户需求，因此，在本体中我们定义了多个电商专用类来对电商环境下的客观世界进行建模：

Brand (品牌) Category (品类)：品类是顾客在购买决策中所涉及的最后一级商品分类，由该分类可以关联到品牌，并且在该分类上可以完成相应的购买选择。品类中的实例是我们进行本体构建过程中重点挖掘的内容。
Audience (受众)：受众是商品直接对应的购物人群或种群，是电商场景下一个非常重要的分类。受众类下包括四个子类：受众：动物、受众：身体部位、受众：人群、受众：植物。
Style (风格)：对于一件商品，一定会有其特有的风格来吸引购买的人群，风格类主要对其进行描述。风格类下包括六个子类：文学风格、音乐舞蹈风格、气味风格、触觉风格、口味风格、以及视觉风格。
Function (功能)：对商品进行功能的具体描述，可以精准的定位商品，将商品和需求直接联系起来。功能类下包括四个子类：美妆功能、服饰功能、保健功能、家居功能。
Material(材质)：所谓材质，简单的说就是物体看起来是什么质地。通过材质对商品进行描述，可以使商品更加具体化。

属性是词汇固有的属性，比如“别名”、“描述”等；关系是本体词汇之间存在的客观联系，如Person类中实例的“出生地”将链接到另外一个Place类的实例中。在本体的分类体系中，每个类别都有其特有的属性和关系，子类将继承父类所有的属性和关系。在这里，我们以事物类和品类类为例，介绍属性和关系，具体如下图所示：

事物和品类的属性&关系

事物类：在该类别中，我们定义了“别名”、“描述”、“图片”、“名称”共四个属性和关系。“别名”实际上是当前词汇的一个同义词，是一个属性；“描述”是对当前事物特点的一种描述；“图片”可以连接到另外一个“图片对象”，实际上是两个事物之间的关系；“名称”是当前事物的标准的名字。
品类类：品类类是事物类的直接子类，将直接继承事物类的所有属性和关系。与此同时，品类类含有自己特有的属性“品类类型”。

本体分类体系下所有的类、子类均有其特有的属性和关系，在对本体中的每个类别进行建模时，我们定义了140+个属性和关系。

在进行本体词汇构建时，我们充分调动集团内各大BU的优质结构化资源，来源包括淘系、优酷、飞猪、神马等等，对多来源的结构化、半结构化数据进行知识的整理与融合。具体的，如果将多来源结构化数据看成不同来源的知识体系，获取和融合就包括了本体和实例的匹配(Ontology/Enity Matching)和知识融合(Knowledge Fusion)。

我们采用了基于文本特征的匹配方法，对多来源的数据进行了批量的合并。我们定义的知识融合任务是：在同一个类别下，含有相同意义的词汇需要合并为一个id，其中最为常见的词汇作为主键，其他同义词汇作为别名。如“老汉”与“老朽”是同义词，在同一个id下，“名称”属性内容为“老汉”，“别名”属性内容为“老朽”。在匹配的基础上，通过冲突检测，Truth Discovery等技术将知识进行一致性的合并消解。对于冲突，处理方法包括忽略，避免和消解。

常见的消解方法包括:Voting、Quality-based、relation-based的方法。我们采用的是Quality-based的方法，对single-valued attribute进行消解。最终通过整理和融合结构化数据，获取了百万级的实体和Concept数据。

自然文本以非结构化的形式存在，包含了大量丰富的语义关系，描述了客观世界里面实体，概念以及相互之间的关系。因此，对文本的理解也成为了获取实体和概念信息的重要来源。实体和概念作为图谱的关键元素，对其在文本中的识别成为了知识获取的重要技术。其中命名实体识别(NER)将文本中提及的实体进行划分并归类，可以从海量语句中挖掘指定类别的实体。我们采用基于远程监督（Distant Supervision）的序列标注模型，标注的类型标签包含上文提到的事件，功能，对象，时间，空间，品类，风格等多个大类。

至此，我们搭建了一个为电商设计的ontology体系，并扩充了大量的实体、概念、属性和关系，也可以将其看做一个普通的电商知识图谱。

从知识图谱到认知图谱

上文介绍的认知图谱本体结构（Ontology），包含了比较完整的分类法以及相应的schema，并融合了大量的外部、电商实体、概念和属性关系，是一个比较初级的电商知识图谱，其目的是为了结构化我们挖掘得到的大规模的e-commerce concept，将这些concept链接到图中成为节点，让“知识图谱”真正迈向了“认知图谱”。这一步叫做Concept Tagging。

理想情况下，我们希望concept经过分词后，每一个词单元都能够链接到本体词汇库的词汇上，从而获得相应的知识体系，但是由于本体不一定能覆盖全部的concept词汇，导致concept只有部分能够被链接，属性关系并不完整。其次，本体中存在一词多义的问题，相同的词汇具有不同的类型，因此需要进行词义消歧。而concept通常是短文本，上下文十分有限，常规的序列标注模型并不能取得可观的性能，并且目前的本体分类体系是树形结构，存在一个词汇分布于同一个大类，不同小类中。例如，“丹麦”这个词的类型有“空间→国家”以及“空间→行政区”，这也为词义消歧带来了难度。

我们的目标是准确地将concept链接到本体词汇库的词汇上，输入是concept列表以及本体库，输出是对应的词汇及类型：

针对上述难点，算法的整体流程图如下：

下面我们将针对图中的模块具体说明：

1）基于词典的最大正向匹配及前缀匹配：给定一个concept，算法首先使用最小粒度分词，将concept切分成词，然后使用最大正向匹配算法，从左到右将分词后的concept的几个连续词与本体库的词典匹配，如果匹配上则返回本体词汇及类型（ID)。

在这个过程中，存在匹配上的词在本体分类体系中的不同位置中，即一词多义的问题，在这里，我们将所有的可能候选返回，以供后续消歧处理。值得一提的是，我们在使用词表的时候，并没有使用全部的词表，其中的品牌表和IP表（名人、作品、电视电影等）非常庞大，歧义词很多。

例如，我们平时十分常见的高频词也会是一个IP词，但大多数情况下并不表示一个IP。因此我们在最大正向匹配的过程中去除了这一部分数据，而是增加了一个前缀匹配的模块，将未标识的前缀与品牌表和IP中的人名表进行匹配，能够进一步的提升覆盖度。

2）词义消歧： 与常规的消歧方法不同，concept通常由短文本组成，上下文能够提供的信息十分有限。因此我们选用了序列标注模型来学习词汇类型的组合，例如：“对象”+“风格”+“品类”等等。由于考虑到不同行业下，词汇的类型不同，例如，“拼接”这个词，在“服饰”领域下，“拼接针织连衣裙”中的“拼接”类型为“风格”，而在“家具灯具”领域中，“拼接水管”的类型为“功能”，因此我们使用了attention机制来学习领域相关的信息。序列标注的模型如下图所示：

得到序列标注的模型输出后，再根据单词的sense候选，输出最终的tagging结果。后续会尝试将序列标注作为特征，再结合concept的其他特征，使用分类模型来对候选sense打分排序。

3）细粒度的tagging ：在存在问题的讨论中，我们提到了存在一个词汇属于相同大类不同小类的情况。通常序列标注模型的标签类别只有十几种，而目前我们的本体库分类体系中包含几十种甚至上百种类型，传统的序列标注模型并不能够解决这个问题。因此，我们需要更细粒度的序列标注模型来进一步消歧。

4）对齐长文本召回：经过词表匹配与词义消歧后，由于现有本体库并没有涵盖concept中所有的词汇，因此我们需要tagging未标识的term，并识别出相应的类型，可以回流本体库。一种可行的方式就是利用大量电商领域的长文本句子，将concept远程对齐到长文本来进行序列标注，从而将未标识的term召回。

认知图谱中的边

知识图谱的关系是机器能够理解知识的关键。关系类型由头尾节点类型决定，节点可以是vocabulary、concept、entity的任意一种。目前我们定义了19中关系类型，并用三元组表示所有节点之间的关系。这些关系包括“is_related_to（相关）”、“isA（是一种）“、”has_instance（有实例）“、”is_part_of（是一部分）“等。这里重点介绍对电商场景用途最大的两种关系：

concept-isA-concept

例子：波西米亚连衣裙 isA 连衣裙。

电商需求大部分是品类需求，对品类需求的语义表达至关重要。isA关系使得我们的concept从偏平的结构变为图的结构，对机器理解语义非常重要。通常，isA关系的构建包含两个步骤：

在大规模文本语料中抽取isA关系，这里主要包括模板匹配（pattern-based）和基于向量表示的isA关系预测（distributional）
在第一步抽取得到的isA关系集合中构建层次结构，例如去重，消歧，去环等清洗工作以及补充更细粒度的isA关系。

而在电商认知图谱构建的特殊场景中，isA关系构建的主要难点在于：

电商是一个垂直领域，尤其在淘宝这样一个"只有你想不到，没有淘宝买不到"的平台，涉及的品类五花八门，有不少品类词相对冷门但又十分重要。
电商相关的文本语料稀缺，品类词在语料中的共现非常稀疏，给抽取带来了极大的难度。针对这些难点，我们正在着手设计一套人工+算法不断迭代优化的active learning流程，希望为后续的concept理解和推理应用提供可靠的支持。

concept-is_related_to-item

在现有电商环境下，构建概念和商品之间的is_related_to关系也会面临诸多挑战：概念过短、商品标题堆叠、无关词语、商品属性错误、商品图文不符等，这些会造成匹配错误或者带来歧义。

针对上述问题我们采用的整体方案流程如下：首先使用文本匹配/i2i/语义模型的方式进行将concept与item （title、描述）进行语义匹配，然后会根据concept到category分数进行校准，再经过消歧后，最终会根据概念间关系进行商品的合并。下图是深度语义匹配模型的一个示意：

完整的大图

讲到这里，电商认知图谱的大图也呼之欲出了：

如上图所示，完整的认知图谱包含以下几个部分：

Concept：表达用户需求的最重要的语义节点。
Ontology：一个为电商设计的知识图谱的分类体系、schema，通过与concept的连接形成最终的认知图谱，可以融合外部知识图谱数据，引入电商中很难直接挖掘到的常识。
Relation：我们定义了十几类关系，用于描述不同节点之间的语义，是机器理解语义的关键。
Item：基于图谱构建大规模的concept、vocabulary和relation，可以更加精确的理解商品。
User：基于图谱构建大规模的concept、vocabulary和item attributes，可以更加精准的理解用户需求、推理用户需求。

应用

显式应用

电商认知图谱现已在淘宝搜索推荐等多个产品落地应用，主要的产品形式是以concept为载体的主题卡片，如首页猜你喜欢瀑布流中的”购物百科“：

宝贝详情页中的场景推荐：

隐式应用

通过电商认知图谱提供的以concept为核心的点、边关系数据，为搜索和推荐算法增加了新的信息粒度和信息结构，会带来更大的想象空间，可以更好地满足多样的用户需求。

同时，很多新的基于认知图谱应用的课题我们还在进行中，如：

可解释推荐
Knowledge Graph Embedding
推理式推荐

总结和展望

认知图谱的建设需要耗费大量的资源，涉及领域广泛，内容繁杂，离不开算法、工程、运营、以及大量众包/外包资源的帮助。本文只是浅显地总结了从算法工程师的角度来讲述的认知图谱构建，很多模块仍在探索和优化中。

我们相信，以更好地认知用户需求为目标的电商认知图谱，将助力搜索推荐等从基于行为的方式迈向基于行为与语义融合的认知智能时代，将是平台生态稳定和日益进步的重要基础。

阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结，内容同步于微信公众号“阿里技术”。

产业认知图谱阿里巴巴电商判别模型语言模型特征抽取知识图谱命名实体识别

相关技术

机器学习物体识别深度学习人脸识别图像分割

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

词义消歧技术

在计算机语言学，词义消歧(WSD) 是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象，消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。

来源：维基百科

判别模型技术

在机器学习领域，有一种分类方法将模型分为判别模型和生成模型（generative model）两种。判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法，是一种基于概率理论的方法。已知输入变量x，判别模型通过构建条件概率P（y|x）分布预测结果，或试图直接从输入x的空间学习映射到标签{0,1}（如感知器算法）的函数。生成模型则是考虑x与y之间的联合分布。在实际应用中判别模型非常常见，如：逻辑回归（logistic regression），支持向量机（support vector machine），提升方法（Boosting），条件随机场（conditional random fields），神经网络（neural network），随机森林（random forests）典型的生成模型则包括：高斯混合模型（Gaussian Mixture Model），隐马尔科夫模型（hidden markov model），简单贝叶斯（naive Bayes）等。不难看出两者的区别。

来源：Wikipedia

剪枝技术

剪枝顾名思义，就是删去一些不重要的节点，来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用，如：决策树，神经网络，搜索算法,数据库的设计等。在决策树和神经网络中，剪枝可以有效缓解过拟合问题并减小计算复杂度；在搜索算法中，可以减小搜索范围，提高搜索效率。

来源：Wikipedia

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

命名实体识别技术

命名实体识别（NER）是信息提取（Information Extraction）的一个子任务，主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别，如在招聘信息中提取具体招聘公司、岗位和工作地点的信息，并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注，根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此，命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督（supervised）、半监督（semi-supervised）和无监督（unsupervised）三类。有监督学习包括隐形马科夫模型（HMM）、决策树、最大熵模型（ME）、支持向量机（SVM）和条件随机场（CRF）。这些方法主要是读取注释语料库，记忆实例并进行学习，根据这些例子的特征生成针对某一种实例的识别规则。

来源：David, N. & Satoshi, S. (2007). A survey of named entity recognition and classification

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

特征抽取技术

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

ELMo技术

ELMO 是“Embedding from Language Models”的简称， ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练；第二个阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

来源：机器之心

本体技术

在计算机科学和信息科学中，本体包括表示、正式命名和定义概念，数据，实体之间的类别，属性和关系，并在一个，多个或所有域实例中。

来源：wiki