Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

e成科技AI算法团队陈嘉钦作者

基于bert架构的精准知识表征模型

俗话说“人才画像画得好,HR招聘快不少”。人才画像是现在企业人才招聘和人才管理的核心,并应用在人岗匹配、薪酬预测、人才盘点等诸多场景。数字化时代,画像成为人才招聘和人才管理的入口,通过上百个维度进行提炼、总结进行人才全方位刻画。

画像是什么?

“画像”的出现,得益于大数据、云计算人工智能等新技术的飞速发展。用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。

如今,为了提高客户体验和运营效率,画像早已被应用在各行各业。金融企业是最早开始使用用户画像的行业,在人力资本领域,人才/岗位画像的应用大大提升了HR的工作效率和质量,是人力资本数字化的重要入口和核心要素。所谓人才/岗位画像,即是基于企业招聘的显性的职位描述和隐形的内在潜质共同组成的用户画像(以下简称“画像”)。

△一张画像,没有读不懂的人才

构建画像的核心工作,主要是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘,给用户贴“标签”而“标签”是能表示用户某一维度特征的标识

业界有一套较为成熟的画像构建方法,为了让画像成为可普遍使用的基础服务,需要对画像的字段进行数值化处理。其中结构化数据比较容易进行数值编码(例如:性别/年龄/工作年限等),而非结构化数据(例如工作经历/职能/技能等)多数为文本类型处理难度较高。对于非结构化数据,生成具备语义含义的Embedding是业界较为广泛使用的方案。

职能/技能可以统称为用户的知识体系,即使每一个职能/技能生成了具备语义含义的Embedding,如何通过聚合生成用户整个知识体系的数值表达并尽可能保留文本自身的信息,依旧是亟待解决的问题

在画像构建过程中,对于结构化数据业界已经积累了大量的成熟有效的方案。然而非结构化数据(例如文本类型)包含了更全面和深度的用户潜在信息,目前通过词向量加权平均依旧是主流使用的处理方法。

此类方法存在一些缺陷

1.生成的Embedding完全基于语义表达,缺失了其内在业务含义;

2.直接加权平均的方法,容易掩盖掉重要的信息,且权重不好定义。

基于此,我们针对人力资本场景,借鉴Bert的思想提出了一个新方法,能够更好地用数学的方法对人才/岗位画像进行表示。

为了让AI+数据驱动的数字化招聘更为精准智能,我们以e成科技独有的HR行业职能/技能知识图谱作为先验的业务知识,并基于海量简历和岗位描述数据(千万级),借鉴Bert的模型架构专门对画像中的知识体系相关字段(职能/技能)进行了深度优化。该方法提供的知识表征,首先包含了技能/职能的内在关系,其次通过attention的方式聚合能保证重要业务信息的不丢失。

经过优化的人才/岗位画像,在数字化招聘、人岗匹配、人才盘点、薪酬预测等多个下游业务场景中均取得显著的优化提升。

部分场景举例

  • 人才选拔:通过人才画像分析,使人才供给与业务发展速度高度匹配,优化人才队伍配置效率,降低人才流失率;

  • 人才任用:通过岗位画像和人才画像的分析与匹配度分析,实现人才和岗位最优配置,使优秀人才能充分发挥能力与主观能动性,提高人力资本效率;

  • 人才盘点:利用大数据分析及AI技术,全面挖掘人才素质,评估人才潜力,动态校准人才画像,即时展现人才能力、绩效、潜力等分布情况,为人才识别、发展、配置提供价值,激活组织与人才发展;

  • 薪酬预测:根据人才画像和岗位画像,结合行业岗位知识,分析人才/候选人技能及发展水平,预测候选人及企业未来薪酬水平;

接下来,为大家介绍我们在有关领域的最新方案以及应用成果。

ELMoVS Word2Vec,更优的特征提取器 

Word2Vec是近几年非常流行的Word Eembedding提取模型。模型通过预先构建的词表将输入语句中某单词前、后所有词语编码为多个one-hot向量传入模型,随后通过一个共享的参数矩阵将这些向量映射到隐藏层,最后使用softmax将隐藏层的输出转化为词表中每个单词的概率作为输出,其中概率最高的单词即为最终预测结果。经过充分训练后,词表中每个单词的语义信息已经充分“嵌入”了用于映射输入层和隐藏层的参数矩阵中。使用时只需用单词的one-hot向量和参数矩阵相乘就可以得到对应的Word Embedding。

这样的网络结构为Word2Vec带来了一个严重的问题,它无法为语言中常见的多义词提取Embedding。由于同一个单词在参数矩阵中只占据一个向量,网络只能将多义词的不同语义信息全部编码到相同的向量中,反而降低了这些词向量的表达能力。此外,Word2Vec只采用了一个线性隐藏层,特征提取能力较弱,对Embedding的表现也有很大的影响。

ELMo(Embedding from Language Models)模型使用与Word2Vec截然不同的方式提取Embedding,并采用更优的特征提取器,很好地解决了多义词问题,同时增强了词向量的表达能力。模型使用两层双向LSTM(Long Short Term Memory)单元作为模型中间层,其中正向LSTM顺序接受输入语句中给定单词的上文,逆向LSTM倒序接受语句中给定单词的下文。训练完成后将输入层Embedding和两层LSTM产生的Embedding加权结合后作为句中每个单词的Embedding使用。与Word2Vec查表式获取静态的Embedding不同,ELMo可以根据上下文信息动态调整词语的Embedding。多层LSTM特征提取器可以从文本中分别提取句法、语义等不同层次的信息,大大提升了词语特征的丰富程度。

Attention机制是近几年提出的新型特征提取器,在NLP领域的表现效果远超以往使用的卷积神经网络和LSTM等技术。Bert的优异表现正是建立在这一机制的基础上,多层Self-Attention单元构成的大型网络和巧妙设计的无监督训练方式使模型可以利用丰富的自由文本进行训练,从中提取多层次的语言特征。

e成科技的应用:知识表征模型

我们的知识表征模型(以下简称“模型”)同样使用了多层Self-Attention单元作为基本的特征提取器,尝试从e成科技丰富的数据中挖掘出可描述职能和技能各自特征及其相关关系的Embedding。

为了训练这样的模型,我们借鉴并调整了Bert的设计思路,建立一套符合我们诉求的模型结构。模型将e成科技知识图谱中职能和技能的实体名称作为Embedding提取粒度,端到端地进行特征提取,避免字粒度模型提取特征后还需将其重新组合成词语的麻烦,也减少了模型的信息损失。

模型训练时,我们使用职能、技能前后拼接的数据结构,其中来自相同CV数据的职能、技能作为正样本,来自相似行业中不同CV数据的职能、技能作为负样本。正负样本数量比例为1:1。为了防止模型仅抽取职能对技能的依赖关系,我们在将职能和技能调换顺序后的数据加入样本中同时训练,以提取双向的依赖关系。

经过充分训练后,模型可以提供多样化的使用方式。模型最后一层输出和输入序列等长的Embedding序列,其中第一个Embedding包含整条数据的特征,之后每个Embedding与输入序列的词语一一对应,分别是每个词语的动态特征。将序列头Embedding接入下游任务网络中可以对模型进行fine-tune,可进一步用于不同的细分领域任务。同时,其余Embedding也可以直接作为词语特征使用。考虑到模型结构复杂,运算时间较长,针对某些性能要求较高的业务场景,可以将模型输入层对应的Embedding作为静态词向量使用,通过查表方式大大简化运算流程

我们使用内部标注的薪酬预测、人岗匹配数据对不同模型进行了评估,结果如下:

薪酬预测任务中,每个模型需要提取候选人的技能Embedding作为下游任务的参数,辅助判断候选人的薪酬水平。实验中模型之间互不影响,且使用相同的下游薪酬预测模型。结果中可以看到,我们的知识技能表达模型对下游任务各项指标均有5%左右的提升。而人岗匹配任务中,我们将岗位和候选人各自技能Embedding之和作为它们的特征向量,通过特征向量相似度判断候选人和岗位是否匹配。评估结果显示,我们的模型表现非常出众,提升效果明显。

测试过程中,模型可以将大部分被覆盖的词语还原为正确结果,下面是从测试样例中抽取的部分未正确还原的情况。可以看到即使还原失败,模型也能够预测到行业内与正确结果相似的答案。

e成科技
e成科技

e成科技作为助力人才战略成功的AI平台, 开创性地将AI技术与人才战略升级场景深度结合,并基于画像和Bot(智能对话机器人),形成AI咨询、 AI招聘和AI产业三大支柱产品线,为企业和政府提供智能数字化决策解决方案。 e成科技始终秉持“打造人与任务新型连接平台” 的愿景,将“科技驱动人才升级” 作为自身使命不懈奋斗。

工程BERT
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

知识表征技术

知识表示是人工智能的一部分,它关心代理人(agent)如何在决定做什么时使用它所知道的知识, 这是一门将思考作为计算过程的研究。严格来说知识表示和知识推理是同一研究领域密切相关的两个概念,但实际上知识表示也经常用来直接指代包含推理的广义概念,因此在这里沿用后者,即知识表示等价于知识表示与推理。这是一个涉及使用符号来表示一些推定代理人(putative agent)相信的命题集合的研究领域。 但是在另一方面,我们同时不想坚持这些符号必须代表代理人相信的主张。因为实际上代理人可能相信无数的命题,但只有一部分被表示出来。 而弥合所代表的事物与所相信的事物之间的差距将成为推理(reasoning)在知识表示中所承担的责任。因此,推理一般来说是对代表一系列代理所相信的命题符号进行形式化处理,以产生新的表征。 符号需要比它们表示的命题更容易操纵,因此它们必须足够具体,以便我们可以操纵它们(移动它们,拆开它们,复制它们,串起它们) 构建新命题的表征。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

推荐文章
暂无评论
暂无评论~