画像是什么?
如今,为了提高客户体验和运营效率,画像早已被应用在各行各业。金融企业是最早开始使用用户画像的行业,在人力资本领域,人才/岗位画像的应用大大提升了HR的工作效率和质量,是人力资本数字化的重要入口和核心要素。所谓人才/岗位画像,即是基于企业招聘的显性的职位描述和隐形的内在潜质共同组成的用户画像(以下简称“画像”)。
业界有一套较为成熟的画像构建方法,为了让画像成为可普遍使用的基础服务,需要对画像的字段进行数值化处理。其中结构化数据比较容易进行数值编码(例如:性别/年龄/工作年限等),而非结构化数据(例如工作经历/职能/技能等)多数为文本类型处理难度较高。对于非结构化数据,生成具备语义含义的Embedding是业界较为广泛使用的方案。
在画像构建过程中,对于结构化数据业界已经积累了大量的成熟有效的方案。然而非结构化数据(例如文本类型)包含了更全面和深度的用户潜在信息,目前通过词向量加权平均依旧是主流使用的处理方法。
此类方法存在一些缺陷:
2.直接加权平均的方法,容易掩盖掉重要的信息,且权重不好定义。
经过优化的人才/岗位画像,在数字化招聘、人岗匹配、人才盘点、薪酬预测等多个下游业务场景中均取得显著的优化提升。
部分场景举例
人才选拔:通过人才画像分析,使人才供给与业务发展速度高度匹配,优化人才队伍配置效率,降低人才流失率;
人才任用:通过岗位画像和人才画像的分析与匹配度分析,实现人才和岗位最优配置,使优秀人才能充分发挥能力与主观能动性,提高人力资本效率;
人才盘点:利用大数据分析及AI技术,全面挖掘人才素质,评估人才潜力,动态校准人才画像,即时展现人才能力、绩效、潜力等分布情况,为人才识别、发展、配置提供价值,激活组织与人才发展;
薪酬预测:根据人才画像和岗位画像,结合行业岗位知识,分析人才/候选人技能及发展水平,预测候选人及企业未来薪酬水平;
接下来,为大家介绍我们在有关领域的最新方案以及应用成果。
ELMoVS Word2Vec,更优的特征提取器
Word2Vec是近几年非常流行的Word Eembedding提取模型。模型通过预先构建的词表将输入语句中某单词前、后所有词语编码为多个one-hot向量传入模型,随后通过一个共享的参数矩阵将这些向量映射到隐藏层,最后使用softmax将隐藏层的输出转化为词表中每个单词的概率作为输出,其中概率最高的单词即为最终预测结果。经过充分训练后,词表中每个单词的语义信息已经充分“嵌入”了用于映射输入层和隐藏层的参数矩阵中。使用时只需用单词的one-hot向量和参数矩阵相乘就可以得到对应的Word Embedding。
这样的网络结构为Word2Vec带来了一个严重的问题,它无法为语言中常见的多义词提取Embedding。由于同一个单词在参数矩阵中只占据一个向量,网络只能将多义词的不同语义信息全部编码到相同的向量中,反而降低了这些词向量的表达能力。此外,Word2Vec只采用了一个线性隐藏层,特征提取能力较弱,对Embedding的表现也有很大的影响。
Attention机制是近几年提出的新型特征提取器,在NLP领域的表现效果远超以往使用的卷积神经网络和LSTM等技术。Bert的优异表现正是建立在这一机制的基础上,多层Self-Attention单元构成的大型网络和巧妙设计的无监督训练方式使模型可以利用丰富的自由文本进行训练,从中提取多层次的语言特征。
e成科技的应用:知识表征模型
我们的知识表征模型(以下简称“模型”)同样使用了多层Self-Attention单元作为基本的特征提取器,尝试从e成科技丰富的数据中挖掘出可描述职能和技能各自特征及其相关关系的Embedding。
为了训练这样的模型,我们借鉴并调整了Bert的设计思路,建立一套符合我们诉求的模型结构。模型将e成科技知识图谱中职能和技能的实体名称作为Embedding提取粒度,端到端地进行特征提取,避免字粒度模型提取特征后还需将其重新组合成词语的麻烦,也减少了模型的信息损失。
模型训练时,我们使用职能、技能前后拼接的数据结构,其中来自相同CV数据的职能、技能作为正样本,来自相似行业中不同CV数据的职能、技能作为负样本。正负样本数量比例为1:1。为了防止模型仅抽取职能对技能的依赖关系,我们在将职能和技能调换顺序后的数据加入样本中同时训练,以提取双向的依赖关系。
经过充分训练后,模型可以提供多样化的使用方式。模型最后一层输出和输入序列等长的Embedding序列,其中第一个Embedding包含整条数据的特征,之后每个Embedding与输入序列的词语一一对应,分别是每个词语的动态特征。将序列头Embedding接入下游任务网络中可以对模型进行fine-tune,可进一步用于不同的细分领域任务。同时,其余Embedding也可以直接作为词语特征使用。考虑到模型结构复杂,运算时间较长,针对某些性能要求较高的业务场景,可以将模型输入层对应的Embedding作为静态词向量使用,通过查表方式大大简化运算流程。
薪酬预测任务中,每个模型需要提取候选人的技能Embedding作为下游任务的参数,辅助判断候选人的薪酬水平。实验中模型之间互不影响,且使用相同的下游薪酬预测模型。结果中可以看到,我们的知识技能表达模型对下游任务各项指标均有5%左右的提升。而人岗匹配任务中,我们将岗位和候选人各自技能Embedding之和作为它们的特征向量,通过特征向量相似度判断候选人和岗位是否匹配。评估结果显示,我们的模型表现非常出众,提升效果明显。
测试过程中,模型可以将大部分被覆盖的词语还原为正确结果,下面是从测试样例中抽取的部分未正确还原的情况。可以看到即使还原失败,模型也能够预测到行业内与正确结果相似的答案。