”人岗匹配“是企业人力资源管理的核心问题,更是所有HR追求的目标。毫不夸张地说,”人岗匹配“是人力资源的起点,也是人力资源的核心目标之一。本质上,企业和个人是利益共同体,只有使得组织利益和个体价值得到统一,做到“岗得其人”、“人适其岗”,根据人不同的素质和个性将其安排在最合适的岗位上,做到“人尽其才,物尽其用”,才能使人才发挥最大价值,同时激活组织。以前,在千百万份简历中筛选人才,是HR工作中“解不开的劫”,每天花费大量的时间和精力对优秀简历和职位信息人工做匹配,不仅消耗着HR的积极性,往往结果也不尽如人意,筛不到合适的人才,难以满足业务部门的需求。现在,数字经济时代的新技术给HR带来了更多可能,AI技术将助力HR实现智能人岗匹配、大大提升人岗匹配效率与准确率,将HR从机械、琐碎的招聘工作中解放出来。
在人岗匹配的任务中存在HR、职位(JD)、简历(CV)三种实体,人岗推荐系统中由HR发布职位,根据发布职位来推荐简历,该场景中需要优化推荐的准确率、召回率,提升HR更高的工作效率,提升岗位和简历的匹配度来减少招聘人才的成本。
在经典的机器学习排序模型中通常分为两种:复杂的人工特征工程+简单的模型,简单的人工特征+复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。
以JD和CV对为背景,该场景为经典的机器学习排序问题,目标在于预测JD和CV是否匹配,数据集的采集则是来自我司产品ATS平台,HR从系统根据JD推荐的CV来进行选择,符合要求将要走面试程序的则标为1,否则标为0。
2.1特征介绍>
常见的JD如下图1所示,其中包含格式化离散数据和整段文本数据,从整段文本数据获取招聘意图是提取JD特征的重点难点。
为了更好的解决该问题,我们分别引入知识图谱(KG)方法和自然语言处理(NLP)方法,其中KG负责去充分提取文本中实体的关系和联系,NLP则更好的获取JD本文和CV文本相似性信息。因涉及个人隐私此处不展示CV信息。
图1 JD示例
在以JD和CV对是否匹配的背景下,我们将
特征主要分为以下几类:
2.2特征处理>
在获取JD和CV的基础特征之后我们主要将特征主要分为四种类型:ID离散特征:比如UID,职能ID,公司ID,行业ID,技能ID,专业ID等。
硬性离散类特征:除了性别,年龄,工作地点等基础类型特征,还包含有知识图谱提取的实体之间的关系特征比如学校是否匹配,职能(工作职位对应能力)是否匹配等,此处成为match特征。
连续性特征:除薪资等,还包含有知识图谱提取的实体之间的graph embedding的vector相似性值,此处成为IDsim特征。
Emdedding特征:包括了ID离散特征的vector,该vector有知识图谱的graph embedding方法产生(如 DeepWalk,LINE等 )。文本embedding特征,该特征以JD和CV对的方式输入DSSM模型产生vector。
在此基础上我们还加入了相应统计特征,统计特征主要有强特征的共现特征以及强特征之间的多样性统计。特征之间的应用以及组合根据模型不同而展开讨论,不同模型对不同特征的表征能力不同。在模型方面主要可以分为两个总方向,分别是非线性树和deep模型的探索,在探索上主要是根据不同模型的性质进行特征工程。我们主要以gbdt为主的树模型展开特征工程的探索,gbdt的实现以xgboost和lgb为主。gbdt模型结构如图2所示,gbdt为一个boosting模型,通过叠加多个弱模型来提升拟合能力,根据xgboost模型的优缺点我们可以充分挖掘可用特征。我们再次整理上一节可用特征,主要有ID类特征(职能、行业、公司、技能、专业等);基本信息匹配特征(年龄,工作经验,学校等)该特征为二分类特征,以JD和CV的ID类特征是否匹配来构建二分类特征(如职能是否匹配等称为match特征),将这两类统称为硬性离散类特征;JD和CV类的graph embedding产生vector对计算余弦值作为连续特征(称为IDsim特征),加上文本相似性特征(称为textsim特征)和薪资组成连续特征。值得注意的是文本特征主要根据JD和CV的格式分为title 和description两个部分来挖掘。考虑到xgboost处理连续值的缺点我们将连续值进行分桶,桶数可由某维特征的分布来确定。将ID类特征也一同加入到树模型中,这是考虑到组合特征的业务意义。分析特征重要性之后,我们根据特征现象去做统计特征,比如出现频率统计,特征共现统计,多维特征多样性统计等操作。相对应的title和description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。总之实验证明ID类特征,二分类特征,连续特征离散化,统计类特征,以及embedding产生的vector的交叉特征都会给模型带来正向收益。深度模型对比树模型更加突出了非线性的拟合能力,以及高阶特征的交叉融合功能。但是带来的弊端就是模型的可解释性变差,根据结果反向特征工程变得困难起来。我们在JD和CV匹配场景下分别使用了DNN,Wide&Deep,DeepFM,等模型尝试。同时并借鉴了PNN、DCN、DLRM和DKN网络原理正在适配适合现有数据类型的模型。本节主要简要介绍DNN和Wide&Deep,DeepFM的使用,再阐述对现有数据的思考。以YouTube的经典NN为开端(如图3,引用自相应论文),现有的数据下如何去使用DNN达到收益正是我们所考虑的。在现有的特征中除了上文提到的二分类特征,embedding相似性等特征之外我们包含知识图谱抽取的实体embedding和文本embedding。文本embedding主要有DSSM模型产生,双塔模型的输入分别为JD的title、description,CV工作经验的title、description,双塔输出为JD和CV是否匹配。我们以双塔的每坐塔的最后输出vector作为JD和CV的表征。本着论文中提到的原理我们去除了树模型中ID类特征,换成了ID对应的vector,保留原有的二分类和连续特征,另外在加入了文本embedding特征,最后的结果不是很乐观。因此分析原因可能是某些特征缺失ID(比如CV职能等)初始化为0导致,还存在的原因可能是由于ID vector的知识结构和文本embedding知识结构不同导致,此处知识结构可以理解为不同训练任务下的embedding空间结构。
经历了DNN尝试没带来正向收益我们偏向于以线性和深度非线性结合的Wide&Deep结构(如图4)进行适配,此时我们考虑到DNN的实验产生的问题。
我们并未直接加入由
知识图谱产生的ID embedding和由文本DSSM模型产生的文本embedding的结果,我们采用ID类特征进行随机初始化的embedding在连接match,IDsim和textsim等特征作为deep的输入,将match,IDsim,textsim连接作为wide的输入。以输入ID类特征,match类特征,IDsim特征,textsim的xgboost模型作为wide&deep的比较模型,实验证明wide&deep模型略优于xgboost模型,但是如果对此基础上xgboost做统计特征则可超过wide&deep模型。以上可得deep模型非线性表征能力还是略微的比xgboost能力强。
经过wide&deep模型的实验基础上我们想更加利用交叉特征的功能,因此我们尝试了deepFM模型,deepFM模型结构图如图5所示(引用自deepFM相应论文),deepFM将wide&deep的wide部分替换成了FM机制提升了模型对特征的交叉组合能力。根据此模型特征我们将UID,图谱产生的ID类特征等稀疏特征输入FM部分,match特征、IDsim特征以及textsim特征为dense特征输入。结果很是令人欢喜,达到了以上实验的最优值,可能这就是深度学习带来的魅力吧。
在喜悦的同时,我们想现有的ID初始化embedding都能产生如此大的魅力,利用graph embedding岂不更加喜人。在DeepFM模型输入基础上我们将ID的graph embedding也加入到模型的dense feature部分,然而实验证明并没有想当然的好,甚至产生了负作用。但至少证明了特征交叉能带来收益,至于graph embedding的加入为啥效果不好却是值得思考和探索的问题。
经过上面的探索我们获取了一些经验,例如交叉特征有用,用embedding产生的向量两两相似性计算对树模型有用,因此我们本着上面积累的经验进行了人工构建交叉特征作为xgboost模型的输入。在此基础上加入统计特征,这波操作再次给我们带来了0.5%的收益。最后总结下模型方面的探索结果,以上实验说明我们还没有充分利用graph embedding 和由DSSM产出的文本embedding,也证明了embedding内涵的巨大作用,后期我们将加大力度去挖掘该部分的内容。现阶段成果和未来展望
4.1现阶段成果>
经过上文特征和模型的探索在此我们分方案来展示我们的实验结果,分别包含以下方案:
方案1:ID 类特征+match特征+IDsim特征+textsim特征+gbdt
方案2:ID vector特征+match特征+IDsim特征+text vector特征+dnn
方案3:ID 类特征(随机初始化embedding)+match特征+IDsim特征+textsim特征+deepFM
方案4:ID类特征+match特征+IDsim特征+ID vector inner(交叉)特征+textsim特征+统计特征+gbdt
主要以这四种有效的递进关系来展示,其中多种的组合尝试就不一一列举了。效果如表格1中,我们的评价指标主要为正例的准确率,召回率,F1值和总的AUC值作为评价指标。
表1以上结果都为数据清洗特征工程后结果,本次数据量JD和CV对大致为86万,其中负例和正例比大致为7:1,我们将其随机分成8:1:1其中8成训练集、1成训练集和1成测试集。
4.2未来展望>
特征为王说法不无道理,在加入深度学习探索时应该思考数据质量与数据量是否能支持,在数据质量和量的保证下我们相信深度学习带来的魅力是巨大的。最近由Facebook出品的DLRM处理异构embedding的能力使我们跃跃欲试。另外由微软出品的DKN网络也证明了graph embedding所隐藏的信息量对推荐效果有很大帮助。文献5中结合知识图谱在电商环境下的推荐也使得我们相信充分挖掘embedding信息可以带来不错的收益。
作为以技术为驱动的企业,e成科技在AI技术的基础上,创新性地提出基于人才画像和岗位画像的匹配,为人岗匹配带来革命性变革。文献引用:
[1] Chen T , Guestrin C . XGBoost: A Scalable Tree BoostingSystem[J]. 2016.[2] Covington P, AdamsJ, Sargin E, et al. Deep Neural Networks for YouTube Recommendations[C].conference on recommender systems, 2016: 191-198.[3] Cheng H, Koc L, Harmsen J, et al. Wide& Deep Learning for Recommender Systems[C]. conference on recommendersystems, 2016: 7-10.[4] Guo H, Tang R, Ye Y, et al. DeepFM: AFactorization-Machine based Neural Network for CTR Prediction[J]. arXiv:Information Retrieval, 2017.[5] Wang J, Huang P, Zhao H, et al.Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C].knowledge discovery and data mining, 2018: 839-848.