Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

e成科技

e成科技人岗匹配中的匹配模型

随着网络招聘的发展与壮大,网聘渠道积攒着数亿份个人简历以及上千万份企业招聘信息。如何将这些简历和岗位进行精准匹配是各大招聘平台面临的重大挑战。

  • 问题描述

在人岗匹配中,JD文档由多句工作描述和岗位要求组成,CV文档主要由求职者的工作经历组成。传统人岗匹配中通过对求职者简历的工作经历文本和JD岗位信息进行文本挖掘,两者的技能和能力是否契合作为判断JD和CV是否匹配的重要依据。早期的人岗匹配版本基于term重要性,bm25以及职能标签等信息做简单的匹配模型,但是这些方法很难挖掘特征与特征之间的关系以及潜在的信息交互特征,难以表达完整的岗位(JD)和简历(CV)的语义信息。鉴于此,本文提出了基于LSTM+double Attention网络的语义匹配模型[1]。

  • 模型介绍

句子相似度计算是自然语言处理中重要而又基础的研究工作。例如:在对话系统中,用于查找最可能的答案;在文档检索中,用于查找最为相似的文档;在双句关系判断任务中,用于判断两个句子之间关系的类别等。目前常见的句子相似度计算方法大体上可以分为三类:

(1)基于表层信息的相似度计算,其主要是通过句子中词性相似度、词序相似度和句长相似度等信息来综合计算两个句子的相似度[2]。

(2)基于句子结构的相似度计算。这种方法主要考查量句子在结构上的相似性,如基于本体机构、词类串结构、词性及词性依存关系等进行相似度计算[3]。

(3)基于词向量的语义表征来计算相似度。其通过垂直领域的文本数据训练得到word embedding, 借助词向量得到句子表征,然后计算cosine距离[4]。

JD和CV的语义相似度计算,其本质是双文档关系判断任务或是长文本相似度匹配问题,和句子相似度计算不同之处在于文档是由多个句子组成。句子表征是文档表征的基础,本文的句子表征学习通过LSTM网络[5-6]学习到每个词或字语义表示,同时通过attention 机制[7-8]学习到每个词语义的权重。长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更长的序列中有更好的表现。attention 机制的作用是给不同的词或字分配不同的注意力,比如“高级java开发工程师”,显然“java”这个词更重要,需要分配更多的注意力,相反,如果对其进行简单的语义叠加,那么重要词的信息就会被抑制,从而会丢掉很多关键的语义特征,造成信息损失。

得到句子的语义表征后,同样可以利用attention机制得到文档的语义表征,通过对JD和CV 的数据分析发现,其实JD和CV是否相关,其重要特征多集中在title和内容的几个句子当中,并不会分布在所有的句子当中,也就是说捕获那些含有重要语义特征的句子是关键,这也是为何要在句子层面引入attention机制的原因。

目的:

判断JD和CV 的语义相关程度,分为0:不相关,1:内容相关,2:内容和领域都相关。

技术方案:LSTM+double Attention 孪生网络模型,如图一所示。

1 捕获关键句子和关键词, double+attention 机制。

2 利用LSTM模型提取句子的语义特征。

图一↑

实现流程:

1 构建训练数据(JD, CV)对,构造合理负样本(JD, CV)对。

2 对JD和CV进行分句,以句子为单位进行分词,去除停用词,JD和CV的title进行char cut操作,id化。

3 加载pre_trained embedding,通过embedding layer 得到 word embedding。

4 通过LSTM+attention 得到 sentence vector。

5 得到JD和CV的sentence vector后,继续加一层attention layer,得到document vector。

6 全连接+softmax, 得到分类结果。

  • 结果分析

模型经过训练后,在测试集上分类准确率为89.36%,f1 score为83.96%,如果不考虑领域是否相关,即语义相关和不相关,二分类准确率为96.39%,f1 score为96.25%。稍加改造在实际应用也有不错效果。图二是一个“自动驾驶深度学习算法工程师”的岗位信息及推荐系统推荐的结果展示,可以发现推荐结果排名靠前的CV其内容和领域都是和JD语义很相关的,这也验证了模型的效果。

图二↑

图三是JD和CV的sentence attention的可视化热力图,左侧是JD sentence attention热力图,右侧是CV sentence attention热力图,颜色越深表明句子的权重越高。可以看出JD和CV的title的句子权重比较高,其实在一般的JD和CV中title都是权重比较高的部分,但是像:“技术经理”,“研发小微主”,“专员”,“工程师”等JD case,其title 句子权重比较小,重要的句子要在描述内容中寻找。从图三中可以看出,JD, CV内容中和“算法”,“自动驾驶”相关的句子权重都比较高,说明sentence level 的attention机制是符合预期的。

图三↑

图四↑

图四是JD, CV 句子层面的char level或word level的attention可视化热力图 ,其中只展示了部分重要句子中词的权重分布,颜色越深,表示字或词的权重越高。通过简单的计算term weight = sentence_attention*char_attention 即可得到top words,展示如下:

JD top words: [(深度学习, 20.822678), (自动驾驶, 12.59064), (三维点云, 6.618764), (环境感知, 5.927), (cloud, 3.1689138), (算法, 3.0718648), (模块, 2.660974), (计算机视觉, 2.4465554), (立体视觉, 2.443054), (网络结构设计, 2.0044193), (物体检测, 1.897428)]

CV top words:[(算法, 17.713745), (深度学习, 10.472152), (研究, 9.460823), (惯导, 3.709963), (导航算法, 2.04389), (嵌入式, 1.4608734), (无人驾驶, 1.1148125), (总体设计, 0.6105186), (gps, 0.5366095)]

char level attention 机制的作用就是找出句子中的关键语义特征,通过热力图可以发现,在重要的句子中相关的关键词权重确实比较高。

  • 总结

句子相似度计算在自然语言处理领域中是一项基础性研究工作,并衍生出文档相似度计算任务。本文对前人的研究进行了总结和归类,并提出了LSTM+double attention孪生网络模型,通过对结果的分析,表明了本方法在人岗匹配中对候选人的简历和企业招聘岗位进行精准匹配的有效性,有助于提升人岗匹配推荐系统的效果。

参考文献:

[1] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]//Proceedings of the 22nd ACM international conference on Information & Knowledge Management. ACM, 2013: 2333-2338.

[2] Zhang Lin, Hu Jie. Sentence similarity computing for FAQ question answering system[J]. Journal of Zhengzhou University: Natural Science Edition, 2010, 42(1): 57-61.

[3] Lan Yanling, Chen Jianchao. Chinese sentence structures similarity computation based on POS and POS dependency[J]. Computer Engineering, 2011, 37(10): 47-49.

[4] Chen Lisha. The research and implementation on WordNetbased sentence similarity of automatic question answering system[D]. Guangzhou: South China University of Technology, 2014.

[5] Sundermeyer M, Schlüter R, Ney H. LSTM neural networks for language modeling[C]//Thirteenth annual conference of the international speech communication association. 2012.

[6] Karpathy A, Joulin A, Fei-Fei L F. Deep fragment embeddings for bidirectional image sentence mapping[C]//Advances in neural information processing systems. 2014: 1889-1897.

[7] Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.

[8] Yin W, Schütze H, Xiang B, et al. Abcnn: Attention-based convolutional neural network for modeling sentence pairs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 259-272.

e成科技
e成科技

e成科技作为助力人才战略成功的AI平台, 开创性地将AI技术与人才战略升级场景深度结合,并基于画像和Bot(智能对话机器人),形成AI咨询、 AI招聘和AI产业三大支柱产品线,为企业和政府提供智能数字化决策解决方案。 e成科技始终秉持“打造人与任务新型连接平台” 的愿景,将“科技驱动人才升级” 作为自身使命不懈奋斗。

理论e成科技文本挖掘LSTM语义匹配句子相似度模型自然语言处理
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

推荐文章
暂无评论
暂无评论~