随着金融科技的深入发展,在提高风控技术深度的同时,技术所能覆盖的广度也愈加被金融机构看重。面对移动互联网带来的海量数据,如何有效应用不同维度、不同结构的数据,也成为大多数技术公司重点关注的领域。
氪信拥有服务大型金融机构的丰富行业经验,在将技术融于金融场景的过程中,我们发现很多信息丰富度极高的数据并不能被结构化的特征提取方式所抽取——比如业务中留存的客服语音,除了用户行为信息数据,也包含了大量能够识别用户信贷风险的信息。
在传统金融机构中,对这部分信息的利用只能依赖于业务经验丰富的客服人员、业务人员的感性分析,但无法对这样非结构化的数据进行定量的特征抽取。氪信在与客户深入交流并且深度挖掘了这部分数据后,提出了X-Encoder作为特征提取框架,量化抽取交互式问答文本中隐含的用户信贷风险特征。
自然语言处理任务通常较为复杂,而在客服语音这样的交互式文本中,客服与用户之间动态的语意变化,更是使得自然语言处理任务的复杂度呈指数级上升。工业界、学术界的大牛们因而提出了各种各样基于机器学习、深度学习的技术,旨在降低交互式文本的复杂度。
X-Encoder是基于很多工业界与学术界的尝试,删繁就简,利用卷积神经网络,借鉴自编码的网络结构(如下图),通过客服人员、用户双方的语音文本作为网络结构的输入输出进行交互训练。输入文本经过在全量文本上训练的word2vec转换,降维成较低维度、信息密度更高的矩阵,并通过训练编码器和解码器、拟合输出文本的word2vec矩阵,使得中间层能够更好地表达由输入至输出的语意转换逻辑。
X-Encoder作为一个交互式文本的特征提取方式,从稳定性和容错性的角度,借鉴了业务人员的感性思路,从整体的文本用词、句法层面,判断用户的信贷风险,弱化了客服人员与用户在互动的过程中语意发生的过为细微的偏移。这基于自编码网络结构的魅力——在无法评估中间层特征提取质量的时候,将特征的质量问题转化为解码后的输出质量,使得整个网络在逻辑上具有连通性。
同时,为了保证交互双方语意信息提取的全面性,我们通过构造两个网络并交换输入输出的方式,从客服人员和用户的角度,分别提取压缩后的语意。在训练好网络结构后,我们分别从两个网络中抽取中间层特征向量作为文本的表征向量进行后续建模。
对于X-Encoder的特征评估,我们比对了多种特征提取方式与X-Encoder提取特征的信息度(如下图)。
利用人工经验提取文本内容的特征iv量级在0.1左右,方式略强于通过暴力LDA提取文本信息,但这两种方法都远远低于利用X-Encoder构建的深度学习特征提取框架。
这样的信息度对比也能体现在固定测试集的多特征集评估结果:基于X-Encoder的深度学习框架所提取的特征,在单独进行催收模型训练时可在外推集上达到0.311的ks,效果远超于人工特征+LDA特征的0.201的模型ks。
我们通过大量实验发现,从长远角度看,利用先进的技术进行文本非结构化特征提取,可以显著补充业务人员的经验特征,提升效率和效果。在人工智能迅速发展的今天,相比于希望利用人工智能解决一切问题,我们更关切的是如何利用技术释放不必要的资源负担。