如今的移动设备金融产品app,除与app本身的交互外,也越来越关注用户本身的日常活动信息。其中所在地理位置,往往能反映用户自身很多有用信息,比如是个私家车用户,或是个惯用公共交通系统的用户;亦或说是在世界各地穿梭的商务人士,还是只在一座城市奔波的老司机。
通过推断用户的行为背景,以及习惯停留的位置分类,可以抓住用户的潜在风险特征。但是,此类地理位置信息(如经纬度),面临存在噪音,稀疏,有确实地理信息的数据少(一般需要用户主动check in)等特点,相对简单的利用方法有限。通常只能依靠使用人工设计的特征,缺点是非常耗时并且需要特定领域的知识。而即便具有专业领域知识,也很难捕获适用于大部分用户背景的所有相关特征。
氪学家们因此而提出使用深度学习+人工特征框架,集成于用户位置分析。
深度学习框架主要参考DeepCity(Pang,2017)与DeepWalk(Perozzi,2014)。目标是使用unsupervised embeddings来保留用户信息以及用户和位置的相邻信息。DeepWalk可以对上下文做类似graph2vec的unsupervised embeddings:图的节点对应单词,通过在图上随机游走生成语句,再借鉴Word2vec算法下的skip-gram获得unsupervised embeddings。类似的,可以将用户与具体位置基于二分图组织,图上的节点对应用户(u)或具体位置(v),在构建好的图上(有目标指向的)随机游走。
例如现在有用户1(u1)和用户2(u2),另有地点v1(Supermarket),v2(Office),v3(Sandwick Shop),u1已知在地点v1 check in 5次,在v2 check in 5次;u2在v2 check in 4次,在v3check in 1次,若by用户赋予权重,v1与v2对u1的权重则都为0.5,v2与v3对u2的权重为0.8,0.2。若by 地点则分别是v1u1 = 1、v2u1 = 0.56、v2u2 = 0.44、v3u2 = 1,由此二分图构建完成。
Figure 1. 用户与已知check_in的位置的关系(右:次数,中:by用户加权,左:by位置加权)
由于大部分获取的数据没有确切位置信息(大多location数据仅有经纬度这类信息),并不能直接处理成特征或放入深度学习框架,需要采取对经纬度作Geohashes 编码,应用osm(OpenStreetMap) ,对graph2vec训练结果降维获得信息更密集的矩阵并加工成特征。在非深度框架特征上,氪信一方面会对经纬度聚类,以专家经验提取聚类特征,一方面匹配各类语料库,如房价,推测该用户的经济水平这类强金融特征,对深度学习特征与人工特征在模型层集成后,最后套用一层逻辑回归模型作为输出。
通过上述特征框架,在寻找地理位置数据的潜藏信息上,专业领域知识和机器自主挖掘能力发挥了各自的长处,前者负责抓住最基础的信息,后者负责高效无风险的尝试各种信息组合,我们认为如此才能有效的做到用户的背景分析以及风险预测。