黑产,大家并不陌生了。目前有超过1000万+的身份信息被滥用,超过200万+的黑产从业者,超千亿的市场规模。今天就跟着我们的嘉宾一起来看一看图分析在风控业务中的应用。
现状
与企业做活动的目的背道而驰 企业因为羊毛党的介入而产生大量的损失
猫池养卡
设备农场
身份冒用
方案
面对有规模的黑色产业链,我们要采取怎样的风控方案呢?
我们的整个业务防控流程是一个漏斗状的模式。由上至下包括:
设备识别层
快速识别层
深度识别层
模型层
决策层
模型层方案
模型层的方案主要分为两大类可解释模型和深度学习模型。
可解释模型
以决策树和逻辑回归等为方案的类规则引擎的传统机器学习模型。
优缺点主要表现在:
产生的规则可控可解释 可加入专家知识进行补充 简单易操作 对新类型欺诈缺乏检测能力,规则需要定期维护
深度学习模型
以神经网络等为方案的深度学习模型。
优缺点主要表现在:
基于历史数据可动态调整规则 在很多领域被实践证明有效,且效果好于规则引擎 大部分方法的过程不具解释性 需要大量历史数据和标签数据
不管哪种机器学习方案,其针对的都是单条的数据(在不考虑图嵌入的情况下),但当前的欺诈行为大多数都是团伙作案,所以通过图分析方法可以来识别这些欺诈团伙。
团伙识别的分析对象为复杂网络,指由数量巨大的节点和节点之间错综复杂的关系共同构成的网络结构。复杂网络的研究是现今科学研究中的一个热点,与现实中各类高复杂性系统,如的互联网、神经网、社会网络、蛋白质网、航班网的研究有密切关系。主要是区别于简单网络,如晶格网络,随机图等结构所不具备的特性。
一个图 G =(V, E) 由一些点及点之间的连线(称为边)构成,V、E分别为 G 的点集合和边集合。在图的概念中,点的空间位置,边的区直长短都无关紧要,重要的是其中有几个点以及那些点之间有边相连。
图的性质和概念有很多,我们在识别羊毛党这个场景里主要关注三个概念。一是无向网络,无向网络主要关注两个节点之间有无连通关系。
二是异构网络,如上图所示,不同节点有不同的属性。比如用户的一次行为可以包含很多属性,比如手机号、IP地址、设备信息等。我们会将一次用户请求放入图中,通过属性信息关联起来。
第三个概念是二度关联。图中如果两个节点连通,要通过多少中间节点才能到达。通过的中间节点越少,两个节点的关系越紧密,反之则关系越松散。一般来说,用传统流量的方法来进行统计都是一度的统计。比如同手机号多账号的情况。而图不同,可以做无限递归,比如同手机号关联多个账号,可以再往外扩节点,比如这些账号还有没有关联其他手机号,可以层层往外关联。
社区发现是一种常常被用于客户精准营销的无监督聚类算法,根据客户各个维度的信息,将其归并于某一特定群组,并对不同群组的客户采取差异化的营销策略。除了用于精准营销,分群算法还可以用于离群行为的检测,即,检测哪些客户的行为与同一群体的其他客户不同。这些离群行为或是预示着这些客户处于某些特殊事件情境中,或是预示着欺诈行为。
基于标号传播
形成图的关联关系之后,会有一些好的标签和不好的标签(白和黑)。然后让节点自然的往外拓展,拓展的方法是“近朱者赤,近墨者黑”。我们可以简单的认为,跟白的关联的则是好的,跟黑关联的是坏的,既关联白又关联黑的则根据权重计算。
实现简单,运行速度快,可应用在大型网络中
本质上也是优化模块度的方法 缺点是稳定性不高,且收敛上也有问题
该方法的特点是将点和点之间的边做一个权重的设定。比如手机号和IP,IP的权重会低一些,手机号等同于一个账号,权重会高一些。以优化模块度作为目标,只是有很多种迭代的方式,包括聚合、分裂和直接寻优。聚合的代表算法是FN、CNM等、分裂的是GN算法、直接寻优的都是用群体智能的那一堆算法,包括GA、PSO等。
实现效果很快速
形成的社区相对比较稳定 设定权重会加入一些专家经验,具有一定的可解释性
先形成一个大的子图,再随机生成一些小的社区,然后在整个图中做随机游走和遍历。比较经典的是DeepWalk 的随机游走算法,借鉴的是语义分析中词向量的表达。本质上也是图嵌入的一种,有论文表明该方法是目前非重叠社团发现中准确度最高的。
无论是哪种方法,本质上还是希望将社区内信息更加紧密,社区与社区之间做到足够松散。
针对业务风控团伙识别方案,主要分为3个大的步骤,分别是:
构建置信网络 切分连通子图并计算社区团伙 计算节点属性并落地
置信网络
置信网络是指点之间的边都是“强”连接的边,理论上一次请求最多只有节点类型个节点个数,所以从单子图来看,超过该节点个数为可疑节点,且超过指定阈值的可直接判断为异常。
我们可以看到会有一些节点周围聚集了很多的节点,一般情况下正常的用户是不太可能形成这种模式的。很大程度上这样的模式是黑灰产团伙的行为。
对置信网络的子图切分可以初步区分正常节点(子图节点大小小于等于节点类型大小)和可疑节点(子图节点大小超过一定阈值)。对于单个子图内部,度大的节点可以视为该子图的“中心”节点,可重点关注。
对单个子图进行社区发现,可以对较大的子图进行进一步的切割,发现其中的社区聚合规律。本方案是用的 Louvain 社区发现方法,该方法在运行时长和效果上均优于其它方法(对比结果见附页)。Louvain 方法本质上是串行的迭代方法,并行化改造会降低其聚合效果,本方案采用的是单节点单子图的串行计算方式。
我们看一个常规的案例,1 天内同终端多手机号规则阈值是10,第 11 个账户开始被拒绝,本例同终端共登录 33 个手机号,规则拦截 23 个,准确率 100%。通过图关联7天的数据发现这个集合共 46 个手机号,规则覆盖率 50%,关联补充的 13 个手机号中有 3 个命中其他的拒绝规则,另外 10 个手机号没有触发规则,图关联方式识别欺诈,可以补充手机号 43.47%。
另一个案例,根据置信构建中的要素构建的图关联,在人工分析后发现新的衍生特征:同GPS(.563582,.001250 )多账户,识别出一个新的模拟器。
还可以进行设备伪造识别,IOS 系统设置的节点包括 did、idfv、idfa,安卓是did、UUID、imei。理论上说,一个用户设备的这三个值应该是比较稳定的,不会有其他的节点与之相关联。所以一个用户请求会产生两到三个这样的设备节点,并且不太会有集群的情况。
那么像上图中存在关联的情况,关联的节点越多,存在的设备风险就越高。比如:
Ios:1个IDFA+appname关联多个did(故意篡改did)
Android:1个uuid关联大于2个imei(故意篡改imei)
左上角的图中一些带颜色的圈,里面的设备信息非常的多,形成了非常明显的集合,这很大可能都是风险用户了。而右下角的图中黄色圈内的一些节点,相对来说没有那么高的风险。
我们再看一个拉新的业务场景。通过微信转发拉新用户,邀请 3 个新用户关注并注册,奖励 1 元红包;邀请 10 个用户关注并注册,奖励 5 元红包。黑产为了使得收益最大化,它的拉新关系偏向于下图中图例2的模式,而正常用户更偏向于图例1的情况。
因为像黑产为了最大化利益会拉满 10 个人得五块钱是最划算的。重复使用手机号的个数不能太多,多了容易被发现。而正常用户则是,有的会愿意完成任务,有的不愿意,有的完成的少。
所以我们可以结合用户的行为、设备的一些信息以及我们对业务的观察和了解来进行图分析,对于业务风控的价值还是很值得挖掘的。
活动回放链接:http://mudu.tv/watch/5232060