国家主席习近平在第二届中国国际进口博览会开幕式上提到:“中国市场这么大,欢迎大家都来看看”。
其实在金融领域,中国市场的复杂性和发展不平衡,也带来了诸多挑战与机遇,并成为科技公司最佳演练场。
今天要分享的论文,被信息领域顶会AMCIS 2019收录,由氪信团队联合上海交通大学、亚利桑那州立大学、佐治亚理工学院等知名高校商学院教授合作。该论文在设计科学理论框架下,首次系统性的评估了大数据对评估预测金融信用风险的效果和意义。所使用案例及模型,均来自氪信在金融场景的实战经验。
对于非一线技术人员来说,这篇论文不仅深入浅出地介绍了AI技术在金融信用风险领域的应用现状,厘清了“AI为什么起作用”。更难为可贵的是,它为金融机构如何借助技术手段和设计科学优化产品及提升服务效率,提供了全球视角。
话不多说,小氪这就带你一起读论文:
为什么要使用弱金融数据预测强金融风险?
对于现代企业而言,使用“大数据”来预测消费者的行为变得越来越重要。诸如数据挖掘和机器学习之类的方法已被广泛用于实现此任务。当可用数据与目标结果高度相关时,这种方法效果很好。但是,在很多情况下,相关的结构化数据是不足或无法获取的。由于在线贷款是无抵押的,并且可以在几秒钟内做出贷款决策,因此如何提高预测准确性是在线贷款平台面临的巨大挑战。根据美国银行家协会的数据,到2020年,美国的在线贷款量可能达到900亿美元。但是,在线贷款的违约率通常在10%-20%的范围内,远远高于传统的消费贷款。因此,贷款违约风险预测是整个行业的重要课题。提升贷款违约风险预测能力同样对抵押贷款、汽车贷款等金融产品有帮助。为了预测在线贷款违约风险,现有模型主要利用与金融高度相关的数据,例如FICO分,付款历史,收入,违约历史,信贷利用率等。尽管这些模型的预测能力已经通过先进的机器学习方法得到了增强,并在金融行业得到广泛使用,但存在两个主要问题:(1)并不总是存在足够的结构化信贷数据,当贷款申请人的信贷数据很少时,模型就没有用处;(2)这些模型的预测能力受到限制,因为这些模型没有考虑其他数据源。解决这两个问题的一种方法是将弱金融数据/非常规数据纳入模型,这是本研究的重点。主要的设计挑战是如何从弱金融数据中提取有用的特征,以及如何使用这些特征预测贷款违约风险。基于预测分析框架,我们首先从弱金融数据源中提取特征,给每个数据源分别构建第一层预测模型;其次,我们将单个预测模型组合到第二层的预测模型中,并将其用作最终设计工件;最后,我们评估每个步骤的设计选择并用真实的业务数据去检验设计成果。因为在现有论文中难以清楚了解这些公司是如何处理弱金融数据以及如何实施这些构想的,所以我们基于中国一家科技公司已有成果,记录了这种特定的设计科学知识和相应的行业实践——风险预测模型。设计科学理论视角下,“大数据评估金融信用风险”效果如何?
我们有两个明确的假设要在本研究中进行检验,结果证明基于弱金融数据的风险预测模型性能良好:
假设1——我们提出的方法所生成的新特征在每个数据域中都优于原始特征。
实验以这种方式进行:我们首先使用不同的特征集训练我们的预测模型,然后使用测试数据检查每个模型的AUC和KS得分。结果证明,我们提出的特征生成方法及其特定的机器学习算法始终胜过原始特征以及相同的机器学习算法。该实验证实了非财务数据的预测价值,并支持我们的设计选择。假设2——使用非财务数据的预测模型的性能可以与使用财务数据的预测模型的性能相媲美。由于我们同时具有个体预测模型和最终集成模型,因此我们首先分别测试个体模型的性能,然后测试整体性能。单个模型的性能以AUC分数和KS分数分别表示,整体模型在所有模型中均取得了最高的性能,这表明三个单独的预测模型无法完美地相互重叠。换句话说,每个单独的模型和基础数据域都可以为最终的预测能力提供独特的贡献。为了更直观地比较模型性能,我们通过ROC曲线和精确召回曲线进行显示:结果显示,通过我们的预测分析框架(模型5)的总体性能非常接近基于强大财务数据的预测模型,这证实了使用非财务数据预测贷款违约风险的可行性。首先,它通过演示如何从非常规数据中提取特征并建立预测模型,为设计科学理论做出了贡献。这项研究发现,基于理论的特征比原始特征具有更好的预测能力,应使用特定的预测方法来适应不同的数据源和特征结构。其次,它通过探索非财务特征与贷款违约风险之间的关系,为消费金融理论做出了贡献。由于在预测模型中使用的特征是从弱金融数据生成的,这些特征不太可能在传统的理论构建方法中获取,也不太可能提供未经充分论证的因果关系洞察。这项研究的实际意义在于,它有助于建立更强大的贷款违约风险预测模型,该模型不仅可以降低贷款发行机构的风险,而且可以为信用薄弱的客户增加金融包容性。