伴随产业数字化发展及城市数字化建设,跨机构跨行业的合作越来越频繁、政府和企业面临的场景越来越复杂、数据挖掘的广度和深度也日益增长,因此机构间数据共享和数据融合的需求也越来越强烈。同时,互联网数据分散在不同企业或终端而形成“数据孤岛”现象也亟需破解,基于此背景,联邦学习应运而生。联邦学习定义了机器学习框架,在此框架下,通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题,可以做到在不泄露隐私数据的情况下实现企业间的数据融合建模。
近日,京东数字科技集团(简称:京东数科)正式推出自主研发的联邦学习平台——Fedlearn,旨在更好地挖掘数据价值,实现多方共赢的机器学习,在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架。
“最强大脑”打造的Fedlearn平台
联邦学习在产业应用方面此前曾面临一系列挑战——由于需要传递梯度信息,容易导致基于梯度信息的构造攻击;需要对梯度加密,虽然增加了安全性,但是也极大损失了算法的效率;传统联邦学习基于同步更新,浪费了大量的计算资源。如何设计既能保证安全性又具有高效率的联邦学习算法以满足产业AI应用需求,是业界面临的突出难题。
为解决这一问题,京东数科正式推出了自研的Fedlearn平台,该平台具有三大特点。第一,在数据和模型隐私方面,不同参与方之间没有直接交换本地数据和模型参数,而是交换更新参数所需的中间数值。同时,为了避免从这些中间数值中恢复数据信息,采用增加扰动对这些数值进行保护,确保了数据和模型的隐私安全。其次,在通讯方面,引入中心化数据交换的概念,使得数据的交换独立于参与方。最后,采用异步计算框架,极大地提高了模型训练的速度。
融合了密码学、机器学习、区块链等联邦学习算法的Fedlearn平台,搭建出一套安全、智能、高效的链接平台,在各机构数据不用向外传输的前提下,通过联合多方机构数据,实现共同构建模型等多方数据联合使用场景,获得加成效应。相较于传统的数据共享交换方法,Fedlearn平台创新性地提出了并行加密算法、异步计算框架、创新联邦学习等技术架构,在保证数据安全的前提下提升学习效率,并逐步达到融合亿级规模数据的能力。
在京东数科开发Fedlearn平台的过程中,也实现了多项业界首创技术,譬如近期实现的“基于核的非线性联邦学习算法”。在安全性上,这一方法不传输原始样本及梯度信息,充分保护数据隐私;在快速性方面,这一方法使用首创的双随机梯度下降,大大提高计算速度,充分利用计算资源,通过增加扰动提高数据的安全保护。这一技术创新已经形成了论文《解决多方垂直联邦学习的安全核学习算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),并被顶级学术会议KDD 2020接受。
Fedlearn平台以多自研联邦学习算法、多方同态加密、轻量级分布式架构、区块链与联邦学习融合、数据安全容器、一站式操作平台“六位一体”核心能力,长效保持自身行业竞争力,其背后的项目团队成员更是90%以上都拥有算法、密码学或机器学习方向的博士、硕士学历,用京东数科AI实验室首席科学家薄列峰的话说,就是“我们在用‘最强大脑’驾驭和梳理联邦学习”。
联邦学习领域的“增长官”
“联邦学习并不会损害模型效果,反而能够提高业务模型效果”,京东数科风险管理中心智能模型部负责人彭南博表示,“在京东数科风控‘联邦模盒’产品业务实践中,着实取得较于传统联合建模更优的效果”。究其原因,一方面,联邦学习理论上是能够获得最优解的,即通过梯度下降迭代过程,可以实现联邦间的特征组合和交叉建模,从而解决如“异或”这样的非线性问题;另一方面,由于能够保护数据隐私安全,因此无需限制建模样本的数量,使联邦学习可以使用更多数据建模,基于大数据更有效发现数据规律,进而提升模型效果。
另外在风控建模合作中,业务方通常还会要求模型具备较高的可解释性,也就是说,模型自己能够解释预测的结果、为什么会做出这样的预测。例如,在信贷风控中,根据多头借贷风险常识,借贷申请数量越多风险越大,若在模型中表现相反,有极大可能性是数据问题导致模型发生错误,此时部署上线将造成金融业务的坏账损失。然而联邦学习的主张是保护用户隐私,使得传统联邦模型很难进行细节解释,当前风控最常用的联邦XGB算法,因其分裂方向暗含了特征取值区间,需要隐藏特征含义才能保护数据,所以联邦模型的不可解释性成为联邦学习面向风控应用的又一大难题,目前市场上的联邦学习产品训练出的模型往往不可解释。
在风险管理创新性应用领域上,京东数科提出行业内首个实现联邦树模型可解释性方法,并融入到“联邦模盒”产品中,该产品已包含了多种原创的路径加密算法,实现即使公开特征含义也不会泄露用户隐私,该算法在准确性、复杂度方面与原方案保持一致,同时具有更好的可解释性。
目前京东数科金条、白条业务模型已经全面实现了传统建模向联邦建模的升级,联邦模式下模型的风险识别能力和流量转化率均得到了提升。除了在风控方面的应用,AI+智能城市领域,京东数科自研的联邦学习平台——Fedlearn平台也有广泛应用。如“智能城市操作系统”作为政府数字化服务的“底座”,其包含时空数据引擎、时空智能引擎、基于联邦学习的数字网关技术以及京东城市莫奈可视化平台等诸多前沿科技。像时空数据引擎归类城市中的万千数据,解决数据标准化的问题,处理速度比传统数据平台快10—100倍;时空智能引擎将算法进行模块化、积木式输出,解决不同场景下智能应用的开发问题,极大降低开发成本;再如基于联邦学习的数字网关技术,通过用户隐私保护的联合建模机制和多源数据融合算法,有效助力解决平台隐私保护问题。
除此之外,京东数科依托在金融服务、数字营销等领域积累的丰富实践经验,形成了多场景的解决方案,通过联邦学习可以实现多场景的解决方案升级,结合各个客户的自身情况,提供定制化程度更高的服务。目前,已实现多个不同类型的合作项目落地。
从底层代码到算法再到平台搭建,京东数科始终坚持自主研究创新,一路稳扎稳打。“我们希望依托数科强大的AI技术背景,通过Fedlearn平台的科技能力输出助力用户和产业实现‘联结’,为各种规模企业实现赋能和增长,这也是我们作为联邦学习应用落地领军者的使命”,薄列峰表示。