Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

微众银行作者

GTC 2019回顾:GPU加速联邦学习计算,降本增效节能首选

2019年12月16日-19日,英伟达GPU技术大会(GTC 2019,以下简称“大会”)在苏州金鸡湖国际会议中心举行,来自Amazon、FaceBook、腾讯、平安等诸多国内外知名企业机构的专家学者汇聚一堂,就人工智能深度学习、医疗科学、智慧金融、边缘计算等领域展开深度讨论。微众银行AI团队于19日在【智慧金融】分会场上联合星云Clustar发表了《GPU在联邦机器学习中的探索》主题演讲,详细介绍了其GPU加速联邦学习的研究成果。

多方获益,联邦学习破解“数据孤岛”难题

联邦学习”(Federated Learning)指的是在满足隐私保护和数据安全的前提下,设计一个机器学习框架,使各个机构在不交换数据的情况下进行协作,提升机器学习的效果。其核心就是解决数据孤岛和数据隐私保护的问题,通过建立一个数据“联邦”,让参与各方都获益,推动技术整体持续进步。大会上,来自微众银行AI部门的高级算法工程师黄启军也为观众展示了联邦学习的落地案例之一——视觉横向联邦学习系统。

黄启军提到,在目标检测领域,已标注数据是非常珍贵的资源,各家公司一般都有各自不同场景的标注数据,但这些数据相对散乱,如想利用其它公司已标注好的数据模型来建立更优模型,只能通过拷贝聚拢数据,但这种行为不符合GDPR、《数据安全管理办法》等法律规范。而引入横向联邦学习机制以后,个体可以在本地设备中直接标注数据,无需上传。本地模型的训练数据标注完成后,客户端将自动加入联邦,等待进行训练,当有两台设备进入到等待训练状态时,则开始进行联邦学习训练模式。

视觉横向联邦学习系统示意

这一案例真实展现了联邦学习技术的价值,相比于单点模型,联邦学习使得本地设备的mAP大幅提升,同时Lossless更加稳定。mAP平均提升15%的数据显示,整体上联邦学习远比单点模型效果更佳。

深度创新,GPU加速联邦学习再升级

作为一门具有前景的新兴技术,联邦学习为了完成隐私保护下的机器学习,使用了很多与传统机器学习不一样的方法,也因此迎来了诸多新挑战。在会上,黄启军也分享了微众银行AI部门携手星云Clustar突破的联邦学习计算三大难题:

首先就是大整数运算问题,传统机器学习一般使用的是32-bit的基本运算,这些基本运算一般都有芯片指令的直接支持,而联邦学习中的Paillier/RSA算法依赖的是1024或2048-bit 甚至更长的大整数运算,但现实情况是,GPU流处理器并不直接支持大整数运算。面对这一情况,双方基于分治思想做元素级并行,通过递归将大整数乘法分解成可并行计算的小整数乘法,从而实现“化繁为简”,间接完成GPU流处理器的大整数运算。

通过递归将大整数乘法分解成可并行计算的小整数乘法示意

其次,大整数运算中多是模幂、模乘等复杂运算,即ab mod c (a,b,c均为N比特大整数),而GPU做模幂等运算的代价极大,传统的朴素算法会优先计算ab,再计算值对c取模,这一算法的缺点是复杂度高达O(2^N),且中间乘积结果很大。而单一的平方乘算法则是通过ak = (ak/2)2 = ((ak/4)2)2实现,虽然复杂度下降至O(N),且中间结果大小不超过c,但因为需要做2N次取模运算,GPU在此项上花费时间极高。而双方摘取平方乘算法优势,并加入蒙哥马利模乘算法计算模乘,就完全避免了取模运算,大幅度降低了GPU的消耗。

最后,在分布式计算时,联邦学习不止涉及数据中心内网传输,也有广域网传输的场景,且密文数据体积要增加几十倍,传输的次数也是传统机器学习的几倍,双方通过RDMA网络技术加上自研的动态参数聚合模型技术以及机器学习专业的网络传输协议,对联邦学习在数据中心内通信场景以及跨广域网通信场景都进行了很好的性能优化。

走在前沿,联邦学习推动AI行业大变革

联邦学习近年来在学术研究、标准制定和行业落地等方面发展迅速,有望成为下一代人工智能协同算法和协作网络的基础,全球范围内也正在掀起“联邦学习”的热潮。从GPU加速联邦学习这样的底层技术研究,到IJCAI 2019首届联邦学习国际研讨会等学术交流,再到IEEE标准制定推动行业规范化联邦学习人工智能领域渐露峥嵘,在该领域的影响力显著提升。而在工具层面,也有诸多企业机构开展研发,如微众银行AI团队开源的全球首个工业级的联邦学习技术框架 Federated AI Technology Enabler(FATE),不仅提供一系列开箱即用的联邦学习算法,更重要的是给开发者提供了实现联邦学习算法和系统的范本,使大部分传统算法可以经过改造适配到联邦学习框架中,从而快速加入联邦生态。

此外,在行业应用落地方面,联邦学习也扇动了一股“变革”的飓风:在金融领域,基于该技术的多家机构联合风控模型能更准确地识别信贷风险,联合反欺诈。多家银行建立的联邦反洗钱模型,能解决该领域样本少、数据质量低问题,在微众银行的实践中AUC显著提升12%。

在智慧零售领域,该技术能有效提升信息和资源匹配的效率。例如,银行拥有用户购买能力的特征,社交平台拥有用户个人偏好特征,电商平台则拥有产品特点的特征,联邦学习能在保护三方数据隐私的基础上进行联合建模,为用户提供更精准的产品推荐等服务,从而打破数据壁垒,构建跨领域合作,经应用实践,采购备货准确率提升可达21.4%。

联邦学习是大数据使用的未来范式,也是破解数据隐私保护难题的新思路。人工智能不仅是一个工具,更应该是让社会更加公平美好的强大推动力。联邦学习势必将在未来助力更多行业、更多场景发挥无限潜能,推动AI普惠的实现。而作为致力于在全球范围内引领和推动数据隐私保护下的AI协作生态建设的微众银行AI团队,也必将与诸多企业机构一起,共建行业更美好的未来。

FedAI联邦学习
FedAI联邦学习

安全互联打破数据孤岛,合作联盟建立数据生态。

产业GPU联邦学习
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
黄老师的演讲很nice,请问有相关PPT或保存的视频么