2020/07/20 15:44

IJCAI 2020 | 港科大、微众银行：推荐系统中的隐私威胁与对策

本文介绍的是由微众银行联合香港科技大学研究员高大山、谭奔、鞠策、郑文琛和杨强教授共同完成,被国际人工智能顶会IJCAI 2020下设联邦学习专项研讨会(FL-IJCAI’20)录用的论文《Privacy Threats Against Federated Matrix Factorization》。该论文提供了推荐系统领域一类最常用算法的联邦化方案，为联邦推荐系统落地提供快速便捷的技术路径。

全文地址：https://arxiv.org/abs/2007.01587。

推荐系统广泛应用于众多日常生活场景中。从电商购物、在线视频到新闻流，推荐系统已然成为智能时代的关键技术。隐私保护问题随着推荐系统对个人数据需求的增加而变得愈发重要。联邦学习作为一种解决隐私问题的重要技术，通过在各个参与方本地训练模型并交换参数，来实现在隐私数据不出本地的前提下，多方合作构建推荐系统。但是简单的参数传递仍然存在隐私泄漏的风险。微众银行AI营销团队联合香港科技大学研究了不同联邦推荐场景下推荐系统中的潜在隐私风险，并提供了解决方案。

推荐系统的“数据孤岛”困境

推荐系统技术在商业社会中为国内和国际众多科技巨头腾讯，Google等公司带来海量的营收。在电商购物与短视频推送等众多业务场景中，推荐系统根据收集到的用户数据为不同用户推送个性化的内容，已然成为智能时代的关键技术。

传统上，为了训练高性能的推荐系统，一家公司需要收集足够多的用户数据。然而，由于“用户-商品”交互的稀疏特点，单个公司很难收集到足够的数据来训练满意的推荐模型。近年来颁布的GDPR（通用数据保护条例）和CCPA（加州消费者隐私法案）等数据安全法律法规又严格限制了公司间的用户数据共享，使得公司间共享用户数据充满风险，阻碍推荐系统的发展。

联邦学习作为一种新的机器学习范式，使得不同参与方可以在不泄露隐私数据的前提下协作构建一个智能系统。同时解决了隐私保护与数据稀缺问题。尽管联邦推荐技术可以通过参与方之间交换参数的方式避免原始训练数据泄露和传输，但训练联邦模型过程中交换的参数依然可能泄露参与方的隐私数据。微众银行AI营销团队联合香港科技大学深入研究推荐系统中，建立联合模型时，面对交换明文参数的潜在隐私风险，针对性地使用加密技术避免隐私泄漏。特别的，以矩阵分解推荐算法为例，在不同的推荐场景下，展示了一个诚实但好奇的参与方如何在明文参数交换过程中窃取用户的隐私评分数据，并讨论了几种隐私保护技术以抵御隐私泄露风险。

明文联邦矩阵分解为什么泄露隐私？

我们假设有A，B两个参与方进行联邦推荐建模。数据分布有以下两种情况。

横向联邦矩阵分解

图1.横向联邦矩阵分解数据分布场景

两个参与方持有相同的“用户-商品”交互矩阵，每个参与方有交互矩阵的一部分观测值。参与方希望通过联邦学习将所有观测到的用户行为（如评分）用于训练一个联邦推荐模型。当使用{用户, 商品, 行为}表示一条记录时，每个参与方持有所有用户与商品的特征矩阵。参与方在本地完成参数梯度计算与模型更新。仅在模型整合过程中计算A、B特征矩阵的平均值。

图2. 横向联邦矩阵分解训练过程好奇的参与方可以根据模型聚合前后的梯度变化解算出另一方更新的模型梯度。由于“用户-商品”交互矩阵的稀疏性，对于一次梯度更新，模型的每一个梯度往往来自一个商品或用户。因此，根据解算出的梯度信息，好奇的参与方可以容易地通过比对商品特征矩阵与用户特征矩阵的梯度来推测出另一方用于模型训练的{用户，商品}对。在推测出对方的“用户-商品”交互信息后，好奇的参与方可以容易地计算出对方训练数据的用户行为数据。

图3. 横向联邦矩阵分解隐私威胁自此，好奇的参与方可以仅通过分析本地模型与更新后的全局模型，就获取另一个参与方的模型数据，和用于训练的“用户-商品”原始数据。另一方的模型隐私与数据隐私遭都到了严重的泄露。

纵向联邦矩阵分解

在纵向联邦推荐中，推荐方A持有“用户-商品”交互矩阵，辅助数据提供方B持有用户或商品的辅助信息，例如用户生日、性别、行为等，商品的价格、分类等。当参与方B持有用户辅助数据的时候，在进行联邦学习前，两个参与方需要根据用户ID进行样本对齐。图4. 纵向联邦矩阵分解数据分布场景为了训练纵向联邦推荐模型，辅助数据提供方B需要在本地计算用户中间特征，并发送给推荐方A。而推荐方A不需要向B发送任何数据或参数。因此，推荐方A没有隐私泄漏风险，而辅助数据提供方B把每个用户的中间特征泄露给A。同时，在此纵向联邦场景下，由于样本对齐的需要，用户对齐过程中的共有用户ID泄露造成了新的隐私威胁。

图5. 纵向联邦矩阵分解训练过程及隐私威胁联邦矩阵分解中的隐私保护对策

既然明文形式联邦矩阵分解技术会带来潜在的参与方模型与训练数据泄露风险，我们应当如何防范潜在的隐私攻击呢？

对于横向联邦矩阵分解，由于联邦模型聚合前后的梯度信息会泄露参与方的训练数据，因此我们要确保每轮更新后的全局模型一直处于加密状态。

对于纵向联邦矩阵分解，只有辅助数据提供者向推荐方发送中间特征结果。为了保护辅助数据提供者的隐私，我们对发送的中间结果加以保护。

目前主要有三种隐私保护技术可以解决联邦矩阵分解中隐私泄露的问题：密码学方法、混淆方法和基于硬件的方法。

密码学方法一般使用同态加密（homomorphic encryption，HE）和多方安全计算（secure multiparty computation，MPC）技术来保护中间传输参数。使用密码学方法的横向联邦矩阵分解每一轮更新后的全局模型以及本地模型都始终处于加密状态。在纵向联邦中，辅助数据提供者发送的用户中间特征被加密。图6. 基于同态加密的联邦矩阵分解混淆方法使用诸如差分隐私（differential privacy，DP）等技术对更新的参数添加噪声，以防好奇的参与方推测训练数据。然而对于联邦矩阵分解，由于“用户-商品”交互矩阵的稀疏性，加入可以有效保护隐私的噪声往往会使得模型变得不可用。图7. 基于差分隐私的联邦矩阵分解基于硬件的方法利用可信执行环境（trusted execution environment，TEE）来在一个隔离的安全环境中执行联邦学习。所有参数在不可以被直接访问的可信计算环境中完成更新。相比于密码学方法，基于硬件的TEE无法给出安全证明，一旦发生漏洞，将难以通过软件修补。同时TEE依赖于参与方都信任的中心化的远程硬件认证服务，如果该认证服务被攻击，那基于TEE隐私保护方案对程序执行过程中的抗篡改性也无法保证。

图8. 基于可信执行环境的联邦矩阵分解总结

推荐系统中的隐私保护问题随着推荐系统对个人数据需求的增加而变得愈发重要。联邦学习作为一种解决隐私问题的重要技术，可以实现隐私数据不出本地的前提下多方合作构建推荐系统。微众银行AI团队联合香港科技大学研究了交换明文参数进行联合建模的潜在隐私风险。针对每一种场景，我们展示了一个诚实但好奇的参与方如何在参数交换过程中窃取其他参与方的模型以及用户的隐私评分数据，讨论了如何使用同态加密、多方安全技术、可信执行环境等隐私保护技术来建立联邦推荐模型并规避隐私风险。

本文所探讨的问题皆来自于微众银行AI营销业务实践，基于联邦学习技术，微众银行AI营销团队首创了以联邦广告、联邦推荐等核心技术和平台为特色的高效安全的金融营销解决方案，覆盖营销全链路，有效解决金融行业数据安全与营销效率难题，同时开源开放技术能力，连接行业伙伴。

文中提到的技术细节可以参考我们放在ArXiv的文章https://arxiv.org/abs/2007.01587。

工程实现细节可在我们的开源算法库FedRec(https://github.com/FederatedAI/FedRec）中找到。

理论IJCAI 2020