知识图谱(Knowledge Graph)技术凭借其拓扑结构的信息关联关系和消息传递机制,能够对单体信息进行有益补充,因此正在被逐步应用于金融反欺诈、反洗钱和精准营销等场景。但是,因为现实社会中的数据孤岛问题,单一机构内的图数据往往只是一小部分,导致了更全面的关联关系和消息传递范式被阻断,这使得图数据的现实应用价值大打折扣。为此,洞见科技自主研发了“安全多方图联邦(Insight Federated Graph,InsightFG)”技术,并获得了国家发明专利。该技术从能力上涵盖了多方图数据的安全构建、安全查询、安全表示和安全学习,旨在基于隐私计算技术与知识图谱技术的深度结合,打破图数据孤岛,安全释放多方图数据的融合价值。
图数据孤岛
1.多方图数据挖掘技术发展
传统的图数据价值挖掘主要可分为三类:图查询,图表示与图学习,其中图构建是一切应用的基础。在现实场景中,由于安全合规或竞争关系等原因,图数据拥有者不能或不愿彼此共享,这种数据孤岛问题严重限制了图数据价值的充分释放。如何在保护隐私和数据安全的条件下进行多图数据价值挖掘成为一个重要的研究问题。隐私计算技术的发展,为解决上述问题提供了多种解决方案。
多方图构建
即在隐私保护和数据安全的前提下构建一个全局图,例如基于秘密分享的图并集计算和基于门限解密密码系统的图并集计算。该方案比较依赖图数据本身的存储形式(秘密分享方案需要图数据是邻接矩阵表示的;基于门限解密密码系统设计的方案甚至需要设计新的数据编码形式),不适用实际场景中有向且异构的图数据。
多方图查询
指基于多图结构(结点、边和属性)进行隐私安全的语义查询。可以将多方图数据加密融合,基于融合后的密文进行查询,但是因为涉及大量的密文操作,所以面临性能瓶颈问题;也可以从特定算法角度着手,如利用同态加密算法设计最短路径查询算法,以实现具有隐私保护作用的图查询,但仍然存在效率问题,另一方面,由于无法使用图查询语言,导致使用门槛较高,且缺乏并行能力。
多方图表示:
是指针对多图结构进行隐私安全的重组、抽象或者传播迭代得到点/边全局属性的过程,如PageRank值、介性中心度(Betweenness)和图向量表示(embedding)的计算等。在安全多方计算范式下,早期的多方图表示算法多为示例性方案,难以应用大规模数据集。在混淆电路的基础上引入现代并行编程范式可以在一定程度上提升计算效率,但通信开销仍是一个很大的问题,且在计算参与方上会受到限制,很难自由扩充至多方。
多方图学习
是指基于多图数据进行隐私安全的机器学习训练。根据图数据的使用方法可分为两大类:一是利用派生出的图特征,与已有结点属性一起进行传统机器学习的模型训练;二是利用图神经网络(Graph Neural Networks,GNN)进行的深度学习模型训练。联邦图机器学习(Federated Graph Machine Learning, FGML)可以通过联邦的方式训练图机器学习模型从而实现对多方图数据融合价值的挖掘,但传统FGML中大多采用的是各个参与方各自在本地进行消息传递与聚合,再将本地中间结果融合计算,仍然无法真正让多图数据价值达到全局最优效益。
纵向图联邦与横向图联邦
综上,基于安全多方计算的方案由于大量使用了密文运算,面临很大的性能瓶颈难题,而基于联邦学习的方案由于是在各自本地进行消息传递与聚合,再将本地中间结果融合计算,导致全局数据价值效用无法最大化,因此一般只能解决图计算中的某些特定问题,无法适用于未来多样化的图数据价值挖掘场景,且实现路径差异较大,很难统一到一个解决方案中。
2.洞见安全多方图联邦平台
洞见安全多方图联邦平台通过融合安全多方计算、假名化、随机化等技术等实现了跨多方的全局图的安全构建,并在此基础上实现了多级分布式图计算引擎,涵盖了多方图数据的安全存储、安全查询、安全表示与安全学习,并可以完成结点分类、边分类、链接预测、标签传播、社区发现等多类型任务。
InsightFG设计构思
3.InsightFG建模效果分析
以图数据集DGraph为例,其为一个有向无权的动态图,顶点达300万,边达到400万,传统图算法的效果如下:
Baseline:集中方式模型效果
Methods | Train AUC | Valid AUC | Test AUC |
MLP | 0.7221 ± 0.0014 | 0.7135 ± 0.0010 | 0.7192 ± 0.0009 |
GCN | 0.7108 ± 0.0027 | 0.7078 ± 0.0027 | 0.7078 ± 0.0023 |
GraphSAGE | 0.7682 ± 0.0014 | 0.7548 ± 0.0013 | 0.7621 ± 0.0017 |
GraphSAGE (NeighborSampler) | 0.7845 ± 0.0013 | 0.7674 ± 0.0005 | 0.7761 ± 0.0018 |
GAT (NeighborSampler) | 0.7396 ± 0.0018 | 0.7233 ± 0.0012 | 0.7333 ± 0.0024 |
GATv2 (NeighborSampler) | 0.7698 ± 0.0083 | 0.7526 ± 0.0089 | 0.7624 ± 0.0081 |
我们将DGraph拆分成两个数据集模拟纵向联邦场景,通过InsightFG的安全图构建和安全图表示,并基于图表示结果采用纵向逻辑回归和纵向XGB算法进行模型训练。得益于全局图的构建,通过InsightFG可以将原模型效果提升约7个百分点;使用InsightFG的模型效果高于直接使用图联邦机器学习的方案(V-GNN);且相较于已有的基于集中图数据的模型效果,InsightFG+V-XGB的模型效果仅仅低于GraphSAGE(NeighborSampler)算法不到1个百分点。可见,采用InsightFG能够在隐私保护与数据安全的条件下使得模型精准性与集中数据建立的模型效果相当。
InsightFG:联邦方式建模效果
Methods | Train AUC | Vaild AUC | Test AUC |
V-LR | 0.7229 ± 0.0022 | 0.7205 ± 0.0018 | 0.7099 ± 0.0017 |
V-XGB | 0.7353 ± 0.0019 | 0.7235 ± 0.0019 | 0.7197 ± 0.0016 |
V-GNN | 0.7584 ± 0.0023 | 0.7458 ± 0.0019 | 0.7550 ± 0.0026 |
InsightFG+V-LR | 0.7748 ± 0.015 | 0.7704 ± 0.0015 | 0.7626 ± 0.0013 |
InsightFG+V-XGB | 0.7835 ± 0.0018 | 0.7771 ± 0.0017 | 0.7705 ± 0.0024 |
4.总结
图数据因为其拓扑结构方式的信息关联关系和消息传递范式,能把纷杂的信息变得有序、直观、清晰,在许多行业领域都有巨大的应用价值。在隐私保护和数据安全的大背景下,基于隐私计算的多方图数据价值挖掘是前沿技术研究热点。洞见科技在大量理论研究的基础上,结合多年图数据挖掘的经验积累,推出了InsightFG平台,集安全多方图构建、安全多方图查询、安全多方图表示和安全多方图学习于一体,贯彻图数据价值挖掘的全生命周期,在安全性、易用性和效率上能更好地满足多方图数据价值融合的场景应用。
参考文献
[1] Kukkala, V.B., Iyengar, S.S., & Saini, J.S. Secure Multiparty Computation of a Social Network. 2015.
[2] 魏琼, 李顺东, 王文丽,等. 图交集和并集的安全多方计算[J]. 密码学报, 2020, 7(6):15.
[3] PGAS: Privacy-preserving graph encryption for accurate constrained shortest distance querie
[4] Lai S , Yuan X , Sun S F , et al. GraphSE: An Encrypted Graph Database for Privacy-Preserving Social Search[J]. ACM, 2019.
[5] Brickell J , Shmatikov V . Privacy-Preserving Graph Algorithms in the Semi-honest Model[C]// Advances in Cryptology - ASIACRYPT 2005, 11th International Conference on the Theory and Application of Cryptology and Information Security, Chennai, India, December 4-8, 2005, Proceedings. Springer, Berlin, Heidelberg, 2005.
[6] He C , Balasubramanian K , Ceyani E , et al. FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks[J]. 2021.
[7] Chaochao C , Jun Z , Longfei Z , et al. Vertically Federated Graph Neural Network for Privacy-Preserving Node[C]. JCAI. 2022.
[8] Fu, X., Zhang, B., Dong, Y., Chen, C., & Li, J. Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications. 2022. ArXiv, abs/2207.11812.
[9] https://github.com/DGraphXinye/DGraphFin_baseline