2023/02/28 11:33

深圳市洞见智慧科技有限公司作者

PPC Insights系列：洞见安全多方图联邦

知识图谱（Knowledge Graph）技术凭借其拓扑结构的信息关联关系和消息传递机制，能够对单体信息进行有益补充，因此正在被逐步应用于金融反欺诈、反洗钱和精准营销等场景。但是，因为现实社会中的数据孤岛问题，单一机构内的图数据往往只是一小部分，导致了更全面的关联关系和消息传递范式被阻断，这使得图数据的现实应用价值大打折扣。为此，洞见科技自主研发了“安全多方图联邦（Insight Federated Graph，InsightFG）”技术，并获得了国家发明专利。该技术从能力上涵盖了多方图数据的安全构建、安全查询、安全表示和安全学习，旨在基于隐私计算技术与知识图谱技术的深度结合，打破图数据孤岛，安全释放多方图数据的融合价值。

图数据孤岛

1.多方图数据挖掘技术发展

传统的图数据价值挖掘主要可分为三类：图查询，图表示与图学习，其中图构建是一切应用的基础。在现实场景中，由于安全合规或竞争关系等原因，图数据拥有者不能或不愿彼此共享，这种数据孤岛问题严重限制了图数据价值的充分释放。如何在保护隐私和数据安全的条件下进行多图数据价值挖掘成为一个重要的研究问题。隐私计算技术的发展，为解决上述问题提供了多种解决方案。

多方图构建

即在隐私保护和数据安全的前提下构建一个全局图，例如基于秘密分享的图并集计算和基于门限解密密码系统的图并集计算。该方案比较依赖图数据本身的存储形式（秘密分享方案需要图数据是邻接矩阵表示的；基于门限解密密码系统设计的方案甚至需要设计新的数据编码形式），不适用实际场景中有向且异构的图数据。

多方图查询

指基于多图结构（结点、边和属性）进行隐私安全的语义查询。可以将多方图数据加密融合，基于融合后的密文进行查询，但是因为涉及大量的密文操作，所以面临性能瓶颈问题；也可以从特定算法角度着手，如利用同态加密算法设计最短路径查询算法，以实现具有隐私保护作用的图查询，但仍然存在效率问题，另一方面，由于无法使用图查询语言，导致使用门槛较高，且缺乏并行能力。

多方图表示：

是指针对多图结构进行隐私安全的重组、抽象或者传播迭代得到点/边全局属性的过程，如PageRank值、介性中心度（Betweenness）和图向量表示（embedding）的计算等。在安全多方计算范式下，早期的多方图表示算法多为示例性方案，难以应用大规模数据集。在混淆电路的基础上引入现代并行编程范式可以在一定程度上提升计算效率，但通信开销仍是一个很大的问题，且在计算参与方上会受到限制，很难自由扩充至多方。

多方图学习

是指基于多图数据进行隐私安全的机器学习训练。根据图数据的使用方法可分为两大类：一是利用派生出的图特征，与已有结点属性一起进行传统机器学习的模型训练；二是利用图神经网络（Graph Neural Networks，GNN）进行的深度学习模型训练。联邦图机器学习(Federated Graph Machine Learning， FGML)可以通过联邦的方式训练图机器学习模型从而实现对多方图数据融合价值的挖掘，但传统FGML中大多采用的是各个参与方各自在本地进行消息传递与聚合，再将本地中间结果融合计算，仍然无法真正让多图数据价值达到全局最优效益。

纵向图联邦与横向图联邦

综上，基于安全多方计算的方案由于大量使用了密文运算，面临很大的性能瓶颈难题，而基于联邦学习的方案由于是在各自本地进行消息传递与聚合，再将本地中间结果融合计算，导致全局数据价值效用无法最大化，因此一般只能解决图计算中的某些特定问题，无法适用于未来多样化的图数据价值挖掘场景，且实现路径差异较大，很难统一到一个解决方案中。

2.洞见安全多方图联邦平台

洞见安全多方图联邦平台通过融合安全多方计算、假名化、随机化等技术等实现了跨多方的全局图的安全构建，并在此基础上实现了多级分布式图计算引擎，涵盖了多方图数据的安全存储、安全查询、安全表示与安全学习，并可以完成结点分类、边分类、链接预测、标签传播、社区发现等多类型任务。

InsightFG设计构思

3.InsightFG建模效果分析

以图数据集DGraph为例，其为一个有向无权的动态图，顶点达300万，边达到400万，传统图算法的效果如下：

Baseline：集中方式模型效果

Methods	Train AUC	Valid AUC	Test AUC
MLP	0.7221 ± 0.0014	0.7135 ± 0.0010	0.7192 ± 0.0009
GCN	0.7108 ± 0.0027	0.7078 ± 0.0027	0.7078 ± 0.0023
GraphSAGE	0.7682 ± 0.0014	0.7548 ± 0.0013	0.7621 ± 0.0017
GraphSAGE (NeighborSampler)	0.7845 ± 0.0013	0.7674 ± 0.0005	0.7761 ± 0.0018
GAT (NeighborSampler)	0.7396 ± 0.0018	0.7233 ± 0.0012	0.7333 ± 0.0024
GATv2 (NeighborSampler)	0.7698 ± 0.0083	0.7526 ± 0.0089	0.7624 ± 0.0081

我们将DGraph拆分成两个数据集模拟纵向联邦场景，通过InsightFG的安全图构建和安全图表示，并基于图表示结果采用纵向逻辑回归和纵向XGB算法进行模型训练。得益于全局图的构建，通过InsightFG可以将原模型效果提升约7个百分点；使用InsightFG的模型效果高于直接使用图联邦机器学习的方案（V-GNN）；且相较于已有的基于集中图数据的模型效果，InsightFG+V-XGB的模型效果仅仅低于GraphSAGE（NeighborSampler）算法不到1个百分点。可见，采用InsightFG能够在隐私保护与数据安全的条件下使得模型精准性与集中数据建立的模型效果相当。

InsightFG：联邦方式建模效果

Methods	Train AUC	Vaild AUC	Test AUC
V-LR	0.7229 ± 0.0022	0.7205 ± 0.0018	0.7099 ± 0.0017
V-XGB	0.7353 ± 0.0019	0.7235 ± 0.0019	0.7197 ± 0.0016
V-GNN	0.7584 ± 0.0023	0.7458 ± 0.0019	0.7550 ± 0.0026
InsightFG+V-LR	0.7748 ± 0.015	0.7704 ± 0.0015	0.7626 ± 0.0013
InsightFG+V-XGB	0.7835 ± 0.0018	0.7771 ± 0.0017	0.7705 ± 0.0024

4.总结

图数据因为其拓扑结构方式的信息关联关系和消息传递范式，能把纷杂的信息变得有序、直观、清晰，在许多行业领域都有巨大的应用价值。在隐私保护和数据安全的大背景下，基于隐私计算的多方图数据价值挖掘是前沿技术研究热点。洞见科技在大量理论研究的基础上，结合多年图数据挖掘的经验积累，推出了InsightFG平台，集安全多方图构建、安全多方图查询、安全多方图表示和安全多方图学习于一体，贯彻图数据价值挖掘的全生命周期，在安全性、易用性和效率上能更好地满足多方图数据价值融合的场景应用。

参考文献

[1] Kukkala, V.B., Iyengar, S.S., & Saini, J.S. Secure Multiparty Computation of a Social Network. 2015.

[2] 魏琼, 李顺东, 王文丽,等. 图交集和并集的安全多方计算[J]. 密码学报, 2020, 7(6):15.

[3] PGAS: Privacy-preserving graph encryption for accurate constrained shortest distance querie

[4] Lai S , Yuan X , Sun S F , et al. GraphSE: An Encrypted Graph Database for Privacy-Preserving Social Search[J]. ACM, 2019.

[5] Brickell J , Shmatikov V . Privacy-Preserving Graph Algorithms in the Semi-honest Model[C]// Advances in Cryptology - ASIACRYPT 2005, 11th International Conference on the Theory and Application of Cryptology and Information Security, Chennai, India, December 4-8, 2005, Proceedings. Springer, Berlin, Heidelberg, 2005.

[6] He C , Balasubramanian K , Ceyani E , et al. FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks[J]. 2021.

[7] Chaochao C , Jun Z , Longfei Z , et al. Vertically Federated Graph Neural Network for Privacy-Preserving Node[C]. JCAI. 2022.

[8] Fu, X., Zhang, B., Dong, Y., Chen, C., & Li, J. Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications. 2022. ArXiv, abs/2207.11812.

[9] https://github.com/DGraphXinye/DGraphFin_baseline

入门联邦学习数据挖掘图数据库

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

逻辑回归技术

逻辑回归（英语：Logistic regression 或logit regression），即逻辑模型（英语：Logit model，也译作“评定模型”、“分类评定模型”）是离散选择法模型之一，属于多重变量分析范畴，是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

来源：Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。查询语言必须要能表达所有关系代数所能表达的查询，这样才被称为关系完整的。

来源：维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习，这部分研究被称为「联邦学习」（Federated Learning）。

Infor机构

Infor是一家跨国企业软件公司，总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件， Infor在2010年开始专注于工业利基市场的软件，以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com