2022/08/19 10:28

阿里达摩院获KDD 2022最佳论文，国内企业首次获奖

8 月 18 日，全球数据挖掘领域顶级会议 KDD 2022 大奖公布，阿里巴巴达摩院团队斩获应用科学方向“最佳论文奖”，这是中国企业首次获得该重磅奖项。

KDD（ACM SIGKDD）是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，也是全球录取率最低的计算机顶会之一，在知识发现、数据挖掘、人工智能等领域具有重大影响力。KDD 组委会对达摩院获奖的联邦图学习开源工作 FederatedScope-GNN 给予充分肯定，评语提到，该工作“推动了联邦图学习技术的发展，并树立了优秀平台工作的榜样”。

KDD会议分为研究和应用科学两个方向，本年度共收到2448篇投稿，仅接受449篇。包括阿里巴巴、华为、腾讯、百度等多家中国科技企业均有论文被收录，其中阿里巴巴今年共34篇论文入选，是全球入选论文数量最多的企业之一,同时阿里巴巴独立获得了大会应用科学方向唯一的“最佳论文奖”。历年荣摘桂冠的包括来自谷歌、亚马逊、卡内基梅隆大学等海外知名机构的研究团队，国内企业此前从未获得该奖。

阿里巴巴达摩院获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》聚焦联邦学习中应用广泛且技术复杂的联邦图学习方向，针对现有框架及算法库对图数据支持有限的情况，提出了包含丰富数据集及创新算法的易用平台，为该领域后续研究奠定坚实基础。

论文链接：https://arxiv.org/pdf/2204.05562.pdf

今年以来，阿里巴巴达摩院在全球顶级学术会议上多次荣获大奖，目前已斩获 KDD 最佳论文、ACL 杰出论文、CVPR 最佳学生论文等奖项。

值得注意的是，今年 5 月份，阿里巴巴达摩院发布新型联邦学习框架 FederatedScope，通过事件驱动的编程范式构建联邦学习，大幅降低了相关技术的开发部署难度。本次 KDD 获奖工作即为该开源项目的一部分，其关注的对象是具有复杂链接关系的图数据类型，在科学探索、知识表示、互联网、金融等科研及工业领域均有广阔应用需求。

以下为达摩院作者团队对 FederatedScope-GNN 工作的详细解读：

联邦图学习在社交、金融、科研等领域前景广阔

图（graph）是一种用于描述对象间关系的数据类型，在现实生活中无处不在。例如在互联网领域，微博等社交网络将每个用户账号视为节点（node/vertex），根据好友关系给节点连边（edge）；在金融领域，银行将每个账户视为一个节点，将转账关系视为节点间的边，即两个节点间有边表示对应的两个账户间发生过转账；在自然科学领域，科学家有时候将分子描述为一个图，其中节点象征原子，边象征原子间的化学键；在知识表示领域，人们习惯于将实体表示为节点，两个实体间存在关联关系则对其建立连边。

根据场景不同，图上的任务往往分为节点级别（node-level）、连接级别（link-level）和图级别（graph-level）。例如银行在反洗钱任务中需要预测每个账户是否是风险账户，即进行节点分类，这是一个典型的节点级别的任务；社交网络中的好友推荐，是预测两个节点之间是否存在连边，所以是连接级别的任务；而分子属性预测中，目标是预测每个分子图的某种属性，所以是图级别的任务。

在图数据上的各种任务中，近年来兴起的图神经网络（graph neural networks）得到学术界和工业界的广泛关注并取得了显著的成功。这些成功一方面得益于图神经网络强大的表示能力与泛化能力，同时也受益于上述各类现实场景中图数据的收集与积累。作为一种数据驱动的机器学习方法，更充足的图数据往往能引导图神经网络得到更优秀的性能。

因此，各个机构往往具有强烈的意愿去基于各方的图数据共同训练图神经网络。例如，若干银行共同训练反洗钱模型往往能得到分类准确率更高的图神经网络（如图一所示）；多个研究机构希望能融合各自拥有的知识图谱来更准确地补全缺失的知识；多家药企已经开始尝试基于大家各自拥有的分子标注联合训练用于新药发现的图神经网络。

图一：银行反洗钱场景

然而，考虑到数据隐私保护和商业竞争等因素，机构之间不能直接把原始的数据集中起来进行模型训练。如何在符合监管要求，即严格保护各方数据隐私的前提下进行合作，共同训练图神经网络，成为了研究和应用的焦点。联邦图学习给出了一种可行的解法，即在 “数据可用而不可见” 的设定下，各方图数据不出域而只交互模型参数等信息来进行合作式的模型训练。

现有联邦学习框架及算法库对图数据支持有限

近年来，在全社会对隐私保护日益重视的背景下，联邦学习的研究和应用得到了长足发展。这一进步在很大程度上得益于联邦学习框架（framework）及算法库（package）的支持。这类基础设施和开箱即用的模块使得研究人员能够专注于理论和算法的创新而不需要过度关心实现的细节，同时使得工程师能高效开发、仿真、部署，大大加快了联邦学习在现实应用中的落地。具有代表性的联邦学习框架包括 Google 公司的 TensorFlow Federated (TFF)、微众银行的 FATE 等。

当前，这类框架对联邦学习中各个参与方的通信、计算图的描述和拆分调度、模型的部署与推理等一般性的基础设施均有完整丰富的支持。但是，现有联邦学习相关的框架和库对图联邦的支持相对有限，框架中提供的现成图数据集、图神经网络架构、专门针对图学习设计的联邦学习算法等也还不够全面，难以基于这些已有工作去建立联邦图学习的基准。这导致当前流行的若干联邦优化算法工作和广泛采用的基准，如 LEAF，更多地关注视觉和自然语言领域的基准，但是尚缺少对图神经网络在图数据上的性能评估。

而且，针对图数据的联邦学习算法有别于常规算法简单的聚合行为，对算法实现提出了更多要求。一方面是参与者间交换的数据更多种多样，比如近期发表的 FedSage + 算法需要在参与者间交换节点的嵌入式表示以及一个关于邻居特征的生成模型。同时，更多样的信息交换导致各个参与者需要有更丰富的行为去处理收到的信息，例如 GCFL + 算法中 server 需要动态地对收集到的梯度进行聚类操作。现有框架大多以中心化的视角，让开发者以声明式的编程范式描述计算图来表达算法流程。这种方式虽然适用于实现常规的联邦学习算法（例如 FedAvg），却对实现上述联邦图学习算法带来了较高的开发门槛。

在这个背景下，学术界和工业界都对一款功能全面且对实现联邦图学习算法友好的框架具有强烈需求。

FederatedScope-GNN：为联邦图学习建立丰富基准

为了更好地满足上述需求，阿里巴巴达摩院智能计算实验室提出并基于联邦学习框架 FederatedScope 实现了针对图学习的库 FederatedScope-GNN，并以此工作形成了本次获奖论文《FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning》。

FederatedScope-GNN 针对图学习提供了 DataZoo 和 ModelZoo，分别为用户提供了丰富多样的联邦图数据集和相应的模型与算法。DataZoo 既包含若干新引入的数据集，也实现了大量不同类型的 splitters，用于通过单机图数据集来构造联邦图数据集。DataZoo 提供的大量数据集涵盖了不同领域、不同任务类型、不同统计异质性的联邦图数据，大大方便了使用者对所关注算法进行全面的评估。

ModelZoo 提供了丰富的图神经网络实现，既包含传统的 GCN、GIN、GAT、GraphSage 等架构，也提供了最新的 GPRGNN 等拆分了特征变换与消息传播的架构。同时，ModelZoo 也包含了像 FedSage + 和 GCFL + 这样最新的联邦图学习算法的实现。其中，得益于底层框架事件驱动（event-driven）的编程范式，参与者间多样的消息交换和参与者丰富的行为得以模块化地进行拆分实现（如图二所示）。ModelZoo 给研究人员复现相关工作以及建立新的基准带来了更多便利。

图二：基于事件驱动的底层框架 FederatedScope 来实现联邦图学习算法 FedSage+。

与此同时，针对联邦图学习对超参数敏感的现象，FederatedScope-GNN 还实现了模型调优 (model tuning) 相关的模块，包括多保真度的 Successive Halving Algorithm 和新近提出的联邦超参优化算法 FedEx，以及针对联邦异质任务的个性化（如图三所示，各个参与者被允许使用独立的特有神经架构而只聚合学习共享部分）。考虑到诸如 FedSage + 这类联邦图学习算法交换节点嵌入式表示等信息的特点，FederatedScope-GNN 提供了丰富的隐私评估算法对算法在隐私保护方面的能力进行检验。

图三：一个个性化图神经网络的示例，其中各参与方仅共享模型的一部分参数。

基于上述功能和特性，该获奖论文建立了全面丰富的关于联邦图学习的基准，包含不同图上任务、不同图神经网络架构、不同的联邦优化算法等，为该领域后续的研究奠定了坚实基础。同时，关于联邦设定下对图神经网络训练进行超参优化的实验，展示了对不同保真度维度进行权衡的潜在优势；关于个性化的实验，展示了应对各参与方同配度差异的有效性。

联邦学习下图数据补全值得关注

FederatedScope-GNN 给相关领域的研究和应用带来了极大的便利，其对应论文的获奖不仅反映了各位相关专家学者对这一工作的肯定，同时也体现了学界对联邦图学习领域未来长足发展的期冀。

一个值得指出且被广泛注意的研究方向是在保护好各参与方隐私的前提下，关注各参与方如何对其图数据进行补全，使得图神经网络能基于完整图结构进行消息传播。FederatedScope-GNN 所提供的功能和特性将支持研究与开发人员开展更多的相关研究、落地更多的实际应用。

论文作者简介

第一作者

王桢，阿里巴巴达摩院智能计算实验室算法专家。2017 年博士毕业于中山大学数据科学与计算机学院，读博期间以一作身份发表知识图谱补全算法 TransH，单篇引用量超 2500 次。毕业后加入阿里巴巴，曾任阿里云高级算法工程师，专注于强化学习方向。在达摩院工作期间，致力于联邦图学习等领域前沿研究，多次在 KDD Cup 比赛中取得高排名成绩，发表多篇国际顶级会议论文，并作为核心设计与开发人员参与开源 FederatedScope 平台。

通讯作者

李雅亮，阿里巴巴达摩院智能计算实验室高级算法专家，2017 年于纽约州立大学布法罗分校计算机科学与工程系取得博士学位。研究领域包括数据融合、因果推断、自动机器学习、隐私计算，研究成果发表于 KDD、ACL、SIGIR、NeurIPS、WWW、TKDE 等多个领域的顶尖国际会议与期刊。他担任了 NeurIPS'21、NeurIPS'22、AAAI'22 的领域主席，在 IJCAI 和 NeurIPS 上三次组织 workshop，在 CIKM'22 上组织了 AnalytiCup 比赛，并在 KDD、AAAI 上多次做了 Tutorial。

北京时间8月22日20:30-21:30，本文作者王桢将在机器之心视频号线上解读此研究，感兴趣的读者可以关注视频号观看直播。

理论阿里巴巴达摩院

相关技术

机器学习物体识别深度学习人脸识别图像分割

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源，如线程、进程或数据流；也可以指硬件资源，如处理器、网络连接或扩展卡。进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态，允许多位用户有效地同时共享系统资源，或达到指定的服务质量。 see planning for more details

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

知识图谱技术

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

阿里云机构

阿里云创立于2009年，是全球领先的云计算及人工智能科技公司，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力，让计算和人工智能成为普惠科技。阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云保持着良好的运行纪录。阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。 2014年，阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击，峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中，阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015，阿里云利用自研的分布式计算平台ODPS，377秒完成100TB数据排序，刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日，2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r

相关技术

机器学习计算机视觉

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/

相关技术

语音识别

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习，这部分研究被称为「联邦学习」（Federated Learning）。

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/

相关技术

机器学习自然语言处理知识图谱

数据融合技术

数据融合技术将来自多个传感器（信息源）的数据和相关数据的信息相结合，以实现比单独使用单个传感器（信息源）所能实现的更高的准确性和更具体的推论。

来源：Data Fusion

因果推断技术