2024/08/29 14:18

港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence Lab@HKU)。第一作者是香港大学的博士后夏良昊，指导老师为黄超教授。香港大学数据智能实验室专注于人工智能和数据挖掘的研究，涵盖大语言模型、图神经网络、信息检索、推荐系统和时空数据挖掘等领域。实验室的研究成果在多个顶级会议上（如 WWW、SIGIR、KDD）获得了诸多荣誉，包括最具影响力论文和最佳论文候选。

AnyGraph 大模型，图模型泛化性的突破，致力于解决以下关键技术挑战：

结构异质性：应对图结构信息中的分布偏移。
特征异质性：处理跨图数据集的多样特征表示。
快速适配：使模型迅速适应新的不同的图学习领域，展现敏捷适应力。
大模型能力涌现：随着数据量和模型参数的增长，性能显著提升，释放模型潜能。

AnyGraph 的主要特点：

图混合专家（GraphMoE）：采用一系列专家模型，巧妙解决跨域异质性问题。
轻量级图专家路由机制：快速适应策略，使模型能够迅速响应新的数据集和领域。
自适应且高效的图专家模型：专为处理具有广泛图结构模式和特征空间的模型而定制设计。
广泛训练和测试：在 38 个多样化的图数据集上经过严格验证，展现出卓越的泛化能力和模型扩展性，证明了其涌现能力。

作为一种重要的数据形式，图数据在社交网络、学术网络、交通系统和生物网络等多个领域有广泛应用。图模型，例如图神经网络（GNN），学习图中节点的表征向量，来捕捉结构信息和节点上的特征信息，从而进行准确预测。

近年来，图学习领域取得了显著进展，主要得益于图神经网络（GNNs）的强大功能、一些微调方法的提出、以及最近一些将图数据空间与自然语言空间进行对齐的尝试。然而，当前最先进的图模型在跨领域的泛化性能上仍显不足。

现有方法往往严重依赖繁琐的微调过程，难以应对真实图结构复杂、多样化的特点。这种无法快速无缝适应新图域的能力，阻碍了图学习技术的广泛应用。因此，解决这一挑战，搭建一个具有跨领域、强泛化性能的图基础模型，对于图学习领域至关重要。

为此，研究团队推出 AnyGraph, 首次揭秘图大模型的 Scaling Law。

论文链接: https://arxiv.org/pdf/2408.10700
项目地址: https://github.com/HKUDS/AnyGraph
实验室主页: https://sites.google.com/view/chaoh

考虑到图数据的特点，以及受到语言和图像数据基础模型的启发，研究团队致力于解决以下几个关键问题：

结构异质性：不同应用领域的图数据在结构上可以存在极大的差别，例如节点的平均度数、紧密子图出现的频率、噪音和缺失边数据的比例等。图结构模式的多样性，对图基础模型的容纳能力提出了严重的挑战。
特征异质性：作为图数据的重要组成部份，节点特征在不同数据集中却存在普遍且极大的差异。例如，有的数据集采用离散的类别特征，有的可能采用连续的数值特征，有的采用文本语意 embedding，有的采用图结构的统计信息。此外，不同数据集的节点特征在向量维度这一基本特点上甚至都具有极大的差异。如何使图基础模型在零样本情况下处理不同图的异质特征，是一个关键挑战。
快速适应以实现广泛应用。有效的图基础模型的关键能力之一是能够高效地适应新的图数据集和领域。理想模型应能够迅速调整其参数和学习策略，以处理之前未见过的图数据集的结构和分布特征，而无需进行大量的重新训练或微调。
图基础模型的扩展定律与变革性能力。在计算机视觉和自然语言处理等领域中，成功的基础模型具有一个关键特性 —— 扩展定律（Scaling Law），即随着模型大小或训练数据集的增加，性能会系统地提升。探索图基础模型是否适用这一定律，也是本文研究的一个重要问题。

‍‍为了解决上述问题， AnyGraph 提出了以下关键性技术。

图 MoE 模型

不同图之间巨大的结构和特征差异，促使我们采用一种更 “松散” 的模型架构。AnyGraph 的 MoE 架构使用完全不同的专家模型来处理差异极大的图数据，模型无需在高度耦合的单个神经网络中巧妙地容纳不同数据的建模和处理过程。

具体来说，AnyGraph 的 MoE 架构包含多个图数据专家模型，每个专家模型均能对所有输入的图数据进行处理和预测，但所擅长的领域和模式不同。例如，有的专家模型擅长处理文本 embedding 特征，有的擅长处理图的邻接矩阵特征；有的专家模型擅长处理稠密数据，而有的擅长处理稀疏数据。

为了向每个专家模型分配适合的任务，AnyGraph 设计了一种专家路由机制，在训练和测试过程中，基于专家模型对数据的擅长程度进行匹配。

基于这一 MoE 架构，AnyGraph 对图数据的知识存储在不同的专家模型中，而不同的专家模型不需要进行相互的协调和耦合，从而更容易地容纳图数据之间的巨大差异，解决跨领域情况下的结构和特征异构性问题。

此外，MoE 架构使得 AnyGraph 仅需使用几分之一的模型参数，就可以完成单个大模型具备的训练和预测效果，大大提升了模型的快速适应能力。

下图展示的消融实验中，我们验证了采用单个模型（-MoE）相对于使用 MoE 架构的劣势。

轻量化的图专家路由机制

专家模型路由负责为输入的数据集匹配适合的专家，以进行更准确的预测、以及更适当的专家训练。

受到图自监督学习的启发，我们的图专家路由采用一种自监督损失，来衡量不同专家模型完成不同数据集的能力，以进行匹配。

在不引入额外标签数据的情况下，我们的自监督任务损失可以准确衡量专家模型处理不同图数据的误差程度。在模型调试过程中，我们发现这一自监督路由算法与遍历所有分配情况所得到的最优分配方案相差无几。

下图展示了我们的路由机制对数据集的分配情况，可以看到，相关的数据集总是被分到同样的专家模型中，例如 arxiv-ta, Photo, GReads, Fitness 等使用同样特征空间的数据集，以及 ML1M 和 ML10M 这两个同源数据集。此外，路由算法的准确性，不仅可以在训练数据集上观察到，在下图右半部分中，模型从未见过的测试数据集也可以进行准确路由。这体现了 AnyGraph 路由机制的通用性和模型的泛化性能。

自适应且高效的图专家

结构和特征的异构性，在模型设计的底层带来了诸多挑战，例如模型如何处理不同维度的特征向量、如何处理二维可变长的邻接矩阵、图专家如何设计可以高效处理不同图类型的变换和预测。

我们的图专家模型采用奇异值分解 SVD 方法对邻接矩阵和节点特征矩阵进行了维度统一。同时，这种统一的特征处理过程，具有一定的语义统一性，为跨数据集的零样本预测打下了基础。

由于我们在高层采用了 MoE 架构集成多个预测模型，我们在单个图专家中采用了简单的 MLP 网络，希望所有的建模问题都能通过采用合适的特征变换来解决。这样做大大增强了模型的效率，使 AnyGraph 甚至在训练效率上超过传统的图网络模型。

下图实验对比了 AnyGraph，以及普通的 GCN 方法、预训练方法 GraphCL 三种方法，在不同数据集下测试它们训练 100 个 step 所花费的时间。可以看到，尽管 AnyGraph 采用了更多的参数、更大的模型，但由于单个专家模型的高效性，训练时间与简单的基线方法相近、甚至更少。

此外，文章进一步探究了不同模型在应对新数据时的快速适应能力。下图实验对比了三种方法随着训练步数的增加，在训练数据集上性能的提升曲线。实验对比的方法包括对一个随机初始化的 GCN 模型进行从头训练、对一个预训练的 GraphCL 模型进行微调、以及对预训练的 AnyGraph 进行微调。

首先，可以观察到 AnyGraph 在未经微调时的零样本预测效果远优于两种基线方法。这源于 AnyGraph 出色的跨领域和零样本泛化能力。其次，AnyGraph 的效果曲线更快到达收敛状态，这体现了使用 MoE 架构、选择合适且高效的专家模型进行微调，可以更快地进行模型适应。此外，可以观察到 GraphCL 的预训练在 PPA 数据集上不仅没有为它带来性能的优势，反而对学习新数据造成了负面影响。这体现了图模型进行跨领域迁移的困难，这源于不同领域图数据巨大的异构性。

广泛训练和测试

数据集

AnyGraph 采用了共 38 个数据集进行训练和测试，数据集涵盖了电商、学术网络、生物信息网络、交通网络、网页关联网络、社交网络等多个类别。共包括 14,437,372 个节点和 199,265,688 条边。不同数据集采用的节点特征方法不同，囊括了无节点特征、不同的文本 embedding 方法、词袋特征、类别特征等不同的方法。具体数据集统计信息如下所示

为了更好地观测模型在大规模测试中的性能，我们将测试数据集分为了多个不同的集合。不同集合之间不包含同源数据集，例如收集自同一个网络服务平台；不同集合的数据集之间也不共享特征构建方法，例如同一种文本 embedding 方法，只可能出现在 Link1 和 Link2 两个集合的其中之一。通过这种方式，模型在零样本测试时完全未接触过测试数据的数据源和特征方法，能测试模型更真实的零样本性能表现。

文章提供了两个版本的预训练模型，分别在 Link1 和 Link2 两个集合上训练得到。在零样本测试中，这两个模型只会被用于测试它们未见过的数据集。例如使用在 Link1 上训练的模型测试 Link2 上的表现。在测试 Ecommerce、Academic、Others 这些包括了 Link1 和 Link2 两类数据集的情况时，文章分别采用两个预训练模型，对未见过的数据集进行测试，再整合计算数据集合的整体预测性能。

AnyGraph 的零样本预测性能

AnyGraph 在零样本预测上的效果如下所示：

除了与现有图模型的少样本预测能力进行对比，文章还对比了现有的其他图基础模型，一个是基于文本特征的 GraphGPT，一个是基于结构特征的 OpenGraph。可以看到，在更多数据集的泛化性能测试上，AnyGraph 取得了更好的效果。并且，文章还对比了一个除了文本特征的消融版本 AnyGraph-F，从而验证了 AnyGraph 对结构和文本两种特征均能进行有效的利用。

AnyGraph 的扩展定律

为了探索 AnyGraph 的性能增长是否符合扩展定律（Scaling Law），文章调整了 AnyGraph 的模型参数量和训练数据量。前者通过调整模型的表征维度、网络层数、专家数量，而后者通过从小到大增加训练数据集的数量。

测试效果如下所示，该实验分为对跨领域数据集的测试，以及对单个领域跨数据集的测试。在每个子图的实验中，包含了以下三项：

左：在模型参数量影响下，对未见过数据集的零样本预测性能变化
中：在模型参数量影响下，对训练过数据集的全样本预测性能变化
右：在训练数据量影响下，对未见过数据集的零样本预测性能变化

从结果可以得出以下几点结论：

AnyGraph 的零样本能力遵循 Scaling Law：虽然模型的全样本预测能力出现了增长的饱和，但其零样本能力随着参数量和数据量的增长不断上升，这说明 AnyGraph 模型的零样本能力遵循 Scaling Law，这一观测结果有两个重要原因，首先是测试的任务需要具备一定的难度，全样本预测只需要模型在训练数据集上具备泛化能力，相对较为简单，因此容易出现性能增长的饱和；而跨数据集、跨领域的零样本预测挑战性高，仍有很大的增长空间。其次，AnyGraph 的 MoE 架构使得它更容易容纳不同数据集的多样化图数据模式，从而具备更大的潜力随着参数量和数据量的增大而提升。
AnyGraph 的涌现能力：在测试曲线中常常可以观测到，模型性能常常在经历了一定的增长停滞后，出现突变式提升。这符合在视觉和文本大模型中观测到的涌现能力特点，说明 AnyGraph 具备了产生变革式泛化能力的基础。
不足的训练数据引入 bias：在数据量增长实验中可以观察到一个典型的特征，在早起的数据量增长中，模型性能经历了一个断崖式的下跌，这是由于训练数据不足，而新引入的训练数据与测试数据集存在较大的偏离，导致模型训练存在较大的 bias。这一问题可以通过扩大训练数据量解决，这样做不仅增强了模型性能，也可以增强训练的鲁棒性。

总结

AnyGraph 框架是一个高效且有效的图基础模型，专为应对不同图数据集中结构和特征异质性的多方面挑战而设计。AnyGraph 采用创新性的专家混合（MoE）架构，并结合动态专家路由机制，使其在跨域泛化能力方面达到了最先进的水平。在 38 个不同的图数据集上进行的广泛实验不仅突显了 AnyGraph 在零样本学习性能上的卓越表现，还证明了其对分布偏移的鲁棒性以及其遵循规模定律的能力，从而随着模型大小和数据量的增加而提高了预测精度。该模型在训练和推理效率上的表现，通过与现有方法的比较得到了验证，进一步巩固了其实际应用性。

产业AnyGraph

相关数据

信息检索技术

信息检索（IR）是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源：机器之心

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

奇异值分解技术

类似于特征分解将矩阵分解成特征向量和特征值，奇异值分解（singular value decomposition, SVD）将矩阵分解为奇异向量（singular vector）和奇异值（singular value）。通过分解矩阵，我们可以发现矩阵表示成数组元素时不明显的函数性质。而相比较特征分解，奇异值分解有着更为广泛的应用，这是因为每个实数矩阵都有一个奇异值分解，但未必都有特征分解。例如，非方阵型矩阵没有特征分解，这时只能使用奇异值分解。

来源：Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction Deep Learning Book

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中，我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。数据通常包含噪音，错误，例外或不确定性，或者不完整。错误和噪音可能会混淆数据挖掘过程，从而导致错误模式的衍生。去除噪音是数据挖掘（data mining）或知识发现（Knowledge Discovery in Database，KDD）的一个重要步骤。

来源：Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

特征构建技术

特征构造（也称为构造感应或属性发现）是一种数据增强形式，可将派生特征添加到数据中。特征构造可以使机器学习系统在各种学习任务中构建更准确的模型。

来源：i.giwebb.com

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念，而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

来源：机器之心

图网技术

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源：ImageNet 官网

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/