2023/10/23 15:09

清华朱文武团队：开源世界首个轻量图自动机器学习库AutoGL-light

清华大学朱文武教授团队自 2020 年发布智图库（AutoGL）以来，在图自动机器学习的可解释性和可泛化能力等方面取得新进展，特别关注于图 Transformer、图分布外泛化（OOD）、图自监督学习等方面，发表图神经架构搜索评测基准，并在中国新一代开源创新服务平台 GitLink 上发布首个轻量智图库（AutoGL-light）。

智图库回顾

图（graph）是描述数据间关系的一般抽象，广泛存在于不同的研究领域中并有许多重要应用，例如社交网络分析、推荐系统、交通预测等互联网应用，新药物发现、新材料制备等科学应用（AI for Science），覆盖诸多不同领域。图机器学习在近年来取得了广泛关注。由于不同图数据在结构、性质和任务上千差万别，现有人工设计的图机器学习模型缺乏对不同场景与环境变化的泛化能力。图自动机器学习（AutoML on Graphs）是图机器学习发展的前沿，旨在针对给定的数据和任务，自动化地设计最优的图机器学习模型，在研究与应用上都有着极大的价值。

针对图自动机器学习问题，清华大学朱文武教授团队从 2017 年开始布局，并在 2020 年发布了智图库（AutoGL）—— 世界首个针对图自动机器学习的平台和工具包。

项目地址：https://github.com/THUMNLab/AutoGL

智图库已在 GitHub 获得了超千个星标，吸引了超过 20 个国家和地区数万次访问，并在 GitLink 上进行了发布。智图库包括一套完整的图自动机器学习流程，涵盖了主流的图自动机器学习方法。智图库通过图自动机器学习解决方案 AutoGL Solver，将图上的自动机器学习拆分为五个核心部分：图自动特征工程、图神经架构搜索（NAS）、图超参数优化（HPO）、图模型训练，以及图模型自动集成。智图库已经支持节点分类、异构图节点分类、链接预测、图分类等多种类型的图任务。

图自动机器学习研究新进展

针对目前图自动机器学习缺乏可解释性和可泛化能力等问题，智图团队在图自动机器学习研究取得了一系列新进展。

1. 图分布外泛化（OOD）架构搜索

针对图神经架构搜索无法处理图数据分布变化问题，提出了基于解耦自监督学习的图神经架构搜索方法，通过为每个图样本定制合适的图神经网络架构，有效增强了图神经架构搜索方法处理数据分布偏移的适应能力。该工作已发表于机器学习顶级国际会议 ICML 2022。

论文地址：https://proceedings.mlr.press/v162/qin22b/qin22b.pdf

2.大规模图架构搜索

针对现有图神经架构搜索无法处理大规模图问题，提出了基于架构 - 子图联合采样机制的超网络训练方法，通过重要性采样和同辈学习（peer learning）算法，突破了采样过程中的一致性瓶颈，极大程度提升了图神经架构搜索的效率，首次实现了单机可处理亿规模真实图数据。该工作已发表于机器学习顶级国际会议 ICML 2022。

论文地址：https://proceedings.mlr.press/v162/guan22d.html

3. 图神经架构搜索评测基准

针对图神经架构搜索缺乏统一的评测标准，以及评测过程消耗的计算资源量巨大问题，智图团队研究并提出了图神经架构搜索基准 NAS-Bench-Graph，首个针对图神经架构搜索的表格式基准。该基准可以高效、公平、可复现地比较不同图神经架构搜索方法，填补了针对图数据架构搜索没有基准的空白。NAS-Bench-Graph 设计了一个包含 26,206 种不同图神经网络架构的搜索空间，采用了 9 个常用的不同大小、不同类型的节点分类图数据，并提供了已经完全训练好的模型效果，可以在保证可复现性与公平比较的同时，极大地减少计算资源。该工作已发表于机器学习顶级国际会议 NeurIPS 2022。

项目地址：https://github.com/THUMNLab/NAS-Bench-Graph

4. 自动图 Transformer

针对目前人工设计的图 Transformer 架构难以取得最佳预测性能问题，提出了自动图 Transformer 架构搜索框架，通过统一的图 Transformer 搜索空间与结构感知的性能评估策略，解决了设计最佳图 Transformer 耗时长，难以得到最优架构的难题，该工作发表于机器学习顶级国际会议 ICLR 2023。

论文地址：https://openreview.net/pdf?id=GcM7qfl5zY

5. 鲁棒图神经架构搜索

针对目前图神经架构搜索无法处理对抗攻击问题，提出了鲁棒图神经架构搜索方法，通过在搜索空间中增加鲁棒性图算子并在搜索过程中提出了鲁棒性评价指标，增强了图神经架构搜索抵御对抗攻击的能力。该工作已发表于模式识别顶级国际会议 CVPR 2023。

论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf

6. 自监督图神经架构搜索

现有图神经架构搜索严重依赖于标签作为训练和搜索架构的指标，限制了图自动机器学习在标签匮乏场景的应用。针对该问题，智图团队提出了自监督图神经架构搜索方法，发现了驱动图数据形成的图因子与最优神经架构之间潜在的关系，采用了一种新颖的解耦自监督图神经架构搜索模型，实现了有效在无标签图数据上搜索最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。

7. 多任务图神经架构搜索

针对现有图神经架构搜索无法考虑不同任务对架构需求的差异性问题，智图团队提出了首个多任务图神经网络架构搜索方法，通过同时为不同图任务设计最优架构并采用课程学习捕捉不同任务之间的协作关系，有效实现了不同图任务定制最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。

轻量智图库

基于上述研究进展，智图团队在 CCF 指定开源平台 GitLink 发布了轻量智图（AutoGL-light），世界首个轻量图自动机器学习开源库。其整体架构图如图 1 所示。轻量智图主要具有以下特点：

^{图 1. 轻量智图框架图}

项目地址：https://gitlink.org.cn/THUMNLab/AutoGL-light

1. 模块解耦

轻量智图通过更全面的模块解耦方式，实现了对不同图自动机器学习流水线更便捷的支持，允许在机器学习流程的任何步骤中自由加入模块，满足用户定制化需求。

2. 自主定制能力

轻量智图库支持用户自主定制化图超参数优化（HPO）和图神经架构搜索（NAS）。在图超参数优化模块中，轻量智图提供了多种超参数优化算法和搜索空间，并支持用户通过继承基类来创建自己的搜索空间。在图神经架构搜索模块中，轻量智图实现了典型和最先进的搜索算法，且用户能够根据自己的需求自主轻松组合和定制搜索空间、搜索策略和评估策略的模块设计。

3. 广泛的应用领域

轻量智图的应用不仅仅局限于传统的图机器学习任务，而是进一步扩展到了更广泛的应用领域。目前，轻量智图已经支持了分子图、单细胞组学数据等 AI for Science 应用。在未来，轻量智图希望可以为不同领域图数据提供最先进的图自动机器学习解决方案。

4. GitLink 编程夏令营

以轻量智图为契机，智图团队深度参与了 GitLink 编程夏令营（GLCC），其是在 CCF 中国计算机学会指导下，由 CCF 开源发展委员会（CCF ODC）举办的面向全国高校学生的暑期编程活动。智图团队的两个项目 “GraphNAS 算法复现” 和 “图自动学习科学领域应用案例” 吸引了国内十余所高校的本科生和研究生报名。

夏令营举办过程中，智图团队与参与同学积极沟通，工作进展程度超出预期。其中，GraphNAS 算法复现项目在轻量智图中成功实现了上述介绍的图分布外泛化架构搜索（ICML’22）、大规模图架构搜索（ICML’22）、自动图 Transformer （ICLR’23），有效验证了轻量智图库的灵活性与自主定制能力。

图自动机器学习科学领域应用项目则在轻量智图实现了基于图的生物信息处理算法，包括用于单细胞 RNA 测序分析的代表性算法 scGNN、用于分子表征学习的代表性算法 MolCLR，以及用于分子结构预测的代表性算法 AutoGNNUQ，推动了图自动机器学习技术在 AI for Science 的应用。在 GitLink 编程夏令营中，轻量智图既丰富了算法和应用案例，也使参与的同学锻炼了开源软件开发等技能，在图自动机器学习方面培养人才，并为助力我国开源生态建设的发展贡献了自己的力量。

智图团队来自清华大学计算机系朱文武教授领导的网络与媒体实验室，核心成员包括助理教授王鑫、博士后张子威、博士生李昊阳、秦一鉴、张泽阳，硕士生关超宇等十余人。项目得到了国家自然科学基金委和科技部的大力支持。

产业AutoGL-lightAutoGL

相关技术

知识图谱

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

超参数优化技术

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

超参数技术

在机器学习中，超参数是在学习过程开始之前设置其值的参数。相反，其他参数的值是通过训练得出的。不同的模型训练算法需要不同的超参数，一些简单的算法（如普通最小二乘回归）不需要。给定这些超参数，训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式，并且必须对其进行调整以便模型能够最优地解决机器学习问题。在实际应用中一般需要对超参数进行优化，以找到一个超参数元组（tuple），由这些超参数元组形成一个最优化模型，该模型可以将在给定的独立数据上预定义的损失函数最小化。

来源：Wikipedia

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

自监督学习技术

一个例子中的内容特别多，而用一个例子做一个任务，就等于把其他的内容浪费了，因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分，用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分，就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

图分类技术

图分类是许多不同领域中实际应用的问题。为了解决这个问题，通常会计算某些图形统计数据（即图形特征），它们有助于区分不同类别的图形。在计算这些特征时，大多数现有方法会对全图进行处理。

来源：kdd

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记（表示为节点）的任务。

来源：paperswithcode

药物发现技术

在医学，生物技术和药理学领域，药物发现是发现新候选药物的过程。

来源：wiki