PaperWeekly原创

2020/02/03 11:53

这10篇硬核论文，让你宅家也能更了解图神经网络

各位炼丹师，最近好吗？

掐指一算，今天是宅在家里的第十天。这个春节，可能是很多人从出生以来过得最漫长的一个春节。

以往，吃吃喝喝走街串巷同学聚会的春节总是转瞬即逝，还没来得及打开寒假作业、还没来得及倒时差、清清肠、看看书、刷刷剧，年就过去了。

而现在，我们呆在家里，忧心忡忡地时刻看着手机，也不禁想念起那些自由自在上街、上班、上课的忙碌生活。

总有百无聊赖的时候，需要些打发时间的好主意。有人开始学习做饭、有人把猫狗撸秃、有人躺在沙发上做白日梦、有人失眠、有人焦虑、有人思考。而我们整理了一份图神经网络领域的论文清单，希望给大家的闭关生活多添一点灵感。

#ICLR 2020

@崔克楠

图卷积网络已经成功被应用到图表示学习的很多应用当中。但是目前的图卷积网络中仍有两个缺陷限制了他们的表达学习能力，一是在节点信息汇聚的过程中，以往的 mean，max pooling 操作会丢失掉了节点的结构信息，无法区分一些特殊的非同构数据。二是对于一些 disassortative 的图，以往的相邻节点的定义方法无法利用上在图结构上距离较远的节点。

本文针对以上两个限制，为图卷积网络提出了一种新的邻居节点定义方法和汇聚方式。主要分为三步，节点嵌入，从图结构和节点嵌入空间一起选取相邻节点，两阶段的节点汇聚。最终作者在八个数据集，按照 6:2:2 的比例划分数据集，超越了 GCN 和 GAT 的节点分类效果，并给出了对照试验验证了各个模块的有效性。

* 论文链接：https://www.paperweekly.site/papers/3358

* 源码链接：https://github.com/anonymous-conference-submission/geom-gcn/

#ICLR 2020

@崔克楠

该文章提出了一种基于图卷积网络的 inductive，并且不使用辅助信息的矩阵补全方法。矩阵补全作为一个经典的问题，在许多领域有着应用，例如推荐系统。以往的方法比如低秩矩阵分解将矩阵分解成两个向量的乘积，他们往往是 transductive 的，不能够泛化到新的矩阵行和列上。

KDD 2018 的 GCMC 应用 node-level 的图卷积网络在 bipartie graph 上学习用户和物品特征表达，但其仍属于 transductive 的方法，而同为 KDD 2018 的 pinsage 虽然是 inductive 的模型，但是要依赖辅助信息如特征，并且特征的质量往往会影响模型的效果。

本文提出一种基于图卷积网络的 inductive 矩阵补全方法，使得模型不依赖特征就可以泛化到新用户和新物品的矩阵补全方法。该方法主要由三步构成，包括了：1）抽取包含目标用户和物品的 sub-graph；2）为 subgraph 中不同的节点打上标签；3）graph-level 的图卷积网络进行评分预测。

最终作者在 4 个数据集上取得最好的表现效果，值得一提的是在 movielens 数据集上训练的模型在 Douban 数据集上进行测试，也能够超越一大部分 baseline，显出该方法有着良好的 transfer 能力。

* 论文链接：https://www.paperweekly.site/papers/3360

* 源码链接：https://github.com/muhanzhang/IGMC

#ICLR 2020

@崔克楠

本文解释了图卷积网络在 graph data 上的表征学习是如何受益于数据当中的拓扑信息和特征信息。图卷积网络在图表征学习上已经被广泛使用，但是很少工作解释为什么图卷积网络在这些数据集上增益的来源是什么。

这篇工作提出了两个 smoothness metric 来衡量 graph data 中的特征相似度和标签相似度。作者借助于两个 metric，基于 GAT 的 attention 方式进行改进，将其融入图卷积网络的框架中，最终取得了在数据集上的不错效果，更加重要的是作者利用上述两个指标刨析了各个数据集的特点。

* 论文链接：https://www.paperweekly.site/papers/3357

* 源码链接：https://github.com/yifan-h/CS-GNN

#ICLR 2020

@崔克楠

本文提出了一个针对超图 hyper-graph 的图卷积网络框架。对于超图的图表示学习目的在于捕捉图当中的 hyper-edge 中的 higher-order 关系。以往的 hyper-graph 表示学习方法往往基于两点假设，一是 hyper-edge 是可分解的，例如 HEBE 模型；其二是 hyper-edge 中的节点个数为固定，例如 DHNE 模型。

本文所提出的基于 self-attention 的图卷积网络打破了上述两点假设，并且第一次提出了 hyper-edge prediction 的任务，并在四个数据集上取得了最优的效果。

* 论文链接：https://www.paperweekly.site/papers/3353

* 源码链接：https://drive.google.com/drive/folders/1kIOc4SlAJllUJsrr2OnZ4izIQIw2JexU?usp=sharing

#NeurIPS 2019

@崔克楠

本文提出了一种基于贝叶斯的图卷积网络。图卷积网络的众多方法都假设 graph 是可靠和干净的，但是在实际中 graph 可能是充满噪声的。本文提出将 graph 视为变量，在训练图神经网络的同时，利用变分推断去推断 graph 的分布。

参考常见的变分推断方法，该文为 graph 设置了伯努利的先验分布形式，该伯努利分布的参数基于已经观测到的边。对于变分分布的伯努利分布参数的重参，该文采用了低秩分解的方法。最终模型相比于普通的 GCN，在 noisy 的 graph 数据集上取得了最优的效果，并且 graph 的 noise 越多，提升效果越明显。

* 论文链接：https://www.paperweekly.site/papers/3347

#NeurIPS 2019

@崔克楠

本文提出了一个基于 graph 的半监督学习框架。基于 graph 的半监督学习算法在半监督任务上效果出众，例如 label propagation，他们基于的基本假设是一个节点的标签可以通过周围节点的类别来推测。但是在真实的世界中，许多的 graph 中节点之间存在边并不代表两个节点共属于同一类。

本文基于 WSDM 2018 的工作，提出了 graph aggrement model，其引入辅助任务帮助判断两个节点之间的边是否有助于当前的主任务，例如分类。并在主任务和辅助任务之间通过 co-training 的方式进行训练，最终在半监督任务上取得了优异的效果，超越了 GAT。

* 论文链接：https://www.paperweekly.site/papers/3329

* 源码链接：https://github.com/tensorflow/neural-structured-learning/tree/master/research/gam

#ICML 2019

@崔克楠

本文提出了新的框架能够使得以往的 graph neural networks (GNN) 在学习 GNN 网络的参数的同时学习图的离散结构。在某些领域中，图的结构信息通常是不完整的或者难以获取的。针对这种问题，以往的做法是利用 K nearst neighbor (kNN) 先生成节点之间的关系，如何选择K，以及利用节点的什么特征来作为 kNN 的输入使得上述方法表现较差。

在本篇论文中，作者利用基于梯度的超参优化方法来学习生成图的离散结构信息，来同时学习 GNN 网络对于某项任务（如节点分类）的参数。作者利用 GCN+Learnig structure 和 GCN 进行对比，在图结构信息部分丢失或者完全丢失的情况下，在 7 个数据集上均取得优势。

* 论文链接：https://www.paperweekly.site/papers/3247

* 源码链接：https://github.com/lucfra/LDS-GNN

#ICCV 2019

@崔克楠

本文提供了一个可微分的能够端到端的图匹配模型。图匹配任务是找到两个图当中所对应的节点，以及边与边之间的近似关系，在许多计算机视觉任务当中都有着重要的作用。除了 NP completeness 的挑战外，图匹配任务的另外一个挑战在于如何融合节点界别和结构级别的信息来帮助图匹配任务。

以往的方法主要采用一个预先定义的近似函数，例如基于欧式距离的 guassian kernel。本文利用图卷积网络，在图匹配任务中对 node 进行编码，该卷积过程涉及到图内节点信息传播和不同图之间的节点信息传播。最终作者的方法在人工生成的数据和 VOC 的数据集上都取得了优异的效果。

* 论文链接：https://www.paperweekly.site/papers/3335

* 源码链接：https://github.com/Thinklab-SJTU/PCA-GM

#ICLR 2019

@崔克楠

本文提出了一种基于贝叶斯的图卷积网络。尽管图卷积网络已经成功应用到很多任务上，但是他们没有考虑到所观察到的 graph 具有一定的不确定性，graph 中部分节点之间的连接是噪声。

之前的工作假设观察到的 graph 是从 graph 参数模型中采样而来的，其中涉及到的 graph 的后验是基于已经观测到的 graph。本文进一步提出，对于 graph 的推断应当考虑节点特征和节点标签，这对于部分 graph 的任务来说尤其重要，最终本文提出模型在众多数据集上取得 state-of-the-art 的效果，尤其是在当标签较少的场景下，表现更为突出。

* 论文链接：https://www.paperweekly.site/papers/3346

#KDD 2019

@崔克楠

本文提供了一种新的在更大数据集上训练更深 GCN 网络的方法，该方法不仅训练速度更快，并且占用内存更少。

以往的 GCN 根据其训练方法可以分为 full gradient descent 和 mini-batch gradient descent，前者代表性方法为 kipf GCN，其训练时需要加载所有节点的 embedding，因此有较大的内存开销。后者代表方法为 graph sage，其训练时因为需要在每层进行随机采样，导致许多节点 embedding 在不同 batch 的时候重复计算，因而计算时间开销较大。

本文提出预先对 graph 数据集进行聚类预处理，使用预处理后的数据的图结构信息来训练模型。最终在 200 万规模的数据上，达到了内存比原来消耗少 3 倍，速度接近一倍，精度相持平的效果。

* 论文链接：https://www.paperweekly.site/papers/3251

* 源码链接：https://github.com/benedekrozemberczki/ClusterGCN

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论图神经网络论文

相关数据

半监督学习技术

半监督学习属于无监督学习（没有任何标记的训练数据）和监督学习（完全标记的训练数据）之间。许多机器学习研究人员发现，将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理（例如转录音频片段）或物理实验（例如，确定蛋白质的3D结构或确定在特定位置处是否存在油）。因此与标签处理相关的成本可能使得完全标注的训练集不可行，而获取未标记的数据相对便宜。在这种情况下，半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣，也是人类学习的典范。

来源：Wikipedia

变分推断技术

see Variational Bayesian methods (approximation)

来源：Variational Inference: A Review for Statisticians

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

参数模型技术

在统计学中，参数模型是可以使用有限数量的参数来描述的分布类型。这些参数通常被收集在一起以形成单个k维参数矢量θ=（θ1，θ2，...，θk）。

来源：Wikipedia

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科

矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算，这些运算可以在分解的矩阵上执行，而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

来源：矩阵分解

图卷积网络技术

假设有一张图，要做分类，传统方法需要手动提取一些特征，比如纹理啊，颜色啊，或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器，给到一个输出标签，告诉它是哪个类别。而深度学习是输入一张图，经过神经网络，直接输出一个标签。特征提取和分类一步到位，避免了手工提取特征或者人工规则，从原始数据中自动化地去提取特征，是一种端到端（end-to-end）的学习。相较于传统的方法，深度学习能够学习到更高效的特征与模式。

来源：图卷积网络

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记（表示为节点）的任务。

来源：paperswithcode