各位炼丹师,最近好吗?
掐指一算,今天是宅在家里的第十天。这个春节,可能是很多人从出生以来过得最漫长的一个春节。
以往,吃吃喝喝走街串巷同学聚会的春节总是转瞬即逝,还没来得及打开寒假作业、还没来得及倒时差、清清肠、看看书、刷刷剧,年就过去了。
而现在,我们呆在家里,忧心忡忡地时刻看着手机,也不禁想念起那些自由自在上街、上班、上课的忙碌生活。
总有百无聊赖的时候,需要些打发时间的好主意。有人开始学习做饭、有人把猫狗撸秃、有人躺在沙发上做白日梦、有人失眠、有人焦虑、有人思考。而我们整理了一份图神经网络领域的论文清单,希望给大家的闭关生活多添一点灵感。
#ICLR 2020
@崔克楠
图卷积网络已经成功被应用到图表示学习的很多应用当中。但是目前的图卷积网络中仍有两个缺陷限制了他们的表达学习能力,一是在节点信息汇聚的过程中,以往的 mean,max pooling 操作会丢失掉了节点的结构信息,无法区分一些特殊的非同构数据。二是对于一些 disassortative 的图,以往的相邻节点的定义方法无法利用上在图结构上距离较远的节点。
本文针对以上两个限制,为图卷积网络提出了一种新的邻居节点定义方法和汇聚方式。主要分为三步,节点嵌入,从图结构和节点嵌入空间一起选取相邻节点,两阶段的节点汇聚。最终作者在八个数据集,按照 6:2:2 的比例划分数据集,超越了 GCN 和 GAT 的节点分类效果,并给出了对照试验验证了各个模块的有效性。
* 论文链接:https://www.paperweekly.site/papers/3358
* 源码链接:https://github.com/anonymous-conference-submission/geom-gcn/
#ICLR 2020
@崔克楠
该文章提出了一种基于图卷积网络的 inductive,并且不使用辅助信息的矩阵补全方法。矩阵补全作为一个经典的问题,在许多领域有着应用,例如推荐系统。以往的方法比如低秩矩阵分解将矩阵分解成两个向量的乘积,他们往往是 transductive 的,不能够泛化到新的矩阵行和列上。
KDD 2018 的 GCMC 应用 node-level 的图卷积网络在 bipartie graph 上学习用户和物品特征表达,但其仍属于 transductive 的方法,而同为 KDD 2018 的 pinsage 虽然是 inductive 的模型,但是要依赖辅助信息如特征,并且特征的质量往往会影响模型的效果。
本文提出一种基于图卷积网络的 inductive 矩阵补全方法,使得模型不依赖特征就可以泛化到新用户和新物品的矩阵补全方法。该方法主要由三步构成,包括了:1)抽取包含目标用户和物品的 sub-graph;2)为 subgraph 中不同的节点打上标签;3)graph-level 的图卷积网络进行评分预测。
最终作者在 4 个数据集上取得最好的表现效果,值得一提的是在 movielens 数据集上训练的模型在 Douban 数据集上进行测试,也能够超越一大部分 baseline,显出该方法有着良好的 transfer 能力。
* 论文链接:https://www.paperweekly.site/papers/3360
* 源码链接:https://github.com/muhanzhang/IGMC
#ICLR 2020
@崔克楠
本文解释了图卷积网络在 graph data 上的表征学习是如何受益于数据当中的拓扑信息和特征信息。图卷积网络在图表征学习上已经被广泛使用,但是很少工作解释为什么图卷积网络在这些数据集上增益的来源是什么。
这篇工作提出了两个 smoothness metric 来衡量 graph data 中的特征相似度和标签相似度。作者借助于两个 metric,基于 GAT 的 attention 方式进行改进,将其融入图卷积网络的框架中,最终取得了在数据集上的不错效果,更加重要的是作者利用上述两个指标刨析了各个数据集的特点。
* 论文链接:https://www.paperweekly.site/papers/3357
* 源码链接:https://github.com/yifan-h/CS-GNN
#ICLR 2020
@崔克楠
本文提出了一个针对超图 hyper-graph 的图卷积网络框架。对于超图的图表示学习目的在于捕捉图当中的 hyper-edge 中的 higher-order 关系。以往的 hyper-graph 表示学习方法往往基于两点假设,一是 hyper-edge 是可分解的,例如 HEBE 模型;其二是 hyper-edge 中的节点个数为固定,例如 DHNE 模型。
本文所提出的基于 self-attention 的图卷积网络打破了上述两点假设,并且第一次提出了 hyper-edge prediction 的任务,并在四个数据集上取得了最优的效果。
* 论文链接:https://www.paperweekly.site/papers/3353
* 源码链接:https://drive.google.com/drive/folders/1kIOc4SlAJllUJsrr2OnZ4izIQIw2JexU?usp=sharing
#NeurIPS 2019
@崔克楠
本文提出了一种基于贝叶斯的图卷积网络。图卷积网络的众多方法都假设 graph 是可靠和干净的,但是在实际中 graph 可能是充满噪声的。本文提出将 graph 视为变量,在训练图神经网络的同时,利用变分推断去推断 graph 的分布。
参考常见的变分推断方法,该文为 graph 设置了伯努利的先验分布形式,该伯努利分布的参数基于已经观测到的边。对于变分分布的伯努利分布参数的重参,该文采用了低秩分解的方法。最终模型相比于普通的 GCN,在 noisy 的 graph 数据集上取得了最优的效果,并且 graph 的 noise 越多,提升效果越明显。
* 论文链接:https://www.paperweekly.site/papers/3347
#NeurIPS 2019
@崔克楠
本文提出了一个基于 graph 的半监督学习框架。基于 graph 的半监督学习算法在半监督任务上效果出众,例如 label propagation,他们基于的基本假设是一个节点的标签可以通过周围节点的类别来推测。但是在真实的世界中,许多的 graph 中节点之间存在边并不代表两个节点共属于同一类。
本文基于 WSDM 2018 的工作,提出了 graph aggrement model,其引入辅助任务帮助判断两个节点之间的边是否有助于当前的主任务,例如分类。并在主任务和辅助任务之间通过 co-training 的方式进行训练,最终在半监督任务上取得了优异的效果,超越了 GAT。
* 论文链接:https://www.paperweekly.site/papers/3329
* 源码链接:https://github.com/tensorflow/neural-structured-learning/tree/master/research/gam
#ICML 2019
@崔克楠
本文提出了新的框架能够使得以往的 graph neural networks (GNN) 在学习 GNN 网络的参数的同时学习图的离散结构。在某些领域中,图的结构信息通常是不完整的或者难以获取的。针对这种问题,以往的做法是利用 K nearst neighbor (kNN) 先生成节点之间的关系,如何选择K,以及利用节点的什么特征来作为 kNN 的输入使得上述方法表现较差。
在本篇论文中,作者利用基于梯度的超参优化方法来学习生成图的离散结构信息,来同时学习 GNN 网络对于某项任务(如节点分类)的参数。作者利用 GCN+Learnig structure 和 GCN 进行对比,在图结构信息部分丢失或者完全丢失的情况下,在 7 个数据集上均取得优势。
* 论文链接:https://www.paperweekly.site/papers/3247
* 源码链接:https://github.com/lucfra/LDS-GNN
#ICCV 2019
@崔克楠
本文提供了一个可微分的能够端到端的图匹配模型。图匹配任务是找到两个图当中所对应的节点,以及边与边之间的近似关系,在许多计算机视觉任务当中都有着重要的作用。除了 NP completeness 的挑战外,图匹配任务的另外一个挑战在于如何融合节点界别和结构级别的信息来帮助图匹配任务。
以往的方法主要采用一个预先定义的近似函数,例如基于欧式距离的 guassian kernel。本文利用图卷积网络,在图匹配任务中对 node 进行编码,该卷积过程涉及到图内节点信息传播和不同图之间的节点信息传播。最终作者的方法在人工生成的数据和 VOC 的数据集上都取得了优异的效果。
* 论文链接:https://www.paperweekly.site/papers/3335
* 源码链接:https://github.com/Thinklab-SJTU/PCA-GM
#ICLR 2019
@崔克楠
本文提出了一种基于贝叶斯的图卷积网络。尽管图卷积网络已经成功应用到很多任务上,但是他们没有考虑到所观察到的 graph 具有一定的不确定性,graph 中部分节点之间的连接是噪声。
之前的工作假设观察到的 graph 是从 graph 参数模型中采样而来的,其中涉及到的 graph 的后验是基于已经观测到的 graph。本文进一步提出,对于 graph 的推断应当考虑节点特征和节点标签,这对于部分 graph 的任务来说尤其重要,最终本文提出模型在众多数据集上取得 state-of-the-art 的效果,尤其是在当标签较少的场景下,表现更为突出。
* 论文链接:https://www.paperweekly.site/papers/3346
#KDD 2019
@崔克楠
本文提供了一种新的在更大数据集上训练更深 GCN 网络的方法,该方法不仅训练速度更快,并且占用内存更少。
以往的 GCN 根据其训练方法可以分为 full gradient descent 和 mini-batch gradient descent,前者代表性方法为 kipf GCN,其训练时需要加载所有节点的 embedding,因此有较大的内存开销。后者代表方法为 graph sage,其训练时因为需要在每层进行随机采样,导致许多节点 embedding 在不同 batch 的时候重复计算,因而计算时间开销较大。
本文提出预先对 graph 数据集进行聚类预处理,使用预处理后的数据的图结构信息来训练模型。最终在 200 万规模的数据上,达到了内存比原来消耗少 3 倍,速度接近一倍,精度相持平的效果。
* 论文链接:https://www.paperweekly.site/papers/3251
* 源码链接:https://github.com/benedekrozemberczki/ClusterGCN