2019/01/07 14:44

Zonghan Wu等作者arXiv选自

图神经网络概述第三弹：来自IEEE Fellow的GNN综述

图神经网络（GNN）热度持续上升，之前我们曾介绍了清华两篇综述论文，参见：深度学习时代的图模型，清华发文综述图网络，和清华大学图神经网络综述：模型与应用。最近，IEEE Fellow、Senior Member 和 Member Zonghan Wu 等人又贡献了一篇图神经网络综述文章。这篇文章介绍了 GNN 的背景知识、发展历史、分类与框架、应用等，详细介绍了各种模型与方法，包括公式、模型图示、算法等，希望对大家有所帮助。

引言

深度网络的最新进展推进了模式识别和数据挖掘领域的研究。目标检测、机器翻译、语音识别等许多机器学习任务曾高度依赖手工特征工程来提取信息特征集合，但多种端到端深度学习方式（即卷积神经网络、长短期记忆网络和自编码器）改变了这种状况。深度学习在多个领域的成功主要归功于计算资源的快速发展（如 GPU）、大量训练数据的收集，还有深度学习从欧几里得数据（如图像、文本和视频）中提取潜在表征的有效性。例如 CNN 可以利用平移不变性、局部连通性和图像数据语意合成性，从而提取出与整个数据集共享的局部有意义的特征，用于各种图像分析任务。

尽管深度学习已经在欧几里得数据中取得了很大的成功，但从非欧几里得域生成的数据已经取得更广泛的应用，它们需要有效分析。例如，在电子商务领域，一个基于图的学习系统能够利用用户和产品之间的交互以实现高度精准的推荐。在化学领域，分子被建模为图，新药研发需要测定其生物活性。在论文引用网络中，论文之间通过引用关系互相连接，需要将它们分成不同的类别。

图数据的复杂性对现有机器学习算法提出了重大挑战，因为图数据是不规则的。每张图大小不同、节点无序，一张图中的每个节点都有不同数目的邻近节点，使得一些在图像中容易计算的重要运算（如卷积）不能再直接应用于图。此外，现有机器学习算法的核心假设是实例彼此独立。然而，图数据中的每个实例都与周围的其它实例相关，含有一些复杂的连接信息，用于捕获数据之间的依赖关系，包括引用、朋友关系和相互作用。

最近，越来越多的研究开始将深度学习方法应用到图数据领域。受到深度学习领域进展的驱动，研究人员在设计图神经网络的架构时借鉴了卷积网络、循环网络和深度自编码器的思想。为了应对图数据的复杂性，重要运算的泛化和定义在过去几年中迅速发展。例如，图 1 展示了受标准 2D 卷积启发得到的图卷积。本文旨在对这些方法进行全面概述，受众包括想要进入这一快速发展领域的研究人员和想要对比图神经网络算法的专家。

图 1：2D 卷积 vs. 图卷积

图神经网络简史

图神经网络的概念首先由 Gori 等人（2005）[16] 提出，并由 Scarselli 等人（2009）[17] 进一步阐明。这些早期的研究以迭代的方式通过循环神经架构传播邻近信息来学习目标节点的表示，直到达到稳定的固定点。该过程所需计算量庞大，而近来也有许多研究致力于解决这个难题。在本文中，图神经网络代表的是所有用于图数据的深度学习方法。

受到卷积网络在计算机视觉领域所获巨大成功的激励，近来出现了很多为图数据重新定义卷积概念的方法。这些方法属于图卷积网络（GCN）的范畴。Bruna 等人（2013）提出了关于图卷积网络的第一项重要研究，他们基于谱图论（spectral graph theory）开发了一种图卷积的变体。自此，基于谱的图卷积网络不断改进、拓展、进阶。由于谱方法通常同时处理整个图，并且难以并行或扩展到大图上，基于空间的图卷积网络开始快速发展。这些方法通过聚集近邻节点的信息，直接在图结构上执行卷积。结合采样策略，计算可以在一个批量的节点而不是整个图中执行，这种做法有望提高效率。

除了图卷积网络，近几年还开发出了很多替代的图神经网络。这些方法包括图注意力网络（GAT）、图自编码器、图生成网络以及图时空网络。关于这些方法的分类细节详见第三章。

图神经网络相关研究。Bronstein 等人用符号几何深度学习概述了非欧几里得领域的深度学习方法，包括图和流形。虽然这是对图卷积网络的第一次回顾，但这一项研究遗漏了几个基于空间的重要方法，包括 [15], [19], [24], [26], [27], [28]，这些方法更新了最新的基准。此外，这项调查没有囊括很多新开发的架构，这些架构的重要性不亚于图卷积网络。

对于另一项研究，Battaglia 等人 [29] 将图网络定位为从关系数据中学习的构建块，并在统一的框架下回顾了部分图神经网络。然而，他们整体的框架是高度抽象的，失去了每种方法在原论文中的见解。Lee 等人 [30] 对图注意力模型（一种图神经网络）进行了部分调查。最近，Zhang 等人 [31] 提出了一项关于图深度学习的最新调查，却忽略了对图生成网络和图时空网络的研究。总之，现有的研究没有一个对图神经网络进行全面的回顾，只覆盖了部分图卷积神经网络且检查的研究有限，因此遗漏了图神经网络替代方法的最新进展，如图生成网络和图时空网络。

图神经网络 vs. 网络嵌入。对图神经网络的研究与图嵌入或网络嵌入紧密相关，这也是数据挖掘和机器学习社区日益关注的一个话题 [32] [33] [34] [35], [36], [37]。网络嵌入旨在通过保留网络拓扑架构和节点内容信息，将网络顶点表示到低维向量空间中，以使任何后续的图分析任务（如分类、聚类和推荐）都可以通过使用简单的现成学习机算法（如用于分类的支持向量机）轻松执行。许多网络嵌入算法都是无监督算法，它们大致可分为三组 [32]，即矩阵分解 [38], [39]、随机游走 [40] 和深度学习方法。用于网络嵌入的深度学习方法同时还属于图神经网络，包括基于图自编码器的算法（如 DNGR [41] 和 SDNE [42]）和具有无监督训练的图卷积神经网络（如 GraphSage [24]）。图 2 描述了本文中网络嵌入和图神经网络的区别。

图 2：网络嵌入 vs 图神经网络。

本文作出的贡献如下：

新的分类体系：考虑到深度学习在图数据上的研究与日俱增，我们提出了图神经网络（GNN）的新分类体系。在这种分类体系下，GNN 被分成了 5 个类别：图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。我们确定了图神经网络和网络嵌入之间的区别，并在不同的图神经网络架构之间建立了联系。
全面的概述：这个综述提供了在图数据上的现代深度学习技术的全面概述。对每一种类型的图神经网络，我们提供了表征算法的细节描述，并做了必要的对比和对应算法的总结。
丰富的资源：这篇综述提供了图神经网络的丰富资源，其中包括当前最佳算法、基准数据集、开源代码和实践应用。这篇综述可以作为理解、使用和开发不同实际应用的深度学习方法的实践指南。
未来方向：这篇综述还强调了已有算法的当前限制，指出了这个快速发展领域未来的可能方向。

论文：A Comprehensive Survey on Graph Neural Networks

论文链接：https://arxiv.org/pdf/1901.00596v1.pdf

摘要：近年来，从图像分类到视频处理再到语音识别和自然语言处理，深度学习已经变革了多项机器学习任务。这些任务中的数据通常表示在欧几里得空间中。然而，越来越多的应用使用非欧几里得域生成的数据，并将它们表示为具有复杂关系和相互依赖关系的图。虽然图数据的复杂性对现有机器学习算法提出了重大挑战，但最近许多研究开始将深度学习方法扩展到图数据。

本文综述了数据挖掘和机器学习领域中的图神经网络（GNN），并按照新的方法对图神经网络的最新进展进行了分类。在关注图卷积网络的同时，他们还回顾了最近开发的其他架构，例如图注意力网络、图自编码器，图生成网络以及图时空网络等。我们还进一步讨论了图神经网络在多个领域的应用并总结了不同学习任务现有算法的开源代码及基准。最后，我们提出了这一快速发展领域的研究方向。

2. 定义

在这一节，我们提供基础图概念的定义。为了方便查询，我们在表 1 总结了常用的符号。

表 1：常用符号。

3. 分类与框架

这一部分内容给出了图神经网络的分类方法。我们考虑到了所有能与神经架构组合成图神经网络的可微图模型，把图神经网络最终分类为：图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络。这些网络中，图卷积网络在捕捉架构依存关系上扮演着核心角色。如下图 3 所示，属于其他类别的方法部分使用图卷积网络作为基础。表 2 总结了每个类别的代表性方法。

图 3：图神经网络分类

表 2：图神经网络代表性论文

下图 4 展示了图卷积网络节点表征学习的过程。

图 4：有多层 GCN 层的图卷积网络变体。通过从邻域聚合特征信息，一个 GCN 层把每个节点的隐藏表征进行压缩。在特征聚合之后，非线性置换被应用到生成的输出上。通过多层堆叠，每个节点的最终隐藏表征从后续邻域获得信息。

下图 5 展示了多个建立在 GCN 上的图神经网络模型。

图 5：建立在 GCN 上的不同图神经网络模型。

下图展示了图卷积网络和图注意力网络在聚合邻近节点信息方面的区别。

3.2 框架

表 3：图卷积网络的总结。Node-level 输出与节点回归和分类任务相关，Edge-level 输出与边分类和链接预测任务相关，Graph-level 输出与图分类任务相关。

端到端训练框架。图卷积网络可以以（半）监督或纯无监督的方式在端到端学习框架中训练，依赖于学习任务和可用的标签信息。

节点级分类的半监督学习。给定部分节点被标记的单个网络，图卷积网络可以学习到一个鲁棒的模型，高效识别未标记节点的类别标签 [14]。为此，可以通过堆叠一系列的图卷积层和 softmax 层来建立端到端框架进行多类别分类。
图级分类的监督学习。给定一个图数据集，图级分类旨在预测整个图的类别标签 [55], [56], [74], [75]。这一任务的端到端学习可以利用一个结合了图卷积层和池化步骤的框架实现 [55], [56]。
图嵌入的无监督学习。如果图中无可用类别标签，我们可以在一个端到端框架中以完全无监督的方式学习图嵌入。这些算法通过两种方式利用边级（edge-level）信息。一种简单的方法是采用自编码器框架，其中编码器使用图卷积层将图嵌进潜在表征中，然后使用解码器重构图结构 [59], [61]。另一种方法是利用负采样方法，采样一部分节点对作为负对（negative pair），而图中已有的节点作为正对（positive pair）。然后在卷积层之后应用 logistic 回归层，以用于端到端学习 [24]。

4. 图卷积网络

这一章概览图卷积网络（GCN），这是很多复杂图神经网络模型的基础。GCN 方法分为两类，分别基于谱和空间。基于谱的方法通过从图信号处理的角度引入滤波器来定义图卷积，其中图卷积运算被解释为从图信号中去除噪声 [76]。基于空间的方法将图卷积表征为聚合来自近邻的特征信息。虽然 GCN 在节点级别上运行，但是图池化模块可以与 GCN 层交替，将图粗粒化为高级子结构。如图 5a 所示，这种架构设计可用于提取图级表征、执行图分类任务。下文会分别介绍、基于空间的 GCN 和图池化模块。

基于谱的 GCN 部分介绍了其背景、方法等，这些方法包括 Spectral CNN、Chebyshev Spectral CNN (ChebNet)、First order of ChebNet (1stChebNet) 和 Adaptive Graph Convolution Network (AGCN)。

基于空间的 GCN 分为两类：Recurrent-based Spatial GCN 和 Composition Based Spatial GCN。前者包括图神经网络（Graph Neural Networks，GNN）、门控图神经网络（Gated Graph Neural Networks，GGNN）和 Stochastic Steady-state Embedding (SSE)。后者涉及了：Message Passing Neural Networks (MPNN)、GraphSage。此外，这部分还介绍了这两大类之外的空间 GCN 变体，包括 Diffusion Convolution Neural Networks (DCNN)、PATCHY-SAN、Large-scale Graph Convolution Networks (LGCN)、Mixture Model Network (MoNet)。

SSE 算法。

这一章还从效率、通用性和灵活性方面，对比了基于谱的 GCN 和基于空间的 GCN，认为基于空间的 GCN 更具优势，也因此吸引了更多研究兴趣。

5 图卷积网络之外的模型

这部分概述了图卷积网络之外的其他图神经网络，包括图注意力神经网络、图自编码器、图生成模型和图时空网络。下表总结了每个类别下的主要方法。

表 4：图卷积网络之外的其他图神经网络概览。该表根据网络的输入、输出、目标任务和是否基于 GCN 总结了每种网络下的多种方法。输入列代表每种方法适合分布式图 (A)、有向图 (D) 还是时空图 (S)。

5.1 图注意力网络

注意力机制几乎成为序列任务中的标配。它的价值在于能够聚焦于对象最重要的部分。该机制被证明在多项任务中有用，如机器翻译和自然语言理解。由于注意力机制的模型容量越来越大，图神经网络在聚合信息、集成多个模型的输出、生成重要性导向的随机游走时，可以从注意力机制中获益良多。

这部分介绍了图注意力网络的多种方法，包括图注意力网络（Graph Attention Network，GAT）、门控注意力网络（Gated Attention Network，GAAN）、图注意力模型（Graph Attention Model，GAM）、注意力游走（Attention Walks）。

注意力机制对图神经网络的贡献有三部分，即在聚合特征信息时向不同近邻分配注意力权重、根据注意力权重集成多个模型，以及使用注意力权重引导随机游走。尽管我们把 GAT 和 GAAN 分类为图注意力网络的两种方法，但是它们都可以作为基于空间的卷积网络。二者的优势是它们可以适应性地学习近邻的重要性权重（如图 6 所示）。但是，由于我们必须计算每对近邻之间的注意力权重，因此计算成本和内存消耗会快速增长。

5.2 图自编码器

图自编码器是一类网络嵌入方法，旨在通过神经网络架构将网络顶点表征到低维向量空间。典型的解决方案是使用多层感知机作为编码器来获取节点嵌入，解码器重建节点的近邻统计，如正逐点互信息（positive pointwise mutual information，PPMI）或一阶、二阶接近度（proximities）[42]。最近，研究人员尝试在设计图自编码器时用 GCN 作为编码器、结合 GCN 和 GAN，或者结合 LSTM 和 GAN。

这部分介绍了基于 GCN 的自编码器和其他变体。基于 GCN 的自编码器部分介绍了：图自编码器（Graph Auto-encoder，GAE）、对抗正则化图自编码器（Adversarially Regularized Graph Autoencoder，ARGA）。其他变体包括：具备对抗正则化自编码器的网络表征（Network Representations with Adversarially Regularized Autoencoders，NetRA）、用于图表征的深度神经网络（Deep Neural Networks for Graph Representations，DNGR）、结构化深度网络嵌入（Structural Deep Network Embedding，SDNE）、深度递归网络嵌入（Deep Recursive Network Embedding，DRNE）。

DNGR 和 SDNE 仅基于拓扑结构学习节点嵌入，而 GAE、ARGA、NetRA 和 DRNE 需要基于拓扑信息和节点内容特征学习节点嵌入。图自编码器的一个挑战是邻接矩阵的稀疏性，会导致解码器正条目（positive entry）的数量远远少于负条目。为了解决这个问题，DNGR 重建了一个较稠密的矩阵——PPMI 矩阵，SDNE 对邻接矩阵的零条目进行惩罚，GAE 重新调整邻接矩阵中项的权重，NetRA 将图线性化为序列。

5.3 图生成网络

图生成网络的目标是基于一组可观察图来生成图。其中的很多方法都是领域特定的。例如，在分子图生成方面，一些研究将分子图的表征建模为字符串 SMILES [94], [95], [96], [97]。在自然语言处理中，生成语义图或知识图通常需要一个给定的句子 [98], [99]。最近，研究人员又提出了多个通用方法。一些研究将生成过程看成节点或边的形成 [64], [65]，而另一些则使用生成对抗训练 [66], [67]。该领域的方法要么使用 GCN 作为构造块，要么使用不同的架构。

这部分介绍了基于 GCN 的图生成网络和其他图生成网络。前者包括：分子生成对抗网络（Molecular Generative Adversarial Networks，MolGAN）和深度图生成模型（Deep Generative Models of Graphs，DGMG）；后者涉及 GraphRNN（通过两级循环神经网络使用深度图生成模型）和 NetGAN（结合 LSTM 和 Wasserstein GAN 从基于随机游走的方法中生成图）。

图 9：MolGAN 框架图示。

5.4 图时空网络

图时空网络同时捕捉时空图的时间和空间依赖。时空图具备全局图结构，每个节点的输入随着时间而改变。例如在交通网络中，使用每个传感器作为节点来连续记录某条道路的交通流动速度，其中交通网络的边由传感器对之间的距离决定。图时空网络的目标是预测未来节点值或标签，或预测时空图标签。近期研究探索了仅使用 GCN、结合 GCN 和 RNN 或 CNN，以及专用于图结构的循环架构。

这部分介绍了基于 GCN 的图时空网络和其他图时空网络。前者包括：Diffusion Convolutional Recurrent Neural Network (DCRNN)、CNN-GCN、时空 GCN（Spatial Temporal GCN，ST-GCN）。其他方法有 Structural-RNN，一种循环结构化框架。

DCRNN 的优势是能够处理长期依赖，因为它具备循环网络架构。尽管 CNN-GCN 比 DCRNN 简单一些，但 CNN-GCN 能够更高效地处理时空图，这要归功于 1D CNN 的快速实现。时空 GCN 将时间流作为图的边，这导致邻接矩阵的大小呈平方增长。一方面，它增加了图卷积层的计算成本。另一方面，要捕捉长期依赖，图卷积层必须多次堆叠。StructuralRNN 在同一个语义组内共享相同的 RNN，从而改善了模型效率，但是 StructuralRNN 需要人类先验知识来分割语义组。

6 应用

图神经网络应用广泛。下面将首先介绍在文献中频繁使用的基准数据集。接着将报告各种方法在四种常用数据集上的基准性能，并列出可用的图神经网络开源实现。最后，我们将介绍图神经网络在各个领域的实际应用案例。

6.1 数据集

表 5：常用数据集总结。

6.2 基准和开源实现

表 6：各种方法在四种最常用数据集上的基准性能。以上列出的方法都使用相同的训练、验证和测试数据集进行评估。

表 7：开源实现概览。

6.3 实际应用案例

本文按领域介绍了 GNN 的应用，包括计算机视觉、推荐系统、交通、化学等。

7 未来方向

加深网络。深度学习的成功在于深度神经架构。例如在图像分类中，模型 ResNet 具有 152 层。但在图网络中，实证研究表明，随着网络层数增加，模型性能急剧下降 [147]。根据论文 [147]，这是由于图卷积的影响，因为它本质上推动相邻节点的表示更加接近彼此，所以理论上，通过无限次卷积，所有节点的表示将收敛到一个点。这导致了一个问题：加深网络是否仍然是学习图结构数据的好策略？

感受野。节点的感受野是指一组节点，包括中心节点和其近邻节点。节点的近邻（节点）数量遵循幂律分布。有些节点可能只有一个近邻，而有些节点却有数千个近邻。尽管采用了采样策略 [24], [26], [27]，但如何选择节点的代表性感受野仍然有待探索。

可扩展性。大部分图神经网络并不能很好地扩展到大型图上。主要原因是当堆叠一个图卷积的多层时，节点的最终状态涉及其大量近邻节点的隐藏状态，导致反向传播变得非常复杂。虽然有些方法试图通过快速采样和子图训练来提升模型效率 [24], [27]，但它们仍无法扩展到大型图的深度架构上。

动态性和异质性。大多数当前的图神经网络都处理静态同质图。一方面，假设图架构是固定的。另一方面，假设图的节点和边来自同一个来源。然而，这两个假设在很多情况下是不现实的。在社交网络中，一个新人可能会随时加入，而之前就存在的人也可能退出该社交网络。在推荐系统中，产品可能具有不同的类型，而其输出形式也可能不同，也许是文本，也许是图像。因此，应当开发新方法来处理动态和异质图结构。

理论图神经网络论文综述论文图卷积网络

35 2

相关技术

自然语言处理 Embodied AI

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

半监督学习技术

半监督学习属于无监督学习（没有任何标记的训练数据）和监督学习（完全标记的训练数据）之间。许多机器学习研究人员发现，将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理（例如转录音频片段）或物理实验（例如，确定蛋白质的3D结构或确定在特定位置处是否存在油）。因此与标签处理相关的成本可能使得完全标注的训练集不可行，而获取未标记的数据相对便宜。在这种情况下，半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣，也是人类学习的典范。

来源：Wikipedia

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

结构学习技术

结构化预测是监督学习，分类和回归的标准范式的一种推广。所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

来源：PyStruct Coursera

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

自然语言理解技术

自然语言理解是人工智能的核心课题之一，也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间，都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻，它一方面承载着机器和人的交流，另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯，机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA（Ask Me Anything）栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

来源：机器之心

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

表征学习技术

在机器学习领域，表征学习（或特征学习）是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前，机器学习研究人员需要利用手动特征工程（manual feature learning）等技术从原始数据的领域知识（domain knowledge）建立特征，然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

数据挖掘技术

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

来源：维基百科

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征，使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用，实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事，应用机器学习其实基本上是在做特征工程。”

来源：Wikipedia

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

先验知识技术

先验（apriori ；也译作先天）在拉丁文中指“来自先前的东西”，或稍稍引申指“在经验之前”。近代西方传统中，认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验，比如，数学式子2+2=4；恒真命题“所有的单身汉一定没有结婚”；以及来自纯粹理性的推断“本体论证明”

来源：维基百科

支持向量机技术

在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

来源：Wikipedia

图论技术

图论是以“图”为研究对象的一个数学分支，是组合数学和离散数学的重要组成部分。图是用来对对象之间的成对关系建模的数学结构，由“顶点”（又称“节点”或“点”）以及连接这些顶点的“边”（又称“弧”或“线”）组成。值得注意的是，图的顶点集合不能为空，但边的集合可以为空。图可能是无向的，这意味着图中的边在连接顶点时无需区分方向。否则，称图是有向的。

来源：Wikipedia

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

正则化技术

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；而测试误差会先减小，达到最小值后又增大。当选择的模型复杂度过大时，过拟合现象就会发生。这样，在学习时就要防止过拟合。进行最优模型的选择，即选择复杂度适当的模型，以达到使测试误差最小的学习目的。

来源：李航著统计学习方法清华大学出版社

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息（如声音、图像和生物测量）”的函数。例如，信号处理技术用于提高信号传输的保真度、存储效率和主观质量，并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此，对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

来源：Roland Priemer (1991). Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

生成对抗网络技术

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源：Generative Adversarial Networks

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题（vanishing gradient problem over backpropagation-through-time)，重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳，是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能，LSTM经常被用在具有时间序列特性的数据和场景中。

来源：Hochreiter, Sepp & Schmidhuber, Jürgen. (1997). Long Short-term Memory. Neural computation. 9. 1735-80. 10.1162/neco.1997.9.8.1735.

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

图网技术

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源：ImageNet 官网

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

来源：百度百科