2019/01/18 18:21

Aryan Misra作者萝卜兔编辑

如何理解和使用胶囊网络

卷积神经网络取得了很大的成功，也很受欢迎。但是，它也不是适合所有的任务，架构上的一些缺陷，导致它并不能很好的完成一些任务。

CNNs提取图像中的特征并通过特征学习识别物体。网络底层学习一般性特征，比如轮廓，随着层数的加深，提取的特征更加复杂，比如像眼睛、鼻子或者整张脸。然后，网络用它学习到的所有特征作出最后的预测。这里存在一个缺陷，在CNN中没有可用的空间信息，而用于连接的池化层，效率实际上也非常低。

Reddit上有 Geoffrey Hitton关于pooling的看法。

在CNN中应用pooling是一个很大的错误，它工作得很好的事实是一场灾难。

最大池化

在最大池化过程中，很多重要的信息都损失了，因为只有最活跃的神经元会被选择传递到下一层，而这也是层之间有价值的空间信息丢失的原因。为了解决这个问题，Hinton提出使用一个叫做“routing-by-agreement”的过程。这意味着，较为底层的特征（手、眼睛、嘴巴等）将只被传送到与之匹配的高层。如果，底层特征包含的是类似于眼睛或者嘴巴的特征，它将传递到“面部”的高层，如果底层特征包含的是类似手指、手掌等特征，它将传递到“手”的高层。

这个完整的解决方案将空间信息编码为特征，同时使用动态路由（dynamic routing）。这由Geoffrey Hinton在NIPS2017提出，称为胶囊网络（Capsule Networks）。

胶囊

当我们通过计算机图形渲染来构建对象时，我们需要指定并提供一些几何信息，比如告诉计算机在何处绘制对象，该对象的比例，角度以及其他空间信息。而这些信息全部表示出来，是屏幕上的一个对象。但是，如果我们只是通过观察照片中的物体来提取信息呢？这就是胶囊网络（Capsule Network）的核心思想——逆渲染（inverse rendering）。

让我们一起来理解Capsules以及它是怎么解决提供空间信息的问题的。

当看到CNN是背后的逻辑时，我们开始注意到它的架构缺陷。看下图：

这看起来并不是一张十分正确的人脸图，虽然图中包含了人脸的每一个组成部分。人类可以很容易分辨出这不是一张正确的人脸，但是CNNs却很难判断这不是一张真实的人脸，因为它仅仅看图像中的这些特征，而没有注意这些特征的姿态信息。

CNN如何分类这张图像

胶囊网络（capsule networks）解决这个问题的方法是，实现对空间信息进行编码同时也计算物体的存在概率。这可以用向量来表示，向量的模表示特征存在的概率，向量的方向表示特征的姿态信息。

Capsule 的工作原理归纳成一句话就是，所有胶囊检测中的特征的状态的重要信息，都将以向量的形式被胶囊封装。

这里可以参照论文中关于胶囊网络的定义，论文地址：https://arxiv.org/pdf/1710.09829.pdf

在计算机图形应用程序中，比如设计或者渲染，对象通常是通过参数设置来呈现的。而在胶囊网络中，恰恰相反，网络是要学习如何反向渲染图像——通过观察图像，然后尝试预测图像的实例参数。

胶囊网络通过重现它检测到的对象，然后将重现结果与训练数据中的标记示例进行比较来学习如何预测。通过反复的学习，它将可以实现较为准确的实例参数预测。

论文 Dynamic Routing Between Capsules 中建议使用两个损失函数。主要是为了实现capsules之间的等效性。这意味着，在图像中移动特征会改变Capsule向量，但是不影响特征存在的概率。底层Capsules提取特征之后，就传递到匹配的更高层的Capsules。

胶囊网络分类人脸

如上图所示，所有特征的姿态参数用来决定最后结果。

胶囊内的操作

在传统神经网络里，一个神经元一般会进行如下的标量操作：

输入标量的标量加权；
对加权后的标量求和；
对和进行非线性变换生成新标量。

而在胶囊网络里面，这些操作有有一些的改变：

1、输入向量与权重矩阵的矩阵乘法。这编码了图像中低级特征和高级特征之间非常重要的空间关系。

2、加权输入向量。这些权重决定当前胶囊将其输出发送到哪个更高级的胶囊。这是通过动态路由（dynamic routing）的过程完成的。

3、对加权后的向量求和。（这一点没什么差别）

4、非线性化使用squash函数。该函数将向量进行压缩使得它的最大长度为1，最小长度为0，同时保持其方向不变。

胶囊之间的动态路由

在路由（routing）过程中，下层胶囊将输入向量传送到上层胶囊。对于可以路由到的每个更高层的胶囊，下层胶囊通过将自己的输出乘上权重矩阵来计算预测向量。如果预测向量与上层胶囊的输出具有较大的标量积，则存在自顶向下的反馈，具有增加上层胶囊耦合系数，减小其他胶囊耦合系数的效果。

MNIST胶囊网络的架构

CapNet 架构

编码器

编码器用于获取图像输入，并学习如何将图像表示为16维向量，包含渲染图像所需要的所有信息。

1、Conv Layer——提取用于后续胶囊分析的特征。论文中包含大小为9*9*1的256个卷积核。

2、PrimaryCaps——这是下级胶囊层，包含32个不同的胶囊，每个胶囊将第8个9*9*256的卷积核用于之前卷积层的输出，并输出4D向量。

3、DigitCaps——上级胶囊层，使用动态路由的主要胶囊层，该层输出16D向量，包含重建对象所需要的实例化参数。

解码器

解码器架构

解码器从DigitCaps获取16D向量，并学习如何解码图像的实例参数。解码器与Euclidean distance 损失函数一起使用，确定重建特征与实际特征的相似度。解码器是一个非常简单的前馈网络。

为什么要使用胶囊网络

虽然，CapsNet在简单的数据集MNIST上表现出了很好的性能，但是在更复杂的数据集如ImageNet、CIFAR-10上，却没有这种表现。这是因为在图像中发现的信息过多会使胶囊脱落。

胶囊网络仍然处于研究和开发阶段，并且不够可靠，现在还没有很成熟的任务。但是，这个概念是合理的，这个领域将会取得更多的进展，使胶囊网络标准化，以更好的完成任务。

原文链接：

https://towardsdatascience.com/capsule-networks-the-new-deep-learning-network-bd917e6818e8

极验

极验是全球顶尖的交互安全技术服务商，于2012年在武汉成立。全球首创 “行为式验证技术” ，利用生物特征与人工智能技术解决交互安全问题，为企业抵御恶意攻击防止资产损失提供一站式解决方案。

理论胶囊网络CNN最大池化

相关数据

池化技术

池化（Pooling）是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。

来源：cs231n

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

最大池化技术

最大池化（max-pooling）即取局部接受域中值最大的点。

来源：百度百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

CapsNet技术

Hinton 等人实现了一个简单的 CapsNet 架构，该架构由两个卷积层和一个全连接层组成，其中第一个为一般的卷积层，第二个卷积相当于为 Capsule 层做准备，并且该层的输出为向量，所以它的维度要比一般的卷积层再高一个维度。最后就是通过向量的输入与 Routing 过程等构建出 10 个 v_j 向量，每一个向量的长度都直接表示某个类别的概率。

来源：机器之心