机器之心翻译

2019/05/13 15:05

不用挨个数数，DNN也能「一眼看出」目标数量

在图像分类中，目标的「数量感」也会自发地体现在深度神经网络中。

计算机能够完成很多数字任务。人类在分摊餐厅账单时都觉得很难算，但一台现代计算机能够在短短一秒钟内完成数百万次计算。然而，人类却拥有一种与生俱来的直观的数量感，这帮助我们首先创建了计算机。

但不同于计算机，当看到四只猫、四个苹果和数字符号「4」时，人类不用计算，就能发现共同之处—抽象概念「4」。这显示出了人类思维与机器的差别，也解释了人类为什么尚未利用自身所拥有的智慧来发展人工智能。

那么，机器是否也能拥有这种抽象的“数量感”？最近发表在Science Advances上的一篇论文似乎回答了这个问题，来自德国图宾根大学的研究者发现，人工智能已经可以自然形成与人类类似的数量感。

论文：Number detectors spontaneously emerge ina deep neural network designed for visual object recognition

论文链接：https://advances.sciencemag.org/content/5/5/eaav7903

计算机在计算时，人们必须明确指定自己想要计算什么。人们需要分配一部分内存来维护计数器，因而可以先将它设置为零，之后将想要记录的项目添加上去。这意味着计算机可以计算时间（电子钟信号）、文字（如果存储在计算机内存中）以及数字图像中的目标。

计算数字图像中的目标有一定难度，因为在计算这些目标之前人们必须告知计算机它们具体是什么样的。但是这些目标并不总是相同的--光照、位置和姿态的变化以及单个样本之间的结构差异都会产生影响。所有用于检测图像中目标的有效计算方法，都是通过抽取图像高级特征，并创建目标的统计图像来实现，这就是一种学习方法。

那么处理识别类别或目标位置以外，人工神经网络还能学习到“数量感”吗？在德国图宾根大学的这项研究中，研究者将网络单元调谐为抽象数量，并对比真实神经元在“数量感”上的活动。研究者最终表明，在目标分类任务中，数量选择性会自发地出现在深度神经网络中。

怎样形成“数量感”

在这项新研究中，一个为了进行简单视觉目标检测而训练的深度神经网络自然而然地形成了这种数量感。研究者发现，网络中的特定单元突然“调谐”为一个抽象的数字——就像大脑中可能做出回应的真实神经元一样。网络意识到，含四个苹果的图像和含四只猫的图像类似，因为它们都包含“4”。

识别特定点数的人工神经元，它的输出单元对数量有不同的反馈（AndreasNieder）

这一研究真正令人兴奋的一点在于，它表明我们当前的学习原理是非常基本的。人类和动物思维的一些最高级方面与世界的结构以及我们对此的视觉体验息息相关。

具体而言，研究者在这项研究中用到了一个分层卷积神经网络（HCNN），这是一类受生物启发的模型，最近在计算机视觉应用中取得了巨大成功。和大脑类似，这些模型包括几个前馈和视网膜拓扑结构的层，其中包含模拟不同种类视觉神经元的单个网络单元。该训练程序自动确定每个单元中各个特征的选择性，以最大化网络在给定任务上的性能。

研究者构建了这样一个网络，并在一个数量无关的视觉目标识别任务中对其进行训练，以探索上述“数量感”是否会自然产生以及如何产生。

图1：用于目标检测的HCNN。（A）HCNN的简化架构。（B）用其他节肢动物训练的网络成功对狼蛛进行分类的示例。

研究者训练了一个深度神经网络来对自然图像中的目标进行分类。为了探索为自然图像目标分类训练的网络是否能够自发地评估点分布中项目的数量，研究者观察了不同的数量是否会在网络单元中产生不同的激活值。

实验结果

研究者将336图片传入到网络中，并记录最终层的反馈。通过双向方差分析（ANOVA），且把数量和刺激设为因子，研究者可以检测对物品数量有选择性的网络单元（P< 0.01），但却对刺激或相互作用没有显著性影响。

在最终层的37632个网络单元中，3601（9.6%）个是数字选择性网络单元。如下图2B所示，数量选择单元的激活值表现出清晰的调谐模式（ tuning pattern），但实际上与真实神经元基本相同（图2C）：每一个网络单元对展现的数值表现出了最大程度的响应，响应最大的就是优选数量表征，而且随着展现的数量偏离优选数量，这种响应会依次降低。

优选数量表征的分布覆盖了展现数量的整个范围（1到30），更多的网络单元更喜欢小于最大数量的值（图2D），真实神经元中也观察到了类似的分布（图2E）。

图2：HCNN中出现的数量调谐单元。

如果数量选择网络单元类似于大脑中的数量选择神经元，则前者应显示相同的调谐属性。因此，研究者计算出数量选择单元（具有相同优选数量）的平均激活值，并将它们规范化为0-1的激活范围，以创建混合网络调谐曲线（图3）。

图3：数值选择网络单元的调谐曲线。

图4：数字选择网络单元的调谐特性。（A）左：网络单元的平均调谐曲线，更倾向于以线性比例绘制每个数值。右：在对数尺度上绘制的相同调谐曲线。（B）将高斯函数与不同尺度的调谐曲线拟合，其平均拟合优度。（C）对于不同尺度的数量选择网络单元，每条调谐曲线拟合高斯函数的标准差。

最后，与其他处理数字的网络模型相比，HCNN取得的主要进展在于它的架构和功能与视觉系统非常相似，如具有接受域和表现出侧抑制的网络单元的分层结构，形成视觉特征的拓扑组织图。这些发现表明，数量感的确自发产生基于视觉系统的固有机制。

参考链接：https://www.sciencealert.com/an-ai-has-spontaneously-developed-a-human-like-sense-for-numbers

理论DNN计算机视觉目标识别目标检测

相关数据

曲线拟合技术

曲线拟合（fit theory），俗称拉曲线，是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据，根据这些数据，我们往往希望得到一个连续的函数（也就是曲线）或者更加密集的离散方程与已知数据相吻合，这过程就叫做拟合 (fitting)。

来源：Wikipedia

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

规范化技术

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

图像分类技术

图像分类，根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。

来源：百度百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

奇虎360机构

360公司成立于2005年8月，创始人周鸿祎 2011年3月30日在纽交所成功上市 2018年2月28日，回归A股上市，上证交易所（601360）是中国第一大互联网安全公司，用户6.5亿，市场渗透率94.7% 中国第一大移动互联网安全公司，用户数超过8.5亿中国领先的AIoT公司，将人工智能技术应用于智能生活、家庭安防、出行安全、儿童安全等多个领域

http://smart.360.cn/cleanrobot/