物体识别 | 机器之心

简介

从关于目标识别算法的相关文献中可以明显看出，目前对各种视觉子任务的定义还没有达成共识。文献中经常遇到的术语，如检测，定位，识别，理解，分类，分类，验证和识别，往往定义不明确，这导致了概念上的混淆和含糊不清。根据论文《50 Years of object recognition: Directions forward》中给出的定义：

目标识别是一个比较广泛的问题，它需要识别图像中存在的所有对象，并提供各个对象的准确位置信息。

在识别问题中，有些文献还对其进行了进一步还分类，以下五类其识别难度逐渐增加：

验证（verification）：图像中是否存在指定物体。
检测和定位（detection and localization）：给定复杂图像，确定特定样本对象是否位于此图像中的某个位置，并提供有关此对象的准确位置信息。
分类（classification）：给定图像，确定其中存在多个可能类别中的哪一个。
命名（naming）：给定大的复杂图像，确定该图像中存在的对象的位置和标签。
描述（description）：给定复杂图像，命名图像中存在的所有对象，并描述该图像上下文中各种对象的动作和关系，这有时也被称为场景理解。

一个典型的目标识别系统结构一般如下图所示：

[图片及描述来源：Andreopoulos, A.; Tsotsos, J. K. (2013). 50 Years of object recognition: Directions forward. Computer Vision and Image Understanding, 117(8): 827-891.]

发展历史

1977年，Allen Hanson在他的书中提出了使用诸如广义圆柱体积等部分的识别方法，构成了解决识别问题的早期尝试之一。该方法得到了该领域的一些人的推广，如Marr于1978年发表的文章中提出了对3D物体在空间上的表示和识别。然而，在实践中，从图像中提取这些部分太困难了。另一方面，基于视图/基于外观的方法提供了较不复杂的索引基元（边缘，线，角等），这导致提取的特征的数量过多。同年，Nevatia和Binford介绍并普及了基于广义圆柱识别的思想。他们使用广义圆柱子集 - 即广义锥体 - 来识别特定场景中存在的对象。他们使用特定场景的范围数据将场景分割成其组成部分。然后，将每个这样的分段簇进一步分割成可以通过广义锥体描述的部分。他们并不主张使用任何常用的优化技术来确定应该使用的广义锥的旋转和比例。相反，他们主张使用相当强力的方法，即，将每个3D广义锥体投影到2D图像平面，旋转多次并确定哪个旋转最佳拟合。然后使用提取的柱面来构建检测到的对象的图形表示。

1981年，Brooks介绍了Acronym对象识别系统。作者再次使用广义锥体对物体进行建模，使用对象图表示对象部分之间的体积模型和空间关系。作者还定义了一个限制图，用于为我们建模的对象定义一个类和子类层次结构，这是最早的系统之一。

1987年，Lowe 在概率框架中正式确定了其中一些启发式方法。他使用这些启发式方法来“加入”可能属于一起的线条和边缘，从而降低了模型拟合过程的整体复杂性。特别地，他搜索满足平行性和共线性的线，并搜索满足某些邻近约束的线端点。他将这些感知分组启发式算法与迭代优化过程结合使用，将3D对象模型拟合到图像上，并识别图像中的对象。

90年代起，Tsotsos 和 Dickinson 在他们的书中提出了典型物体识别系统中使用的组件：即特征提取，然后是特征分组，然后是对象假设生成，接着是对象验证阶段，这也是我们在上图中所展示的结构。机器学习方法和特征包方法的出现普遍模糊了上述组件之间的区别。

1991年，Turk和Pentland使用了“eigen face”，它使用图像像素级别的PCA来识别人脸，这是外观模型（Appearance Model）的一个突破。

1996年，Zerroug和Nevatia研究了从广义圆柱体实例生成的正交投影不变量的使用。从强度图像中检测这些射影不变量。验证阶段用于基于提取的图像特征验证3D形状的良好匹配，从而提供用于从图像恢复3D体积基元的替代方法。

2001年，Cootes等人提出了主动外观模型（Active Appearance Model），至今仍然是在医学等领域非常流行的同模型。

2003年Csurka等人发表的文章和2004年Sivic和Zisserman发表的文章引入了“bags of features”的识别方法，这是一种有影响力和有效的识别方法，得到了广泛的采用。该框架的主要优点是其在视点变化和背景杂乱下的简单性，效率和不变性。该框架有四个主要步骤：（i）图像的检测（ii）使用图像的描述符将它们分配给挖掘出的聚类簇（iii）计算分配给每个聚类的关键点/特征的数量和（iv）将bags of features作为特征向量处理并使用分类器对相应的图像块进行分类。

2012年后，随着AlexNet的出现，神经网络在目标识别领域取得了巨大的成功。2013年12月，Yann LeCun的纽约大学实室推出了AlexNet的衍生产品Overfeat。当年ImageNet的胜者则为ZF Net，实现了11.2%的错误率。2015年微软亚洲研究院推出了ResNet，这是一种新的152层网络架构，其赢得了ILSVRC 2015比赛，并且错误率仅为3.6％。

目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO（You only look once）、SSD（Single Shot MultiBox Detector）和 R-FCN 方法上非常显著，它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来，这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。

这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上，因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后，因此是一种可回溯的优化（retrospective optimisation)。

同年，Joseph Redmon和Ali Farhadi提出了YOLO9000，实现了检测和分类的联合训练，并将其预测泛化能力扩展到未知的检测数据上，即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测，缩小了分类和检测数据集间的鸿沟。FAIR实验室则提出了Feature Pyramid Networks for Object Detection ，它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」，这意味着表征能更强大和快速。

主要事件

年份	事件	相关论文/Reference
1977	Allen Hanson在他的书中提出了使用诸如广义圆柱体积等部分的识别方法，构成了解决识别问题的早期尝试之	Hanson, A. R.; Riseman, E. M. (1977). Computer Vision Systems, Academic Press.
1977	Nevatia和Binford介绍并普及了基于广义圆柱识别的思想	Nevatia, R.; Binford, T. (1977). Description and recognition of curved objects, Artificial Intelligence. 8: 77–98.
1978	Marr发表的文章中提出了对3D物体在空间上的表示和识别	Marr, D.; Nishihara, H. (1978). Representation and recognition of the spatial organization of three dimensional shapes. Proceedings of the Royal Society of London B. 200: 269–294.
1981	Brooks介绍了Acronym对象识别系统	Brooks, R. (1981). Symbolic reasoning among 3-D models and 2-D images, Artificial Intelligence Journal. 17 (1–3): 285–348.
1987	Lowe 在概率框架中正式确定了其中一些启发式方法	Lowe, D. G. (1987). Three-dimensional object recognition from single twodimensional images, Artificial Intelligence 31 (3): 355–395.
90年代	Tsotsos 和Dickinson 在他们的书中提出了典型物体识别系统中使用的组件	Tsotsos, J. (1992). The Encyclopedia of Artificial Intelligence, John Wiley and Sons, pp. 641–663.//Dickinson, S. (1999). What is Cognitive Science?, Basil Blackwell Publishers. pp. 172–207.
1991	Turk和Pentland使用了“eigen face”，它使用图像像素级别的PCA来识别人脸，这是外观模型（Appearance Model）的一个突破	Turk, M.; Pentland, A. (1991). Face recognition using eigenfaces. IEEE Conference on Computer Vision and Pattern Recognition.
1996	Zerroug和Nevatia研究了从广义圆柱体实例生成的正交投影不变量的使用	Zerroug, M.; Nevatia, R. (1996). Three-dimensional descriptions based on the analysis of the invariant and quasi-invariant properties of some curved-axis generalized cylinders. IEEE Transactions on Pattern Analysis and Machine Intelligence. 18 (3): 237–253.
2001	Cootes等人提出了主动外观模型（Active Appearance Model	Cootes, T.; Edwards, G.; Taylor, C. (2001). Active appearance models, IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (6): 681–685.
2003-2004	Csurka等人发表的文章和Sivic和Zisserman发表的文章引入了“bags of features”的识别方法	Sivic, J.; Zisserman, A. (2003). Video Google: a text retrieval approach to object matching in videos. International Conference on Computer Vision.//Csurka, G.; Dance, C. R.; Fan, L.; Willamowski, J.; Bray, C. (2004). Visual categorization with bags of keypoints. ECCV International Workshop on Statistical Learning in Computer Vision.
2012	AlexNet 在 ImageNet 比赛获胜，展现了神经网络技术在图像识别领域的特长	Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
2013	Sermanet等学者提出了Overfeat	Sermanet. P.; Eigen D.; Zhang X.; Mathieu M.; Fergus R.; LeCun Y. (2013). OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks.
2013	Zeiler和Fergus提出了ZF net	Zeiler M. D.; Fergus R. (2014). Visualizing and Understanding Convolutional Networks. ECCV. pp 818-833
2015	He等学者提出了ResNet	He K.; Zhang X.; Ren S.; Sun J. (2015). Deep Residual Learning for Image Recognition. CVPR 2015
2016	SSD提出	Liu, W.; Anguelov, D.; Erhan, D.; Szegedy, C.; Reed, S.; Fu, C. -Y.; Berg, A. C. (2016). SSD: Single Shot MultiBox Detector. ECCV.
2016	Joseph Redmon和Ali Farhadi提出了YOLO9000，实现了检测和分类的联合训练	Redmo, J.; Farhadi, A. (2016). YOLO9000: Better, Faster, Stronger. CVPR.
2016	FAIR实验室则提出了Feature Pyramid Networks for Object Detection	Lin, T.-Y.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. (2016). Feature Pyramid Networks for Object Detection. CVPR.

发展分析

瓶颈

单个物体的识别受到拍摄角度、光线等外部因素影响；同一类内的细粒度识别也是目前研究的一个难点；此外与语义结合的识别任务由于答案的开放性，对于计算机视觉来说也是比较难以学习的任务。另外，目前小目标比大目标的识别仍然难度高很多。

未来发展方向

正如前文所述，目标识别的发展方向之一是更快、更高效的检测系统。另外可以发展的方向也很多，如集成在芯片上投入商用、在某一类内进行细粒度识别开发应用等。

Contributor: Yuanyuan Li

简介