1. 深度学习从未停止前进
图像数据的特征设计,即特征描述,在过去一直是计算机视觉(Computer Vision, CV)头痛的问题,而深度学习在计算机视觉领域的兴起使得这一领域不再需要很多的人为干预,大大降低了对专业知识的需求(见下图)。对应的,围绕着深度学习开始出现大量的炒作,这样的炒作使得很多人开始对深度学习产生怀疑,但是同样不得忽视的是深度学习在计算机视觉任务上已经获得的大量成功。
(图源:https://trantorinc.com/blog/top-computer-vision-trends-2019/)
CNN 从 AlexNet 之后,新模型以肉眼可见的速度在增长,比较经典的如 LeNet(1998)、AlexNet(2012)、ZF-net(2013)、GoogleNet(2014)、VGG(2014)、ResNet(2015);2014 年提出的 GAN 更是一个里程碑式的突破。但近年来,CV 领域虽然新论文不断,但更多的是在填前人挖好的坑(改进模型),比如 2018 的 BigGAN 以及今年的的 Mask Scoring RCNN 等,都没有引起很大的轰动。相比之下,NLP 继 BERT 之后又出现了 XLNet,就显得热闹的多。对应的,对于 Deep Learning 在 CV 领域是否触顶的质疑声也开始变得更加强烈。
对此问题,本文不会做直接评判,而是首先简单介绍什么是 Deep Learning,再介绍 Deep Learning 的优势,然后介绍当下较为主流的对于 Deep Learning 的批判,最后两个部分会对 Deep Learning 可能的应对方法和未来展开讨论。
1.1 什么是深度学习
想要了解什么是深度学习,最简单的方法莫过于打开一个深度学习课程或者入门书籍,看一下它的目录,就大概了解深度学习包括什么了。本文引用 Lecun 在 2015 年曾经给深度学习下过的定义——深度学习方法由多个层组成,用于学习具有多个等级的数据特征。所以有些学者也把深度学习叫做分级学习(Hierarchical Learning)。
如今的深度学习不只是本文在开头提及的 Deep CNN,它还包括 Deep AE(AutoEncoder,如 Variational Autoencoders, Stacked Denoising Autoencoders, Transforming Autoencoders 等)、R-CNN(Region-based Convolutional Neural Networks,如 Fast R-CNN,Faster R-CNN,Mask R-CNN,Multi-Expert R-CNN 等)、Deep Residual Networks(如 Resnet,ResNeXt)、Capsule Networks、GAN(Generative Adversarial Network) 等,以及 RNN、LSTM 等处理用于处理序列类数据的 Recurrent 类模型。