ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。ImageNet 由美国斯坦福的计算机科学家建立,旨在模拟人类的识别系统从图片识别物体。ImageNet 通过类似于 WordNet 层次结构组织图像数据。 WordNet中的每个有意义的概念,可能由多个单词或单词短语描述,被称为“同义词集合”或“synset”。 WordNet中有超过10万个同义词,其中大部分是名词(80,000+)。 在ImageNet中,我们平均用1000个图像来说明每个概念。ImageNet 针对每个概念的图像都是由人工标注并且保证质量的。
【来源:ImageNet 官网 http://www.image-net.org, Wiki 词条 https://en.wikipedia.org/wiki/ImageNet】
We introduce here a new database called “ImageNet”, a large- scale ontology of images built upon the backbone of the WordNet structure. ImageNet aims to populate the majority of the 80,000 synsets of WordNet with an average of 500- 1000 clean and full resolution images. This will result in tens of millions of annotated images organized by the se- mantic hierarchy of WordNet. This paper offers a detailed analysis of ImageNet in its current state: 12 subtrees with 5247 synsets and 3.2 million images in total
ImageNet 是一个基于 WordNet 主干结构的大规模图片库。WordNet 词库包含了 80000多个同义词集合,ImageNet 旨在用平均500到1000的清晰分辨率的图片来说明 WordNet 中大多数同义词集合。我们将获得一个基于 WordNet 语义层次进行组织的数以千万计的图片,而且这些图片都是经过标注的。
【论文:Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE.】
图1: WordNet structure 示例
发展历史
ImageNet 始于 2009 年,当时李飞飞、Jia Deng 等研究员在 CVPR 2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是 7 届 ImageNet 挑战赛的开始(2010 年开始)。截至 2016 年,ImageNet 中含有超过 1500 万由人手工注释的图片网址,也就是带标签的图片,标签说明了图片中的内容,超过 2.2 万个类别。其中,至少有 100 万张里面提供了边框(bounding box)。
主要事件
年份 | 事件 | 相关论文 |
2009 | 当时李飞飞、Jia Deng 等研究员发表论文 | Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009. |
2010 | 第一届 ImageNet 挑战赛的开始,即 ImageNet 大规模视觉识别挑战赛(ILSVRC)NEC-UIUC | http://www.image-net.org/challenges/LSVRC/2010/index |
2011 | Team XRCE applied high dimen- sional image signatures with compression using product quantization and one-vs-all SVMs. | http://image-net.org/challenges/LSVRC/2011/ilsvrc11.pdf |
2012 | 2012年 ImageNet 竞赛冠军的AlexNet标志着CNN 首次实现 Top 5 误差率 15.4% 的一年,当时的次优项误差率为 26.2%。这个表现震惊了整个计算机视觉界。可以说,是自那时起,CNN 才成了家喻户晓的名字。 | Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.] |
2013 | ZF Net | https://github.com/rugbyprof/5443-Data-Mining/wiki/ZF-Net |
2014 | GoogleNet | Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. "Going deeper with convolutions." Cvpr, 2015. |
2014 | VGGNet | Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014). |
2015 | Microsoft ResNet by Kaiming He | https://arxiv.org/abs/1512.03385 |
2016 | CUImage | |
2017 | BDAT,最后一届ImageNet挑战赛 | http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf |
发展分析
瓶颈
自从 2012 卷积神经网络在计算机视觉上取得极大的成功后,我们一直在探索拥有更强大机器视觉的可能性。这也令大家都看到了近来计算机视觉所存在的局限,比如说小数据集训练,虽然我们能使用预训练模型进行迁移学习,但每一个类别仍然需要成百上千的标注图像。还有比如说分清视觉的本质和外在,人类很容易分清楚穿了驯鹿服的狗还是狗,但计算机却十分容易将其分类为驯鹿。
【引用来源:[机器之心] CVPR 2017 李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle https://www.jiqizhixin.com/articles/2017-07-27-2】
目前训练图像识别模型所需要的计算量相当大。海量的计算量意味着投入的时间和金钱 (比如,120万美元机器24分钟训练ImageNet,UC Berkeley展示全新并行处理方法, https://www.jiqizhixin.com/articles/2017-09-19-4)。如何在加速模型在ImageNet上的训练,或者如何精简ImageNet的数据集使得模型在小规模数据集上能训练得到更高的准确度,是研究人员关心的热点问题。
未来发展方向
ImageNet 2017 挑战赛是最后一届,李飞飞在 CVPR 2017 上表明 ImageNet 挑战赛以后将与 Kaggle 结合。她在演讲中欣喜地表明她们正在将接力棒传递给 Kaggle,不仅因为 Kaggle 社区是最大的数据科学社区,同时还因为她们认为只有将数据做到民主化才能实现 AI 民主化。虽然 ImageNet 挑战赛是最后一届了,但 image-net.org 仍然会一直存在,并致力于为计算机视觉做出更大的贡献。
Kaggle 拥有超过百万的数据科学家,它能大大地促进更多人参与 ImageNet 挑战赛。从最开始的 AlexNet 到后来的残差网络,我们已经看到 ImageNet 挑战赛催生出了许多优秀的计算机视觉解决方案。也许 ImageNet 加上 Kaggle 能继续在目标识别、目标定位和视频目标识别等任务上实现更大的突破,并解决如模型小型化、快速训练和更强的迁移学习等问题。
【引用来源:[机器之心] CVPR 2017 李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle https://www.jiqizhixin.com/articles/2017-07-27-2】
Contributor:Hao Wang