Wider Face and Pedestrian Challenge 2018(简称 Wider Challenge)是一项全球范围内的计算机视觉顶级赛事,旷视科技(Megvii)参战了其中人脸检测比赛 Wider Face,最终以 0.5582 的成绩技压群雄,勇夺人脸检测冠军。旷视科技人脸检测冠军纪录最早可追溯至 2013 年赢得人脸识别领域 3 项世界冠军。下面,本文将从比赛、技术、团队以及产业 4 个维度展开解读。
Wider Face 比赛结果
关于 Wider Challenge
Wider Challenge 2018 是由计算机视觉顶会 ECCV 2018 举办的顶级挑战赛之一,吸引全球超过 400 多支队伍参加,比赛及结果公布于 ECCV 会前完成,颁奖仪式及相关研讨会安排在大会期间(9 月 8 号)。继 FDDB 之后,Wider Challenge 成为计算机视觉检测领域的基准比赛,含金量很高,在一定程度上可以清晰反映参赛方技术力量的实况和积淀。
今年,该比赛旨在解决人体检测领域的 3 个核心问题:人脸的精确定位,人体的精确定位,以及人物身份精确匹配。为此,Wider Challenge 2018 相应地分为 3 个比赛(track):
lWIDER Face, 目标是深掘新方法,刷新人脸检测当前最佳水平。
lWIDER Pedestrian, 目标是收集有效而高效的新方法,优化解决自然场景之下的行人检测问题。
lWIDER Person Search, 从 192 部电影中进行目标精确匹配的人物搜索。
自左向右,三个比赛的实例。
关于技术
从技术角度讲,这次的人脸检测比赛 Wider Face 出现了新难点,为此旷视科技给出了一套自己的解决方案,取得第一名的成绩,超越第二名微软(MSRA)2 个点。
难点
相比以往,WIDER Face 2018 有 2 个显著的难点。一是数据集,二是评估标准。
Wider Face 比赛使用同名数据集,它首次开源于 CVPR 2016,包含 32,203 张图像和 393,703 个检测框标注,是当前不同场景之下人脸类别跨度最大的数据集,从小脸密集脸、多姿态脸、遮挡脸、表情脸、化妆脸到模糊脸,一应俱全。
Wider Face 数据集中不同类别的人脸。
前人脸检测基准 FDDB 由于数据量小且简单退出之后,Wider Face 晋级为人脸检测领域最科学、最权威的基准数据集,同时今年还进行了一些优化标注甚至是重新标注,堪称是人脸检测能力比拼的最佳平台。显而易见,比赛难度也加大很多。
Wider Face 2018 评估标准沿用 COCO 规范,更细致更严格,对定位要求更高,不仅要大概准,还要非常准,甚至是“变态准”。具体来讲,它不再只使用 AP_50,而是计算检测框 IoU 阈值超过 10 的平均精度,从 AP_50 到 AP_95(步长为 5,共 10 个 AP)进行加权求平均值。这再次加大了比赛夺冠的难度。
方法
鉴于上述两个新挑战,旷视科技在技术沉淀的基础上,从算法模型、Backbone 以及数据增强3 个方面给出了原创性的解决方案。
旷视科技是 COCO 2017 冠军,在物体检测方面“家底”极厚,身经百战,形成了一套优秀的“演练作战传统”。此次针对 Wider Face 人脸检测的小脸、模糊脸问题,旷视科技提出一种基于单阶段检测器的新方法,称之为级联检测网络(Cascade Detection Network)。
在 Backbone 以及数据增强方面,旷视同样做了新探索。比如 Backbone 避重就轻,没有选择 ResNet 101,而是采样了像 DenseNet 121、 ResNet 50 这样相对轻量化的基础网络,或者多个轻模型的融合。旷视科技后续会针对性地出一篇论文,想了解更多的人请留意关注。
结果
通过上述原创技术,旷视科技比赛结果优势明显,不仅夺得第一名,成绩还大幅超过第二名、第三名,分别高出 2 个点和 5 个点。另外,旷视科技单模型和多模型结果都提交过,结果表明,即使是按照单模型,同样可以拿到冠军。
值得一提的是,旷视科技上层技术的创新源自底层技术和原创深度学习平台的支撑。这次打赛过程中,旷视科技自研的深度学习云平台 Brain++ 有力保障了模型训练的稳定性;原创的深度学习引擎(先于 TensorFlow)则保证高效快速地训练和测试模型,避免时耗。正是因为有后方的保障,才有前方的胜利。
关于团队
打比赛就像打仗一样,是一支队伍,需要团队协作。但是旷视这次的比赛,也仅仅动用了 1.5 名实习小矿工:一个为主,一个为辅(外加检测组负责人和研究员的指导)。这种实习生冲在一线的打赛模式是一种锻炼和培养新人成长的宝贵机会。第一名的成绩也反证了这种模式的科学性。
1.5 名实习生,这并不是说旷厂缺人,也不是轻视打赛,这恰恰说明了旷厂有一套完备的“演练打赛机制”,不仅节约了大量人力和时间成本,而且纳入这套机制的每一方皆有所获。本质上这是一种高效的经验传承,实习生获得大量输入,再经由天赋的脑瓜,输出第一名的成绩,由此借假(比赛)修真(能力提升),人与事两相成。
关于产业
人脸检测在旷视的整个计算机视觉技术矩阵中处于中层,属于核心算法之一,经过工程化包装或者硬件的加持,形成高效可复制的模型框架,从而最终走向人脸相关的产品线。
人脸检测是机器视觉技术落地的最大场景之一,是旷视图像识别技术的四大对象之一(人、脸、车、字),也是旷视 AI+IoT 战略中承上启下的一环。这一冠军成绩所反映出的技术点创新将进一步优化旷视的整个技术体系,导向手机、安防、地产、零售等多个产业领域,为达成 AI+IoT 战略提供了有力的技术支撑。