2019/04/20 11:54

撰文太浪

旷视联合智源发布全球最大物体检测数据集Objects365，举办CVPR DIW2019挑战赛

4 月 16 日，北京智源人工智能研究院（Beijing Academy of Artificial Intelligence，BAAI，2018 年 11 月 14 日成立）在北京会议中心召开了「智源学者计划暨联合实验室发布会」。

北京智源人工智能研究院（简称「智源研究院」）是在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区政府推动成立，依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视 MEGVII 等北京人工智能领域优势单位共建的新型研发机构。

引进培育高端人才、共建联合实验室、建设人工智能社区、加强产学研合作，是智源研究院的主要四项任务。

智源研究院联合旷视，

成立智能模型设计与图像感知联合实验室

智源联合实验室分为两类，分别是与高校院所共建、与优势企业共建。在联合实验室的建设上，智源研究院遵循「成熟一个、启动一个」的原则，择优支持共建，最多可连续支持三年。

「北京智源-旷视智能模型设计与图像感知联合实验室」已通过立项论证，成为北京智源联合实验室首个成功落地的项目，拟由旷视首席科学家、旷视研究院院长孙剑任实验室主任，资深研究员周舒畅任实验室副主任。

旷视首席科学家、旷视研究院院长孙剑

孙剑表示，成立这个实验室，既有国家战略层面的考虑，也是为了解决行业痛点。

2017 年 7 月，国务院发布《新一代人工智能发展规划》，人工智能上升为国家战略。建立开源开放的人工智能开放创新平台，服务企业应用技术开发成为当前该领域的难点。

国家也希望龙头企业，通过打造人工智能开源开放创新平台，调动产学研，社会各类创新创业主体参与共同打造我国自主知识产权的产业生态，提升国际影响力，促进行业整体发展。

而北京市是第一个国家新一代人工智能创新发展试验区，因此希望充分调动北京技术、人才方面优势，通过组织机制创新，通过创新举措，依托龙头行业牵引进行多主体协同创新，打造我国乃至全球技术高地。

现在确实有大量的高校、研究院所、创新创业人员和行业客户，想参与到人工智能创新中，但苦于没有数据，算力或算法等资源，无法施展。

因此，旷视与智源研究院通过联手打造数据集和建设联合实验室，推动整个行业协同创新发展，建设共性技术开放创新平台，构建自主可控产业生态，突破人工智能重大核心共性关键技术，推动行业全面演进。

全球最大的物体检测数据集 Objects365 发布

会上，旷视研究院联合北京智源人工智能研究院发布了全球最大的物体监测数据集 Objects365。

Objects365 样例

「我们的目的是打造世界上最大规模的通用物体数据检测集，做到规模大、质量高、泛化能力强。」

孙剑介绍，「我们第一批定义在生活中最常见的 365 个类别，比如，室内常见的椅子、桌子、茶杯、瓶子都包含在这个类别中。第一阶段，我们已经标注了超过 60 万张这样的图片，其中这些标注框已经超过了 1000 万。」

这个数据集有多大？孙剑将微软 2014 年创建的大规模图像物体检测数据集 COCO 作为参照物，将二者进行了对比，「COCO 是目前最大的、全标注数据集，训练数据大概 12 万，总共数据大概不超过 20 万，其中还有很多数据没有标。我们（Objects365）第一期开放（的）图片数是 COCO 的 5 倍，标注框超过 COCO 的 11 倍。」

「我们的目标是，三年内，这个数据集达到 200 万张图片，2400 万个标注框。」孙剑说。

算法优化的上限严重依赖于基准数据集术的质量。为保证标注质量，在打造 Objects365 时，旷视设计出一套科学而严格的标注流程，每一张图片的背后至少会经过 9 名标注工人之手。

此外，作为一个优秀的预训练数据集，Objects365 预训练模型在使用过程中，可以轻松超越现有算法的精度，显著加速收敛过程，表现出极强的泛化能力。在执行 COCO、VOO Det、CityPersons 等检测任务时，在 VOC Seg 和 ADE 等分割任务上均有显著提升。

如何共建联合实验室？

「一个平台、四个突破点」

「北京智源-旷视智能模型设计与图像感知联合实验室将围绕『一个平台、四个突破点』进行建设。」孙剑介绍道。

「一个平台」是指，建设一体化的数据共享、模型设计和场景测试的开放创新平台。

「四个突破点」是指，在数据方向、模型方向、真实数据测试方向和模型部署方向做技术突破，推进大数据背景下模型架构设计、优化和部署等方面的研究。

「深度学习成不成功，很大程度上取决于数据，很多靠算法带来的提升远低于一个高质量的数据（集）所能带来的提升。」孙剑说。

除了最新发布的 Objects365，旷视此前还发布了大规模拥挤场景人体检测数据集 CrowdHuman 及一些数据标注工具。

实验室将立足旷视算法落地场景丰富、数据积累深厚的优势，以开源数据集、预抽取特征等形式，持续开放通用物体分类、物体检测追踪、人像人形识别属性等视觉问题数据，助力相关领域研究。

针对高搜索效率、高准确率、高灵活性等关键指标，该实验室还将开展支持大计算量模型的新神经网络架构搜索算法（NAS）研究，构建一站式深度模型自动化设计平台等工作。

该平台包括面向特定问题的自动化深度模型设计工具、自动化数据筛选/数据增强工具、自动化深度学习模型优化工具，从而在 Object365 上实现自动训练比纯人工调优精度超过至少一个百分点，消耗卡时不超过三倍的目标。

实验室还将开放众多预训练模型，包括 ResNet、ShuffleNet 这样的基础模型以及 Faster RCNN、Mask RCNN、SSD 检测模型。

近年来，模型架构搜索（NAS）成为了 AI 领域的热门研究方向。

不久前，旷视首次披露了 NAS 新成果：单路径 One-Shot 模型。这是一个简单灵活的通用模型搜索框架，支持构建块（building block）、通道（channel）和混合精度（mixed-precision）多搜索空间联合搜索；支持任意直接度量方法做硬约束（hard constraint），从而满足实际业务要求。据介绍，同等情况下，单路径 One-Shot NAS 的搜索精度和速度均超过目前公开的 FBNet、ProxylessNAS 等 SOTA 框架。

「很多时候，我们把一个技术（算法）落地，真的是不是能在实际数据中做得很好，其实不知道的。实际数据中有一些是非公开数据，不能到真正的场景中去测；另外一些数据涉及到隐私，需要脱敏。」孙剑说，联合实验室的计划是，提供一个实战场景开发和测试环境，大家上交模型，在这个环境中进行测试。

联合实验室将建设人脸抓拍识别、结构化检测、大规模人像比对等验证场景，提供自动分析报告服务，为研究算法调优提供环境。他们还将积极探索低位宽等网络压缩技术，研发高效硬件部署方案，推动模型研究成果迅速投入实用。

针对计算机视觉算法与真实场景适配的问题，实验室还将建设可重现的实景测试环境，并提供自动化的量化错误分析报告，帮助算法迭代。

「通过以上措施，实验室将被打造成为一个开放、贴近实际场景的计算机视觉算法研究实验平台，形成涵盖数据、平台、场景的完整闭环，有利于打造我国自主可控的技术和产业生态，共同助力我国图像感知和计算领域的技术及应用达到国际先进水平。」孙剑表示，实验室平台建成后，将面向高校院所、创业企业等创新创业主体开放，致力推动图像感知与计算领域的协同创新。

DIW2019 挑战赛启动，

3 个赛道冠军将各获 1 万美金奖励

「我们的目标是建设开源社区、打造产业生态。」孙剑说。

除了开放预训练模型，开源数据标注、模型分析、模型自动调优等全套相关工具，他们还将提供实验例程、开源完整的训练代码库，支持高校本科及研究生教学，每年培训学生人数不少于 500 人；每年还会组织围绕平台的国际比赛。

今年，旷视联合智源研究院举办 Detection In the Wild 2019（DIW 2019）挑战赛。

孙剑介绍，DIW 2019 挑战赛是基于 2019 年 CVPR 的 workshop（研讨会），为了推动目标检测技术的发展而设计的，可以改善现有目标检测数据集的类别覆盖不全，标注精度不高，密集场景缺少等问题。

DIW 2019 挑战赛共有三个赛道：

Objects365 赛道：选手利用公开的 365 种类别，60 万张图片超过 1000 万个框的完整训练集对检测模型进行训练；在 3 万张图片构成的验证集上调试算法，并在 10 万张图片构成的测试集上进行最终挑战。
Objects365 小赛道：从 Objects365 数据集中挑选出 65 个类别，选手可以用 1 万张图片进行模型训练。
CrowdHuman 赛道：为了解决现实生活中的遮挡问题，其算法的提升将会推动人体检测算法落地。届时，选手将基于专门为了密集场景人体检测设计的 CrowdHuman 数据集进行训练，数据集包含有丰富标注信息和多种场景。

挑战赛已于发布会当天启动；5 月 10 日，将开放测试集；6 月 12 日，结果提交截止；最终结果将在 6 月 17 日（美国当地时间）公布。每个赛道的冠军将获得 1 万美金奖励，优胜队伍将被邀请至 CVPR 的研讨会上做经验分享。

「智源学者计划」启动，

每人每年至少可获 50 万支持

发布会当天，智源研究院还启动了「智源学者计划」。

「『智源学者计划』的目标，就是要找到最好的人，给他自由支配的经费，提供他需要的资源，支持开展人工智能领域特定方向上的重大基础问题研究，或者开展前沿问题的自由探索。」黄铁军院长说。

「智源学者计划」将依托北京大学、清华大学、中科院等优势高校院所，以及旷视等骨干企业研究院，对智源科学家首席（CS）、智源研究项目经理（PM）、智源研究员（PI）和智源青年科学家（38 岁以下）四类人才进行重点支持。

经过提名、初评、审议等流程，已经遴选出首批智源学者候选人，共 21 人，并即将启动公示程序。

据悉，首批青年科学家推选工作开展以来，清华、北京各单位专家共计推选了 54 名候选人，参加答辩 42 人，经专家评审，最终选出了 9 名。年级最轻的一位仅 28 岁，是旷视研究院模型研究组负责人张祥雨博士。

在官网上进行一个月公示后，若无意外，智源研究院将与他们签订聘任协议。

届时，智源研究院将直接向他们支付费用，不用走单位的人事体制。黄院长说，「我们看重他是一个有潜力的人，我们就直接给他，大概就是不低于 50 万的每年的支持力度（每个人）。」

这些智源学者不需要在智源研究院办公，还在原单位继续从事学术研究, 成果也全部属于其所在单位，「研究院不拥有也不期望去获得任何知识产权」，「因为他做的是人工智能，是符合国家的战略方向，是符合北京市的方向，所以我们给他支持。」黄院长说。

此外，这些智源学者在科研工作中所需要的经费，也会获得研究院支持。黄院长表示，只要不用到违规，怎么用，完全由自己决定。

黄院长还表示，智源学者的申报不是每年只有一次，而是不分批次，只要是符合要求的人才，通过申报程序，可以随时进入研究院支持的范围。

今年，智源研究院将计划遴选智源学者 100 人，大概覆盖 5 到 7 个重大方向，其中，青年科学家 30-50 人。2020 年和 2021 年再分别增加 100 人，智源学者总体规模保持在 300 人左右。

DIW 2019 挑战赛网址：https://www.objects365.org/workshop2019.html
北京智源人工智能研究院官网：https://www.baai.ac.cn/search

产业旷视科技

相关技术

区块链技术云计算机器学习

孙剑人物

孙剑，男，前微软亚研院首席研究员，现任北京旷视科技有限公司（Face++）首席科学家、旷视研究院院长。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇，两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类，检测和定位，MS COCO 检测和分割) ，其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

来源：个人页面百度百科 Sun, J

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

SSD技术

一种计算机视觉模型。论文发表于 2015 年（Wei Liu et al.）

来源：介绍文章

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

大数据技术技术

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

批次技术

模型训练的一次迭代（即一次梯度更新）中使用的样本集。

来源：Google ML glossary

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。