近日,在国际顶级的计算机视觉竞赛 Pattern Analysis, Statistical Modeling and Computational Learning(PASCAL VOC)挑战赛目标检测 comp4 赛道上,创新奇智 (AInnovation) 研发的 AInnoDetection 目标检测算法在 20 项的评测指标中,取得 10 项指标排名第一的成绩,超越众多国内外知名人工智能企业和高校人工智能实验室,夺得大赛冠军。
PASCAL VOC 挑战赛是视觉对象的分类识别和检测的基准测试比赛。该赛事是世界最权威的三大计算机视觉挑战赛之一,数据集标注质量高、场景复杂、目标多样、检测难度大、数据量小但是场景丰富,相比 ImageNet 等更加考验人工智能算法的设计和创新能力。如今,PASCAL VOC 挑战赛和其所使用的数据集已经成为目标检测领域普遍接受的标准,一年一度的挑战赛成为了国内外团队角逐实力的赛场。今年有全球近百支专业队伍参加挑战赛。参赛团队包括 Google、Microsoft、CMU、清华大学、阿里巴巴、腾讯、搜狗、Yi+、平安科技等国内外知名图像领域的顶尖队伍。
目标检测是图像领域三大基本任务之一。任务要求算法在给定图像中精确定位物体的位置,并标注出被定位物体的类别。因此,算法首先需要确定图像中物体位置,然后对已定位的物体进行分类。
目标检测的难点在于,图像中的目标大小、位置、姿态等不确定,同一图像中可能有多个目标。这些问题给算法准确检测目标带来了挑战。
在 Pascal VOC 的数据集中,算法识别难度更高。首先,图像中的目标分属数十个类别,包括人类、动物、交通工具、室内物体等,目标种类数量较多。其次,数据集较小,模型难以通过大量数据训练提升表现。此外,图像包含多个室内外场景,单个图像中的内容多变,目标数量和种类丰富,这对算法在多种场景下准确检测多个目标提出了更高要求。
AInnoDetection 目标检测算法
由创新奇智提出的 AInnoDetection 目标检测算法,在 20 类不同的目标检测上获得了 10 个类别的检测 MAP(准确率) 第一、总分第一的成绩。这一算法在模型架构、数据增强等方面都进行了创新和改进。
模型架构
从架构而言,AlnnoDetection 基于目标检测算法中著名的二阶段(two stage)检测法,首先由算法对目标生成候选框,然后将选定的物体进行分类。在结构上,骨干网络使用 ResneXt152 网络架构,使用它来提取多尺度特征图,而颈部网络采用一个 6 级特特征金字塔网络(FPN),用来生成更丰富的多尺度卷积特征金字塔。在这之后,连接两个共享子网,一个子网负责分类目标框,另一个网络负责将目标框回归到真实框,最后使用 focal-loss 作为二分类的损失。在训练中,模型采用多尺度测试融合,这样能够使网络根据不同的图像尺度来关注不同的目标框信息。
数据增强方法
考虑到数据集较小的问题,团队采用数据增强来扩充训练数据。增强方法包括填充小目标和 mixup 的方法。
填充小目标方法是在单个图像上,将目标复制多次,并添加在图像上。该方法可以增加小目标在训练中的曝光次数,使得模型更好的学习相关特征,最终使模型能够准确检测图像中的多个大小的目标。
Mixup 方法则是将多幅图像融合,使被检测多个目标重叠。该方法增加了图像中的场景类别,丰富了模型需要检测的图像种类,使得模型在图像数据变得复杂的情况下学习目标的特征。Mixup 方法使模型拥有更好的预测效果,在应对复杂场景图像时更加稳健。
为了提升目标检测的准确率,团队最后采用多模型融合的方法,输出最优的结果。
模型表现
从赛事主办方发布的排名显示,在 comp4 赛道比赛中,AlnnoDetection 算法在 20 项评测指标中取得 10 项指标第一、总分第一的成绩,超越了多家研究机构和知名 AI 企业。
目前,此次夺冠的目标检测算法在创新奇智的商品检测、工业视觉缺陷检测、渠道陈列监控等产品中已经使用。
参赛团队
参与本次 Pascal VOC 竞赛的创新奇智团队由张发恩、吴佳洪、杨志铮、曹浩天、宋剑飞和范馨予组成。Leader 张发恩现任创新奇智 CTO、创新工场人工智能工程院首席架构师和宁波诺丁汉大学荣誉教授,曾任职 Microsoft、Google 和百度,持有多项国内外人工智能算法专利和发表过数篇人工智能顶级会议论文。
关于创新奇智
创新奇智是创新工场的 AI 子公司,以「人工智能赋能商业未来」为使命,致力于用最前沿的人工智能技术为企业提供 AI 相关产品及商业解决方案。公司战略为「技术产品」+「行业场景」的双轮驱动模式,极力推动技术商业化。创新奇智 CEO 徐辉在 IT 行业拥有 20 余年的销售、产品、技术、服务、管理经验,历任 IBM、微软、SAP 等多家世界 500 强科技巨头企业高管。
自成立伊始,创新奇智已在零售、制造、金融等多个领域的持续发力,稳步推进人工智能算法商业化。成果包括机器学习平台和 AI 工业视觉平台 ManuVision,以及多篇顶级会议论文。而除了这次 Pascal VOC 赛事夺冠之外,创新奇智在多个世界顶级人工智能算法大赛上夺冠。比如,创新奇智最近在 WIDER FACE 人脸检测赛事中夺冠。
创新奇智拥有优异的技术研发团队,结合 AI 技术商业化的特点,制定了科学技术人才三级体系建设方案,包括:「创新奇智科研委员会、创新奇智创新研究院和创新奇智工程算法研发团队」。创新奇智科研委员会专家包括前腾讯 AI Lab 负责人张潼、 百度研究院三维视觉首席科学家杨睿刚、密歇根州立大学教授张弥、创新工场人工智能工程院执行院长王咏刚、创新奇智 CTO 张发恩等。