港中文开源视频动作分析库MMAction，目标检测库算法大更新

昨日，香港中文大学多媒体实验室（MMLab）OpenMMLab 发布动作识别和检测库 MMAction，同时也对去年发布的目标检测工具箱 mmdetection 进行了升级，提供了一大批新的算法实现。

OpenMMLab 计划是香港中文大学多媒体实验室（MMLab）2018 年启动的计划，由香港中文大学教授、商汤科技联合创始人林达华老师负责，初衷是「为计算机视觉的一些重要方向建立统一而开放的代码库，并不断把新的算法沉淀其中。」

2018 年 10 月，在 OpenMMLab 的首期计划中，商汤和港中文正式开源了 mmdetection，这是一个基于 PyTorch 的开源目标检测工具包。该工具包支持 Mask RCNN 等多种流行的检测框架，读者可在 PyTorch 环境下测试不同的预训练模型及训练新的检测分割模型。

昨日，林达华发表知乎文章，发布 OpenMMLab 第二期内容：

MMDetection（目标检测库）升级到 1.0，提供了一大批新的算法实现。
MMAction（动作识别和检测库）全新发布。

MMDetection 1.0

Github 地址：open-mmlab/mmdetectiongithub.com

最新的 MMDetection 是 MMLab 联合商汤科技以及十多个研究团队合作完成的。据介绍，相较于其他开源数据库，MMDetection 1.0 的优势如下：

高度模块化的设计。通过不同检测算法流程的分解，形成一系列可定制的模块。然后对这些模块进行随机组合，可以迅速搭建不同的检测框架。
多种算法框架支持。MMDetection 直接支持多种主流的目标检测与实例分割的算法框架，包括 single-stage、two-stage、multi-stage 等多种典型架构，以及各种新型模块。此外，MMDetection 还提供了 200 多个预训练的模型。
高计算性能。MMDetection 所支持的主要模块均能在 GPU 上运行。整体的训练速度优于 Detectron、maskrcnn-benchmark、以及 SimpleDet。特别值得一提的是，MMDetection 还直接支持混合精度训练以及多卡联合训练，这些技术的引入都能显著提高训练的效率。
先进算法。MMDetection 提供了在 MSCOCO 2018 比赛中夺冠的 HTC 算法。随着越来越多研究团队加入到 mmdetection 的开发中，MMLab 研究团队将持续保持和最新算法的同步。

此外，MMLab 也发布了一份技术报告，对 MMDetection 进行了详细介绍。

从机构名称中，我们可以发现 MMDetection 的发布联合了国内外 13 所机构。

报告链接：https://arxiv.org/abs/1901.11356

该报告还提供了 MMDetection 与其他开源库的对比，可以看到 MMDetection 提供的算法远比其他开源库丰富：

MMDetection 与其他开源库的对比

MMLab 的研究团队还在 MMDetection 的基础上对相关算法进行了全方位的对比试验。他们比较了损失函数、归一化策略、训练尺度等一系列设计参数的选择对于检测性能的影响。

视频动作分析库 MMAction

林达华介绍道，「在深度学习刚刚开始进入计算机视觉领域的时候，MMLab 已经开始了对使用深度学习进行视频动作分析的研究，提出了一系列有影响的算法框架。比如，我们在 ECCV 2016 提出的时序分段网络（Temporal Segmental Network）已经被广泛运用于实际系统中，并影响了很多新的算法设计。」

基于过去几年的探索，MMLab 建立了专门用于视频动作分析的统一代码库 MMAction。

项目地址：https://github.com/open-mmlab/mmaction

据介绍，MMAction 有以下重要优点：

全面支持视频动作分析的各种任务，包括动作识别（action recognition）、时域动作检测（temporal action detection）以及时空动作检测（spatial-temporal action detection）。
支持多种流行的数据集，包括 Kinetics、THUMOS、UCF101、ActivityNet、Something-Something、以及 AVA 等。
已实现多种动作分析算法框架，包括 TSN、I3D、SSN、以及新的 spatial-temporal action detection 方法。MMAction 还通过 Model Zoo 提供了多个预训练模型，以及它们在不同数据集上的性能指标。
采用高度模块化设计。用户可以根据需要对不同模块，比如 backbone 网络、采样方案等等进行灵活重组，以满足不同的应用需要。

林达华知乎文章：https://zhuanlan.zhihu.com/p/69830582

工程香港中文大学目标检测计算机视觉商汤科技

相关技术

计算机视觉图像超分辨率重建

林达华人物

香港中文大学助理教授。研究兴趣：计算机视觉和机器学习。

来源：个人主页 LIN Dahua

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

目标检测技术

一般目标检测（generic object detection）的目标是根据大量预定义的类别在自然图像中确定目标实例的位置，这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法，并已经为一般目标检测领域带来了显著的突破性进展。