快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络
在论文《SlowFast Networks for Video Recognition》中,FAIR 何恺明等人介绍了用于视频识别的 SlowFast 网络,提出要分开处理空间结构和时间事件。该模型包含:1)一个以低帧率运行、用来捕捉空间语义的 Slow 路径;2)一个以高帧率运行、以较好的时间分辨率来捕捉运动的 Fast 路径。在视频动作分类及检测方面性能强大:研究人员在没有使用任何预训练的情况下在 Kinetics 数据集上实现了 79.0% 的准确率,远远超过此类问题的之前最佳水平;在 AVA 动作检测数据集上也实现了 28.3 mAP 的当前最佳水准。