市北·GMIS 2019 大会上,极链科技首席科学家、复旦大学计算机科学技术学院教授姜育刚为我们细致解读了 VideoAI 技术。
1991 年,好莱坞电影《终结者 2·审判日》就曾畅想过计算机的 AI 能力,除了检测,还能识别。直到十年前,智能视频技术还无法实用。
随着数据、算法、算力的综合发展,智能视频技术也取得了迅速发展,如今,已经在安防、医疗、金融、消费级视频、新零售、辅助驾驶、工业视觉检测等多个领域得到广泛应用。
2015 年,视频在互联网中的占比达到 70%;根据思科的预测,2020 年,占比将达到 82%。在视频数据大爆发的背景下,智能视频技术成为关乎国家安全需求和国民经济发展的共性关键技术。
成立于 2014 年的极链科技,将智能视频技术应用于消费级视频,目前已成为该领域的佼佼者,获阿里、旷视投资,估值已达 70 亿。
在今年上海召开的市北·GMIS 2019 大会上,我们邀请到了极链科技首席科学家、复旦大学计算机科学技术学院教授姜育刚,讲述 VideoAI(智能视频技术)的发展史,分享这项技术当下遇到的挑战,以及极链科技的破局思路。
以下为演讲内容,机器之心进行了不改变原意的编辑、整理:
大家下午好!非常高兴和荣幸到这里给大家做一个报告。
我今天聚焦在视频数据上,给大家简单回顾过去、介绍现在、展望未来。
视频大数据的大背景下,智能视频技术已成关键技术
我们先看一看背景。以思科公司统计数据为例:2015 年,视频的互联网占比大概是 70% 左右。根据思科的预测,2020 年大概会占到 82%,我估计现在的总量大概 80%。也就是说,互联网的数据量中,大概有 4/5 是视频。如果让一个人去看现在互联网每个月跑过的视频的量,大概需要 500 万年。
而且,互联网上的视频还仅仅是整个视频大数据中的一部分,还有很多监控领域的视频并没有走互联网。
所以,在视频大数据这样一个大背景下,智能视频技术已经成为关乎国家安全需求和国民经济发展的共性关键技术。
我先提一下在国家安全需求方面,智能视频技术能发挥的作用:
一个是,数据流量爆发给监管带来挑战,这里面有一些政治敏感的内容,还有一些色情暴恐的内容。国家对此也非常重视,采用了很多技术手段去监测互联网上的暴恐内容。
另一个是,最近,随着技术的发展,我们刚刚开始有所谓的新型的安全挑战,挑战很多,最近是很热的话题,但是做的人相对少一些,因为刚刚启动。我列了两点:
一个是智能视频的生成,另外一个是人工智能换脸。AI 换脸,比如前段时间比较火的,把杨幂的脸放在朱茵的脸上,大家看到的效果也是非常不错的。从娱乐的角度或者某些应用的角度来讲,换脸这个技术还是不错的。
但问题是,如果技术被滥用,比如,模仿各个国家的领导人讲话,怎么办?
技术被滥用带来的威胁是非常大的。我们怎么应对这样的挑战?
一方面,我们研究人工智能技术,生成非常逼真的视频内容;另一方面,我们也要考虑这些技术如果被滥用带来的一些负面影响。比如说,我们要研究怎么用人工智能的手段去检测这些人工智能生成的数据,判断出它是算法生成的而不是真实的,这是现在比较重要的一个方向。
极链科技:关注互联网消费视频
极链科技的应用主要围绕国民经济的发展,专注于互联网消费视频。所谓的互联网消费视频,是指大家经常在网上看的短视频、长视频、电影、电视等。
消费视频有很多特点,比如,类目非常多样,包含电影、电视、综艺、体育、短视频等。安防视频通常都是监控摄像头打过去,大部分背景是固定的,只关注里面的运动目标——通常是人车物这三种,相对来讲,目标更单一。
消费视频的另一个特点是场景非常复杂。安防视频的摄像头是固定的,背景非常稳定。消费视频,有的是专业人士用专业设备拍的,有的是业余用手机拍的。专业拍摄里有很多镜头切换,手机拍的经常会有抖动,内容质量各方面参差不齐,且内容复杂。在这样的数据上做内容识别,相对会难一些。
在这样的背景下,极链科技主要用 VideoAI 的技术做两个层面的事:
一个是内容理解,包括镜头识别、场景识别、事件识别、语音识别。做完这些之后,我们可以在里面插入很多智能广告——就是与内容相关的广告,让用户产生更多场景的共鸣。
另一个是通过我们的 AI 技术,为拥有视频内容的用户提供审核服务,帮这些用户把敏感信息、暴恐信息检查出来。
十年前,视频内容的智能识别技术还相当落后
我们简单回顾一下过去。
十年前,很多相机上已经有人脸检测的功能了。对着人拍照的时候,能够自动把人脸框起来。不是识别,只是检测,知道人脸在哪里,帮助相机更好的对焦。
十年前,在图像里做物体检测,检测结果也是非常粗糙的,非常不准确。
2010 年,我在国外参加过一个互联网视频内容识别的项目。第一次做这个项目是通过美国国家标准局举办的一个比赛,在里面加了一个任务:视频事件检测。
第一年,他们只做了三个事件,一个是做蛋糕,一个是搭帐篷,还有一个是棒球里面的一个动作,一个序列,叫 Batting a run in。
在很小的视频量上检测这三个动作,大概是什么结果?大家可以看这张图:
整体上,error 越低越好。彩色的是我在哥伦比亚大学的时候提交的,结果是最好的,error 大概是 50% 多一点。也就是说,超过一半是错的,在这样的情况下,还是排名最好的。所以,大家看到,十年前,视频内容的智能识别技术是相当落后的,没有办法实用。
我们再看看现在。随着深度学习、人工智能技术的发展,算法、算力、数据全面发展,带来了行业欣欣向荣的状态。各个行业里,有很多非常优秀的公司,做的很多产品也比较实用。
VideoAI 核心技术:全序列分析实现高精度识别
我们看看 VideoAI 的技术流程。
在消费视频里做内容识别,基本上要经过这么几步:
首先,在输入层,做视频源管理;
然后,在这个基础上处理视频,做镜头分割、采样、增强、去噪等工作。如果做抖音这样的视频,就不需要做视频分割;如果做电影、电视这种长视频,我们要把它切成比较小的单元,通常,是以镜头为单元来切。
后面,到内容提取层,做检测、跟踪、识别、检索,这些都属于模式识别里的基本动作。
之后,做语义的融合,把目标轨迹做融合,甚至分析高层语义的关联关系,比如,A 和 B 是不是应该一起出现。
最后,输出结果,进行结构化的管理。基于这样的结果,可以做很多应用。
极链科技 VideoAI 的核心技术是:全序列分析实现高精度识别。
很多时候,消费视频的内容比较复杂,同时可能存在着大量的镜头切换。镜头抖动,会造成多个目标同时出现,直接提取信息的时候会非常混乱。在这样的数据上,我们用了一种跟踪的手段。
我们在识别视频里的目标时,不是说随机采一帧就处理了,而是会对小目标进行一段时间的跟踪。跟踪一段时间后,再根据跟踪的帧去判断,哪一帧的质量比较好;在多帧识别后,进行一个整体融合。
举个例子,比如在视频里做人脸识别,其实视频里有很多人在动,有时候是侧脸,有时候甚至是背过身去,对这样的人进行人脸识别,首先要判断哪一帧适合做识别,比如正脸、清晰度很高的。因为有很多帧是有运动模糊的,所以需要做一些这样的判断。
我们可以识别八大维度,包括人脸、物体、品牌、地标、事件、动作等等,并做到比较高的识别精度。比如,我们连续两年(2018、2019)在谷歌的地标比赛中拿到全球第一名。
「神眼系统」
极链科技还有一个产品,叫神眼系统,目前有很多大平台在使用。
内容审核这一块,我们提供用户生成内容(UGC)的审核,包括广告内容审核以及镜头级的版权保护。
近年来,团队在相关的比赛中持续拿到了一些比较好的成绩。比如,在谷歌举办的地标识挑战赛中连续两年拿到全球第一名;在全国网络舆情分析邀请赛(音视频)中拿到金奖;最近,在一周前刚刚结束的 ICME(IEEE 多媒体国际会议)上获得最佳论文奖,我们的智能广告投放演示还在大会上拿到了 Best Demo Runner-up Award。
展望未来:构建全新多维度数据集 VideoNet
未来,我想先在数据的基础上讨论。
大家看这张图,上面是一些流行的关于图像识别的数据集,横轴是类别的数量,纵轴是样本(图片)的数量。类别和图片数量都很多的,就是 ImageNet。ImageNet 对深度学习在 CV 领域的发展贡献非常大。
再看这张图,视频领域,现在比较大的数据集就是 YouTube-8M(800 万个 YouTube 视频),是谷歌公布的一个数据集。
Fudan-Columbia Video Dataset (FCVID) 是我们复旦大学 2015 年公布的一个数据集,只有九万多个视频,也是 YouTube 上的一个数据。
这些数据都是整个视频层面的标签,一个 YouTube 视频,我们可能五分钟、十分钟标出来。比如,这是关于小孩子过生日或者关于毕业典礼,只有一两个标签。
YouTube-8M,有 4000 多个标签/类别。典型的分类和打标签的任务,就是每个视频只有一两个标签。受限于版权问题,谷歌不能提供原始视频,只提供了 YouTube 上的 ID。几年以后,拿着 ID 找视频,找不全,因为有些视频已经被原始用户删掉了。
所以,数据有很多问题。数据全,我们才能跟历史的方法做比较。但是现在已经拿不到全面的数据了。
那么,在视频里面的数据问题是什么呢?大部分现有的数据集都是在整个视频层面或者一段视频层面的标签,标注了这一段视频里有什么样的内容,但是视频里每个人、每个物体都出现在什么位置(时间位置和空间位置),都不知道。
为什么不知道呢?做这件事的代价非常高,受限于各种各样成本的限制,没有办法去做。
基于这样一个问题,我们最近下定决心想在这方面做一些尝试。今年,极链科技和复旦大学联合举办了一个 VideoNet 视频内容识别挑战赛。
我们希望通过几年持续的努力,在视频层面构建这样一个数据级:第一,视频量比较大;第二,标注的类别非常多;第三,标注出类别出现在视频中的具体的时空位置。
这非常重要,如果没有这样的数据,就没有办法训练算法去理解视频非常详细的内容,算法的发展就会非常受限。
今年,这个比赛刚刚开始,到目前为止,已经有 319 个队报名。我们第一年的数据量不是非常大,我们在逐步往这个方向走。如果大家感兴趣,可以扫二维码关注一下。
在 VideoNet 这样一个数据集里,我们想做什么事呢?
以上面这张图举例,除了标注整个视频是过生日庆祝的事件,我们还要标注里面的每个人出现在什么位置,什么物体(比如蛋糕)在什么位置出现,包括这是一个什么样的场景。我们希望把所有的内容都标注出来,这样后面就可以训练一个非常好的算法。
大部分现有的数据集都是只有一种语义类型,比如,只关注了场景,只关注了物体或者只关注了事件。VideoNet 数据集里有几种语义类型。
智能视频技术面临的最大问题:训练数据不完整
这张 PPT 里,有三个很小的图像的小块,大家可以猜猜里面是什么内容。
其实,基于这样小的图像块,会发现非常难猜。把它放大一点,放在整张图上,再猜一猜。
最左边,你觉得是什么?显示器?中间呢?右边呢?很多人会猜是帽子。
我给大家看看原始的是什么。
这个是跟大家开一个玩笑。左边是 MIT 的实验室做的,他们也在考虑上下文的重要性。他故意把垃圾筒放在显示器的位置,电话是一个鞋子;右边这个人头上扣着一个垃圾筒。这种图并不是很频繁出现。
我想用这几张图说的是:你理解一个物体是什么的时候,虽然它很模糊,但是你能够根据它出现的场景把它猜出来。这一点很重要。
为什么我们希望在视频里做一个含有多维度的数据?同样的道理,当你知道这个场景是什么,知道某些物体是什么的时候,可以帮你推断其他的物体是什么。
如果一个数据里面只告诉计算机,这个视频是一个关于什么内容的视频,不告诉它里面是什么场景、什么物体,它就没有办法去学。
所以,可以讲,在视频层面,技术发展的阶段,虽然在很多场景下可以使用,但是也存在很多问题。现在最大的问题就是受限于训练数据非常匮乏且标签不全面的状态。数据很多,但是有标注信息的、有机器能学的知识的数据很少。
以极链科技在商业应用里遇到的目标识别问题举例。大家看这张图,识别奶瓶。奶瓶在视频中其实是非常小的物体,直接提取特征进行识别是蛮难的。如果提取整个视频的特征,背景已经把奶瓶这个信息覆盖掉了,很难识别到奶瓶。
如果通过上下文的信息推理:奶瓶通常是跟小孩子一起,跟小孩子的嘴巴、脸在一起,在这样一个逻辑下,如果你有这样的一个知识/数据去训练一个方法,可能会把直接识别比较难的问题转化成比较容易的问题。
这是我们最近的尝试,我们也相信,VideoAI 这一块的技术,在这样一些数据的帮助下,会往更好的方向去发展。
最后,跟大家报告一下,极链科技和复旦成立了「复旦-极链智能视频技术联合研究中心」。通过整合学校科研团队的基础科研能力和极链做产业应用的能力,希望能够给大家带来更多的技术,包括公益性的更多的数据,大家共同推动 VideoAI 技术的发展和落地应用。谢谢大家!