近日,由优必选悉尼 AI 研究院和浙江大学网络与媒体实验室组成的 DL-61-86 队伍参加 TRECVID 2017 和大规模电影描述与理解挑战 Large Scale Movie Description and Understanding Challenge (LSMDC 2017)的多项任务,并获得了 TRECVID 2017 VTT matching and ranking 任务的第一名,以及 LSMDC 2017 两个任务的第二名。
TRECVID 2017
随着深度学习在计算机视觉方面大放异彩,近几年视频领域的研究也得到了飞速的发展。数据显示,人们在视频上花费的时间是图片的 2.6 倍,因此视频领域的研究具有巨大的研究意义和应用价值。与图像相比,视频拥有更加丰富的信息,该领域的研究也更富挑战性。
TRECVID(http://trecvid.nist.gov)是视频检索领域最权威的国际评测,由美国国家标准技术局(National Institute of Standards and Technology, NIST)组织,得到了包括美国国防部高级研究计划局 (DARPA) 在内的美国多个政府部门的支持,代表国际视频相关技术的领先水平。今年,优必选悉尼 AI 研究院组队参加了 TRECVID 2017 视频到句子匹配和排序的任务(VTT matching and ranking)。
图 1 TRECVID 2017 VTT matching and ranking 任务的结果
VTT matching and ranking 任务吸引了来自全球 35 支队伍报名参赛(包括卡内基梅隆大学、阿姆斯特丹大学、香港城市大学、悉尼科技大学、北京大学、中国人民大学、卡内基梅隆大学博世(BOSCH)研究中心等国内外大学和研究所),是今年报名参加队伍数量排名第二的任务,从侧面也反应了该任务在研究领域的受欢迎程度。VTT matching and ranking 任务的内容是给定一个视频,参赛者需要从大量的候选句子中选出一个最好的句子来描述视频。该任务的难点在于视频和句子属于两种模态的数据,因此视频和句子不能直接进行比较。这也是跨媒体检索领域的重要研究问题,因此这项任务具有广泛的实际意义。
图 2 DL-61-86 队伍的解决方案框架
在 VTT matching and ranking 任务上,优必选悉尼 AI 研究院的解决方案 (https://ai.ubtrobot.com/sharelink/TRECVID2017_DL-61-86_VTT.pdf) 是利用两个神经网络分支分别把视频和句子编码映射到一个共同的空间里(common space),在这个空间计算视频和句子的相似度(similarity),从而可以根据相似度对所有候选的句子进行排序,网络框架如图 2 所示。
对于视频编码分支网络,优必选悉尼 AI 研究院提出了空间信息增强的视频表达,通过结合 Gated Recurrent Units (GRU) 和 skip connections 来加强对视频空间信息的表达。同时,优必选悉尼 AI 研究院引入注意力机制(Attention mechanism)让模型重点关注视频中的关键帧,从而避免视频帧之间信息的冗余。对于句子编码分支,优必选悉尼 AI 研究院引入了多尺度的句子编码。多尺度的句子编码同时考虑了单词尺度以及句子尺度的信息,让模型自己学习如何组合这些来自不同尺度的信息,从而学习得到一个更好的句子特征编码器。该解决方案以大幅度的优势获得了 VTT matching and ranking 任务的第一名。
LSMDC 2017
Large Scale Movie Description and Understanding Challenge (LSMDC 2017) 是由普朗克信息学研究所、多伦多大学、迪士尼研究院、Facebook 人工智能研究院等大学和研究机构联合创办。今年的 LSMDC 2017 比赛,作为 ICCV 2017 的一个 workshop,吸引了来自全世界的众多队伍参加。优必选悉尼 AI 研究院参加了该比赛的两个任务,分别是电影描述(Movie Description)以及电影的标注与检索(Movie Annotation and Retrieval)。
图 3 DL-61-86 队伍在 Movie Description 任务中的解决方案
Movie Description 的任务内容是通过自动生成一句话来描述给定的电影片段。优必选悉尼 AI 研究院的解决方案 (https://ai.ubtrobot.com/sharelink/03-Dong.pdf) 是利用编码和解码的网络框架(encoder-decoder framework)来实现,首先利用空间信息增强的视频表达来对电影片段进行编码,然后通过 GRU 把编码后电影解码成一句话。该方案在 7 个评测指标中获得 3 个第一、2 个第二以及 2 个第三。Movie Annotation and Retrieval 任务分成两个子任务,分别是 Movie Multiple-Choice Test 和 Movie Retrieval。Movie Multiple-Choice Test 任务是给定一个电影片段,参赛者需要从 5 个句子中挑选一个句子来描述电影片段,而 Movie Retrieval 任务是给定一个句子,参赛者需要对所有候选电影片段进行排序。这两个任务的核心问题都是如何计算电影片段和句子的相似度,因此优必选悉尼 AI 研究院采用了 TRECVID 2017 VTT matching and ranking 任务上的相同方案,最终都获得了第二名的成绩(图 4、图 5 和图 6 为 LSMDC 2017 比赛任务的排行榜)。
图 4 LSMDC 2017 Movie Description 任务排行榜
图 5 LSMDC 2017 Movie Multiple-Choice Test 任务排行榜
图 6 LSMDC 2017 Movie Retrieval 任务排行榜
CVPR 2017
除了 TRECVID,今年 7 月,在 CVPR 2017 的 VQA 比赛中,优必选悉尼 AI 研究院与杭州电子科技大学、北卡罗来纳大学夏洛特分校组成联合队伍 HDU-USYD-UNCC,在来自全球最顶级的几十支大学、研究机构和企业队伍中获得了第二名的成绩,仅次于阿德莱德大学与微软研究院组成的联合队伍。VQA(视觉问答,Visual Question Answering)以一张图片或者一段视频和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA 就是给定的图片进行问答。这是未来机器人通过视觉系统认知和理解世界,并与人互动的关键技术。VQA 是一种涉及计算机视觉和自然语言处理的学习任务,是近年来非常热门的一个研究领域,也是 AI 落地的一项重要技术领域。
同时,在 CVPR 2017 的 ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)视频物体检测(Object Detection from Video)竞赛的四个项目(包括给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪)中,优必选悉尼 AI 研究院与帝国理工学院组成的联合队伍 IC-USYD 都以领先第二名超过 5% 的成绩取得了第一名。ILSVRC 2017 视频物体检测竞赛主要考察在视频里中获取物体的能力,对于机器人而言这是一项非常重要的工作,例如它在行走过程中就能知道这个场景里有多少物体,有什么物体。人眼看到的视觉不是一张张照片,而是连续的视觉的信息,未来机器人的视觉系统也将是对连续视觉的理解。
图 7 优必选与清华合作的仿人形机器人获得 RoboCup 人形组 AdultSize 比赛第二名
2017 年 7 月 30 日,优必选还与清华大学联队参加了 RoboCup(机器人世界杯)人形组 AdultSize 的比赛,并以 13 分的成绩获得了该组技术挑战赛的第二名,仅次于拿下了 15 分的德国 NimbRo 队。RoboCup 是目前全球规模最大、水平最高、影响最广的机器人专业赛事,其机器人足球项目被分为仿真组、小型组、大型组、标准平台组和人形组五个组别,代表了未来几年双足人形机器人进行足球比赛的技术方向。