Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

无人车的眼睛、UP主的生产力工具,都藏在百度CVPR的这十个冠军里

CVPR 上诞生的技术正在逐渐「出圈」。
啤酒、烧烤、欧洲杯是很多球迷今年夏天的消暑利器。但你可能想不到的是,那些精彩的进球集锦、球星慢动作回放说不定是 AI 做的。

在今年的 CVPR 大会上,百度向我们确认了这一点。

他们的 AI 可以在无人工介入的条件下,精准、实时地切分出进球、射门、犯规等动作片段。基于此项能力,团队开发出了一系列应用工具并成功落地,包括:

1. 自定义足球精彩集锦生成工具。只需输入球员并选定比赛场次,AI 就能自动生成这个球员的精彩瞬间视频集锦以及慢动作回放。相关产品已经在百度百科 400 多个足球球员和球队页面落地。

2. 足球图文战报一键转换视频平台。只需要输入文字直播内容或者直播间地址,AI 就能智能聚合生成对应的视频内容。

3. 基于图像场景识别的智能视频生产线。该生产线可以快速理解上传的长视频,检测是否有进球、精准定位视频中的进球瞬间,并完成自动剪辑。

最近,这些技术还帮他们拿到了一个重量级赛事的双料冠军。

在刚刚闭幕的 CVPR 2021 大会上,百度取得了 SoccerNet-v2 足球视频理解竞赛的全部两项任务的冠军,这是全球首个以足球比赛视频的全方位理解为目标的竞赛。

而且,这还只是百度今年 CVPR 成绩单的一部分。

作为「中国军团」多年出征 AI 顶会的一员「老兵」,百度在今年的 CVPR 上再次创下新纪录:不仅入选了 22 篇优质论文,还连获 10 个挑战赛冠军,在去年 8 个冠军基础上实现新突破。

此外,百度还主办了一场重量级学术 Workshop 和一场 Tutorial,并受邀在大会上做同声传译特邀报告和 PaddleCV 技术分享演讲。

这种全方位的发声方式不仅让我们看到了百度在 CV 领域的研究、落地成果,还展示了该公司在 NLP、AutoDL 等领域的前沿探索以及多个领域的融合创新。

在这篇文章中,我们就来盘点一下这些内容。

十项 CV 冠军,聚焦自动驾驶、智能交通、智慧城市、智能创作等多个赛道

CVPR 2021 覆盖了计算机视觉多个细分领域,百度此次参与并获得了七项挑战赛的十个冠军。其中,六项冠军成果可加速自动驾驶、智能交通、智慧城市等落地和应用,部分成果可助力智能创作工具的打造。

六项冠军助力自动驾驶、智能交通、智慧城市应用落地
 

对于百度来说,自动驾驶可以说是 CVPR 舞台上的一项「传统艺能」了。早在 2018 年,百度 Apollo 就占据了 CVPR 自动驾驶的主场;2019 年,Apollo 又在 CVPR 上公开了国内唯一的自动驾驶纯视觉城市道路闭环解决方案——Apollo Lite。这些高光时刻在今年的多项竞赛中得到了延续。

在今年取得的十项冠军中,语义分割、高分辨率人体解析、雾天环境检测」赛道的三项冠军或对百度强化自动驾驶能力有直接的助力。

以 AutoNUE 2021 挑战赛的语义分割赛道为例,该赛道聚焦街景图像的语义分割。与普通语义分割数据集不同,街景数据集物体更多,场景更为复杂。针对该赛道的问题,百度提出了基于 CNN 和 Transformer 的融合算法策略,通过异构模型互补方式,实现了驾驶场景特征的更强表达能力,从而提升了分割性能。针对密集目标,百度提出了区域递进算法,将稠密任务切分为若干稀疏子任务,降低了模型复杂度,加速了模型收敛,提升了测试精度。最终,百度以三项测评指标均第一的优势超越其他参赛机构获得冠军。比赛代码也计划不久后开源:https://github.com/PaddlePaddle/PaddleSeg

除了复杂的街景,雾霾等极端天气也是阻碍自动驾驶落地的一大难题。本届 CVPR 就有一个专门针对雾霾天气的检测竞赛——UG2+ (SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。

在这场竞赛中,百度使用最新的 Swin Transformer 模型配合 cascade-rcnn 结构作为基础模型并针对任务特点优化了 anchor 选择以提高模型的识别能力,同时使用去雾和非去雾的数据组合进行训练,提升了模型的泛化性能。另外,针对样本不平衡问题,团队使用了基于样本分布的采样平衡方法,有效提升了模型性能。

上述竞赛展现的技术能力或已逐渐在百度自动驾驶落地过程中得以展现。目前,在早晚高峰交通流密集路口左转礼让行人,车辆视觉盲区突然窜出行人、车辆等一系列长尾场景中,百度 Apollo 自动驾驶车均能进行良好处置。4 月 13 日,百度 Apollo 拿到了北京市颁发的中国首批夜间及特殊天气测试资质,机器之心也在上个月冒雨体验了一次 Apollo GO 自动驾驶车的夜间试乘

Apollo 车辆平缓通过车流密集的路口。

除了自动驾驶,百度在智能交通、智慧城市方向的技术进展更多地在第五届 AI CITY 智慧城市挑战赛中得以展现。AI CITY 聚焦交通相关的车流统计、再识别、异常事件分析等应用场景,一共 5 个赛道,是百度多次夺冠的「自留地」,今年百度也在车流统计、异常事件检测两个赛道拿到冠军。

在车流统计任务中,比赛要求在端上设备上实现整体技术方案,并对端上的速度与效果指标进行综合打分。百度基于复杂场景下路口车辆多目标检测、跟踪技术,实现了分车道的车流统计,并通过模型小型化以及流水线并行化处理流程,实现了性能 + 效果综合提升,最终取得冠军。

在异常事件检测赛道中,百度使用双向多粒度融合的异常检测算法,配合视频稳像、区域特取、背景建模等预处理,经过车辆检测及后续跟踪判断异常,并融合撞车判断逻辑找到准确的异常开始时间,最终取得第一。

百度表示,此次获得 AI CITY 挑战赛冠军的技术已应用于百度自研的智能交通和智慧城市系统中,系统整合了检测、跟踪、3D 定位、分割、身份重识别、事件分析在内的多项视觉技术,是保障业务落地的坚实基础。

SoccerNet-v2 挑战赛冠军支持足球视频创作

前段时间,百度智能云曾携云智一体的智能媒体产品和方案亮相第 28 届中国国际广播电视信息网络展览会(CCBN 2021),展现了一站式智能创作平台等媒体智能化解决方案和创新应用。百度的智能创作平台基于自然语言处理知识图谱、视觉、语音的整合技术能力,为创作者提供多项能力,助力新闻资讯生产的策、采、编、审、发全流程。在今年 CVPR 的 SoccerNet-v2 足球视频理解竞赛上,该平台的相关技术再次亮相。

SoccerNet-v2 下设事件定位(action spotting)和回放溯源(replay grounding)两个任务。事件定位的难点在于有些事件难以分辨(如犯规、越位、射正、射偏),还有一部分事件并未被直接拍摄到,需要根据上下文来推测。回放溯源的难点则在于回放和原始事件之间可能会相隔长达上百秒,拍摄视角也经常不同,因此不容易匹配。
 
为了解决这些难题,百度研究院图文转视频 VidPress 团队设计了一个两阶段的系统:首先让特征提取器提取足球视频特征,再将提取出的特征作为第二阶段具体任务模块的输入,进行事件定位或者回放溯源。其中,事件定位和回放溯源阶段采用了 Transformer 架构。该架构在两个任务中体现了对视觉语义特征的精确的时序处理能力,优于基线算法中 Siamese 网络的学习能力和训练速度。

基于 SoccerNet-v2 挑战赛拿下双料冠军的 AI 技术能力,百度已支持开头提到的自定义足球精彩集锦生成、足球图文战报一键转换视频等应用工具。这项技术能力也已基于智能创作平台进行落地。

PaddleCV:优秀方案都到碗里来

作为中国人工智能的「头雁」,百度计算机视觉方向技术研究早在十一年前成立多媒体部时就已经开始了。这帮助百度积累了全方位的技术能力,也为飞桨视觉模型库 PaddleCV 提供了强大的核心动力。

PaddleCV 中,既包含经过产业实践长期打磨的主流模型,也包含百度在国际竞赛中的夺冠模型。在 CVPR 2021 的一场技术分享中,百度资深算法工程师为参会者详细分享了 PaddleCV 的技术报告。PaddleCV 作为飞桨重点研发的视觉模型库,为开发者提供了面向图像分类(PaddleClas)、目标检测(PaddleDetection)、图像分割(PaddleSeg)、文本识别(PaddleOCR)、图像生成(PaddleGAN)等视觉场景的多种端到端开发套件和海量视觉方向模型,其中 PaddleOCR 和 PaddleDetection 开发套件更是在能源、金融、工业、农业能众多领域被企业广泛使用。本届 CVPR 各项比赛结束后,部分成果也将在 PaddleCV 中开源。

飞桨全景图与 PaddleCV

演讲、Workshop、Tutorial,全方位展示 AI 前沿探索

作为计算机视觉模式识别领域的世界级学术顶会,CVPR 不仅是业界展示领先科技成果的平台,也是探索学术前沿的平台。在 CVPR 举办的同时,百度不仅积极参与了各项竞赛,还主办了一场重量级学术 Workshop 和一场 Tutorial,并受邀在大会上做同声传译特邀报告。

Workshop 的主题是 AutoDL 的核心方向——NAS(神经网络结构搜索。在之前的 WAVE SUMMIT 2019 深度学习开发者峰会上,百度曾为在内存紧张、功耗受限、存储有限的设备上进行深度学习研究的开发者提供了一份重磅惊喜——一个名为 PaddleSlim 的开源模型压缩工具库。除了支持传统的网络剪枝参数量化知识蒸馏等方法外,PaddleSlim 还可以通过 NAS + 蒸馏 + 量化一站式模型压缩产出业界领先的小模型。这些创新方法囊括了很多百度自研的 NAS 算法。借助这些方法,百度视觉团队近两年先后七次在 CVPR 与 ECCV 等国际比赛中夺得世界冠军,并全线应用在各条业务上。这体现了 NAS 这一方向的研究价值。

为了推动 NAS 的进一步发展,百度联合悉尼科技大学和美国北卡罗来大学举办了 CVPR 2021 NAS workshop,还举办了首届轻量级 NAS 国际竞赛,探讨了 NAS 的现状和未来。大赛从 NAS 研究的关键问题出发,设置了超网络一致性、模型性能预测、未知数据三大赛道,吸引了全球 59 个国家和地区、超过 600 支队伍在 AI Studio 上参赛。比赛征集到众多优质的 NAS 解决方案,其中,清华大学基于飞桨的方案已在 AI Studio 和 GitHub 平台开源。本次 workshop 不仅有获胜队伍宣讲技术方案,还邀请了马毅、纪荣嵘、黄高、徐畅、Alan Yullie 和 Sara Sabour 等国内外著名学者进行演讲,分享了神经网络结构搜索技术(NAS)领域最新进展和未来动向。

来自百度的 CVPR 2021 NAS workshop 主席开场致辞

Tutorial 的主题是「基于能量的生成模型的理论与应用」。提到生成式建模,我们总是第一时间想到生成对抗网络。但近年来,人们对 ConvNet-parametrized EBM(基于能量的生成模型)越来越感兴趣。该框架解决了生成模型在表示、生成、效率和可伸缩性方面的需求。具体来说,与当前流行的生成模型(如生成对抗网络、变分自动编码器)不同,基于能量的生成模型可以将自下而上的表示和自上而下的生成统一为一个框架,并可以通过「analysis by synthesis」进行训练,不需要引入额外的辅助模型。这使得其在算法上更容易直接优化。在这些优势的加持下,该框架已被应用于许多计算机视觉任务中。

这场 Tutorial 由百度美国研究院认知计算实验室主办,并邀请加州大学洛杉矶分校统计学系教授 Ying Nian Wu 共同主讲,全面介绍了计算机视觉中基于能量的生成式建模和学习,还列出了基于能量的生成框架所成功解决的不同类型的计算机视觉任务,旨在帮助研究人员将基于能量的学习原理应用于计算机视觉的其他环境。

Tutorial 目录。地址:https://energy-based-models.github.io/

同声传译特邀报告的主讲人是百度美国研究院深度学习实验室主任黄亮。报告的内容来源于他在 ACL 2019 大会上作的同名主题报告,其核心是百度研究院在 2018 年取得的同声传译重大突破。这个突破使得低延迟、高质量的同传第一次成为可能,并将同传从一个冷门难题变成了自然语言处理中的一大热门课题。在这次的演讲中,黄亮教授介绍了他所在的团队在此基础上取得的新的进展。


演讲地址:https://www.youtube.com/watch?v=QojanA1pZ1o

如今,CVPR 2021 已经正式落下帷幕,会议中诞生的 idea 也在陆续走进现实世界。百度表示,在修炼好 AI 技术「内功」的同时,他们将通过搭建起的飞桨和智能云为代表的 AI 平台不断向各行业场景输出技术能力与解决方案,进一步推动产业智能化升级发展,在中国乃至全球 AI 领域持续领跑。
产业视频剪辑无人驾驶CVPR 2021百度
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
马毅人物

加州大学伯克利分校电气工程与计算机科学系教授,BAIR成员。研究兴趣:计算机视觉、高维数据的低维模型、可扩展优化和机器学习、智能机器。近期研究低维模型和深度网络之间的关系、高维数据的稀疏表征和低秩近似、高维数据的聚类和分类、3D图像重建。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

异常检测技术

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。 通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。 异常也被称为离群值、新奇、噪声、偏差和例外。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

结构搜索技术

深度学习提供了这样一种承诺:它可以绕过手动特征工程的流程,通过端对端的方式联合学习中间表征与统计模型。 然而,神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。 神经网络架构搜索(NAS)被誉为一条减轻痛苦之路,它可以自动识别哪些网络优于手工设计的网络。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

场景识别技术

场景识别是一类很常见的图像处理任务。就是给一张地标图像,快速准确地识别出这张图像的场景,识别的结果既可以是具体的地理位置,也可以是该场景的名称,还可以是数据库中的某个同样的场景。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~