Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

七牛云邵杰:视觉智能——视频云新时代

七牛云是国内领先的以视觉智能和数据智能为核心的企业级云计算服务商,同时也是国内最有特色的智能视频云服务商,累计为 70 多万家企业提供服务,覆盖了国内80%网民。

8 月 11 日,在以「AI+Cloud 赋能行业新未来」为主题的 NIUDAY 成都站中,七牛云人工智能实验室算法架构师,复旦大学博士邵杰为大家带来了关于「视觉智能——视频云新时代」的分享,帮助大家了解七牛云在 AI 方面的创新内容。 

邵杰博士曾就职于公安部第三研究所并带领「搜神」团队,参加国际顶级的计算机视觉领域大赛 ImageNet、COCO 等,多次获得第一、第二名。他研发的人证合验闸机部署在新疆所有区县。

(图为七牛云人工智能实验室算法架构师邵杰博士)

本文是对分享内容的实录整理。

首先我们先来认识几个人。吉尔伯特是最早研究电磁现象的英国科学家。法拉第是真正的电磁专家,推动了电动机的发展和后面的工业革命甚至社会变革。其实真正让电力进入千家万户还有一个人,是贝尔德,他发明了电视机。有了电视机之后,千家万户都离不开电了。电力这个技术进入千家万户给我们带来巨大的变革,这与人工智能有什么关系呢?很多人可能听到斯坦福大学吴恩达教授有一个著名的论断就是人工智能就是新的电能。我很赞同他的说法,人工智能未来会充满生活每个角落,给我们带来巨大的变革。

七牛云最早做图片存储,后来还有 CDN、直播,把用户端采集的图像视频数据存储、管理、分发,整个我们叫做基础连接,都包括在里面了。这是前面一个阶段。后面一个阶段我们想做的是,有了数据管理后,通过智能技术知道里面的内容,理解里面的内容,让它产生更大的价值,这是 AI 对我们更大的意义。

视觉感知方式的巨大变化,左边的图是世界上第一台照相机,我想说照相机产生到现在已经将近 200 年的时间,人们感知世界的方式发生了一些变化。当然照相机有和没有之前有巨大的变化,之前人靠自己的大脑记录这个世界,看到什么东西可以大脑记录。有了照相机就可以拍照,再后来有了摄像机,这个根本上没有改变内容,还是记录下来,只不过有更好的记录方式,可以记录视频、可以电子化、可以存的更多更持久,但是要理解你这些多媒体数据的内容还是要靠人脑自己分析,自己识别、理解。

但是,最近这些年人工智能技术带来特别突出的变化,就是说现在的技术让我们在某些条件下可以让机器理解这个世界,这一点非常重要。国外媒体有一个论断,我们如果把人工智能技术大爆发归结于某个单一事件,就是 2012 年 ImageNet 竞赛冠军宣布那一刻,当年 Hinton 和 Alex 做出来的那套系统对计算机视觉方向产生了巨大的影响。直到现在我们用的很多技术都是在这个技术上的衍生和进化,这个技术后来又扩展到强化学习领域,给整个人工智能技术带来非常大的推动和变化。

七牛云人工智能实验室创新体系

上图最下面有三块内容,构成我们的 AI Video OS。AI 视频操作系统有三块内容,分别是DORA、AVA、LEGO,七牛云最开始不但有存储还有图像处理,虽然是一些简单的编解码操作,但是正是因为简单的操作给我们带来了巨大的用户。很多用户有非常多的富媒体数据,自己存不现实,自己处理也不现实,当时我们就有 DORA 系统。现在我们扩展到智能多媒体 API,除了处理外还增加了识别和检索。因为 DORA 有非常好的扩展性和非常大的请求承载能力。AVA 是深度学习平台,是效率工具;LEGO 是富媒体知识库,让我们更好管理多媒体数据。

创新计划是针对高校学生和老师提出的创新计划。内容安全、城市大脑、智能媒资,下面我想展开说一下。

内容安全

这是我们特别关注的领域,尤其是互联网上内容安全变得越来越重要。这里遇到几个比较多的就是色情内容、爆恐内容,以及敏感事件的内容,面向的群体可能是互联网上的,还有广电新媒体,是多媒体内容里的相关类别。所以这是我们特别关注的一个方向,我们在这个方向已经深耕了很长时间。

现在针对这个专门推出内容审核的产品,你可以一键快通,管理起来非常方便,而且最重要的是有可视化展示和操作界面。现在很多互联网的公司只要涉及大量的多媒体内容的话,都有自我审查的需求。建这么一个团队是很不容易的,不管你是建高标准、高效率的人工审核团队,以及积累技术对接到自己平台都是很复杂的事。我们把可视化界面做好后,大家看到上面包括整个内容,还有结果,客户可以确认是违规删掉还是正常,覆盖了我刚才说的三个方面,色情、爆恐和政治敏感。

这个产品也是符合七牛云的理念「简单可信赖」,客户可以一键开通、方便操作,后面有很复杂的算法,我们都封装起来。依托七牛云强大的云存储资源,对模型不断的迭代更新,审核内容一直保持业内领先。

城市大脑

这是继互联网内容后又一重要的多媒体内容产生源头。最重要就是监控视频流,可以很清晰分析车、行人,现在的技术做到这个并不难。

上图是我们帮上海迪士尼度假区做的人流密度和人流走向的一个系统,是跟上海城市运营管理部门合作做的。可以实时监控迪士尼乐园出入口处人流的密度,达到他们设定的要求时就会做一些告警,通知管理人员进行疏导等等。

这是七牛云上海公司拍的,展示的人群光流,技术跟迪士尼类似,只不过这个看得更直观,可以实时对人流方向做预测,方便做管理和预警。

最后是帮上海城市管理部门做的智能交通,除了有前面的技术外,还有更多的展示和统计的结果。

智能媒资

原来广电行业,比如电视台积累了大量的视频多媒体数据。现在这些数据可能都是静静躺在那里,旧数据很难发挥价值,技术到现在这个阶段我们可以做一些事情。

这是一个视频,我们可以对视频里的内容进行分析,把里面出现的人,出现不同的目标,镜头做一下分隔,每一个场景等都识别出来。

除了识别各种场景和物体之外,其实特别重要的就是人的识别。针对人我们又专门做了一个系统。比如是这里是一个新闻内容,这里出现很多人物,我们系统对内容进行分析之后,可以把同一个人出现在视频里不同片断检索出来,根据相似度比对出来,这样可以方便的做一些查询,以及做进一步处理。

智能媒资还有很多应用,比如我们和上海一家知名企业世界杯期间做的交互娱乐的案例。足球比赛中系统会实时对画面进行分析,点球发生之前会做预测,左边是点球发生概率,快要发点球前数据发生变化。这样我可以把是否产生点球预测出来,然后跟观众做各种各样的互动就比较方便,比如说做一些竞猜等等。

七牛云自主研发的 AI Video OS

下面是一些基础的识别,可以是场景、物体、人脸各种属性的识别,还可以通过视频、光流、时间序列,甚至语义、文字做各种特征的识别。有了这些基础的识别之后,在上面一层结构化平台,其实是更高层的语义理解,比如说对事件的描述以及精确分割、知识图谱。像点球预测我们做了世界知名球员的知识图谱,除了可以把人识别出来,相关的历史数据,以及原来在哪儿踢球等关系都列出来。最上层是智能应用层,是直接解决用户需求,比如说对视频进行分类,对内容进行审核、检索推荐等等。这四个部分构成了 AI Video OS。

DORA 现在媒体有上百亿的请求,场景识别等上面都有,客户可以直接用。AVA 深度学习平台是我们的效率工具,我们在七牛对象存储基础上,结合容器技术搭建的 AVA 深度学习平台,可以在上面方便部署运行调试你的模型,并且可以直接对接海量的云存储,快速迭代这个产品。

用户无感知情况下可以把七牛云存储功能当做用户目录访问,也不用关心速度问题。再往上是分布式技术和容器技术支撑,再往上图计算,也就是现在主流的深度学习平台框架,以及我们自己研发的 Data Flow 数据处理的操作,上面是应用层,可以做各种各样的数据模型,右边是整个的管理流程。

我把这个图单列出来,这对我们来说还蛮重要,AI 平台有一个视频标注系统,可以很方便在云端对视频进行每一帧标注,以及事件每一帧的标注都很清晰,而且是云端,操作人员有一台电脑就可以操作。有了 AVA 平台就可以做了一些事情,像去年 ACM MM 会议上我们参加一个视频分类竞赛,拿了第二名。

今年 CVPR 2018 我们参加了 ActivityNet 竞赛。ImageNet 竞赛一个重要的维度升级版就是视频,之前视频数据只有几万、十几万量级,真正达到百万量级视频竞赛就是今年我们做的 Moments in time,这是第一个百万级的视频分类数据集,很特殊只有 3 秒,而且类别很抽象,里面有一个类别 open,你去开门、打开一个盒子、开柜子,只要 open 都放到一类里,很抽象,对人来说有很多经验很容易,但是对机器识别很难,解决这个事情要多个维度,要从 RGB 视觉维度做,光流维度做,目标检测维度抽特征,甚至还要做序列上的。我们决定参加这个的时候竞赛已经快结束,大概花一周时间做了七个模型,不同维度做七个模型。因为我们有一个 AVA 平台,可以分布式高效处理视频,可以分布式计算,所以七天完成这个任务,最后做到 63.7% 的准确率,拿到第三名。这展现了 AVA 平台的强大能力。

接下来提一下 LEGO,它是富媒体知识库,可以做三件事情,视频结构化描述,另外的知识图谱,有了这些之后就可以做大规模的数据检索。

三个系统怎么结合在一起的?和用户交互的出入口是 DORA,用户数据和用户反馈都走这里,DORA 是百亿级请求的多媒体 API,LEGO 是底层的支撑,可以对整个多媒体做很好的结构化存储和检索。AVA 平台是效率工具,有了这些数据,用户有一些需求让我们在 AVA 平台上快速转成用户需要的模型,并且直接部署在 DORA 上面,DORA 就可以给用户直接提供服务。这三个形成一个闭环,我们叫做可自我进化的视频AI生态系统。

这张图是我们经常在各种科幻电影里看到的未来的样子。要实现这个场景,可能今天提到的很多技术必不可少,比如说它是一个很复杂很立体的交通系统,这里各种自动驾驶系统必不可少,这种情况一旦发生什么事故,对于应急处理和预警要求非常高,城市大脑里面能不能做到预警和识别,以及各种联动的处理。随着世界技术的发展,我们相信未来肯定城市会更安全,人们生活也会更美好。

关注公众号「七牛云」,了解更多信息~

七牛云
七牛云

七牛云是国内领先的以视觉智能和数据智能为核心的企业级云计算服务商,同时也是国内最有特色的智能视频云服务商,累计为 70 多万家企业提供服务,覆盖了国内80%网民。围绕富媒体场景推出了对象存储、融合 CDN 加速、容器云、大数据平台、深度学习平台等产品、并提供一站式智能视频云解决方案。

产业人工智能深度学习平台视频云
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

分布式计算技术技术

在计算机科学中,分布式计算,又译为分散式運算。这个研究领域,主要研究分布式系统如何进行计算。分布式系统是一组电脑,通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

暂无评论
暂无评论~