2018 年 11 月 14 日至 11 月 18 日,第二十届中国国际高新技术成果交易会(简称高交会)在深圳成功举办,七牛云作为国内领先的以数据智能和视觉智能为核心的企业级云计算服务商受邀参展。
11 月 16 日,在以「数造中国 定义未来」为主题的 2018 中国人工智能领袖峰会上,七牛云获得了「AIC 青藤奖」。同时七牛云人工智能实验室创始人彭垚为大家带来了题为《智能平台的创新和发展》的内容分享。
以下是关于演讲内容的实录整理。
七牛云是一家专注在智能视频云领域的企业,像秒拍、抖音、美图秀秀这些大家日常在用的耳熟能详的 APP,它们所有的数据都存在七牛云,图像、音视频、语音的处理,以及内容的分发都由我们来做。
(七牛云人工智能实验室创始人彭垚)
今天给大家分享的主要是七牛云在 AI 领域所做的事情。
整个人工智能平台上 80% 以上的数据均来源于视觉,其中以音视频、图像为主,所以整个智能体系中最重要的环节就是视觉智能。视觉智能主要还是针对于互联网上,每天通过手机上的 APP 自拍,在美拍、秒拍自动上传之后,再通过人脸识别、深度学习等进行处理。除此之外,在这些过程中也会产生一些其他的结构化或日志的数据,所以会通过我们的数据智能做一些数据的分析,包括一些机器语言的理解。下面是七牛云之前比较重要的直播、点播、实时音视频互动和播放器的能力,底层还有一些基础的能力,包括云主机、容器计算、海量存储和智能网络。
AtLab 核心创新体系
七牛云整个 AI 逻辑的产生用这张图就可以表示出来。
我们有三大 AI 平台,一个是智能多媒体 API 平台。把视频和图像导入,通过智能多媒体 API 平台可以把图像和视频认知的结果,比如说人脸识别的结果输出,这个平台就会支撑各种各样的模型。在这个过程中会产生很多的数据,这些数据我们会把它结构化,把视频图像标准化,建立整个的视频图谱。利用视频图谱把数据入库制作成想要的样本,然后再做一些标注。做完之后会再把这些数据标注完的信息资料导入到深度学习平台中去做学习,学习完就可以把视频生成,这是三大云平台的逻辑。
在这三大平台之上,内容安全是第一重要的模块;第二块是城市慧眼,我们做了各式各样的识别场景,包括各类车辆的检测;第三块是媒资智能,有很多广电的客户找到我们,这些客户同样有大量的视频数据,我们可以帮他们做快速的编辑、审核、检索等业务;第四块是创新计划,我们有一个专门的投资,来做各种有意思的创新任务。
一站式多维度内容审核—「明瞳」
「明瞳」是一站式内容审核的产品,主要面向广大的互联网企业。大家都了解,最近很多的互联网 APP 都被关停,就是因为上面的违规违法内容太多,对我们生活的影响,特别是青少年的影响是比较大的。一方面七牛云在服务这些互联网企业,一方面我们也在给政府,包括网信办、网安、广电总局提供我们的系统,协助他们去做审核。
传统的审查方式有:平台自查,可能会招一万个人去做人工审核。然后也有政府的监管方式,比如说群众举报,通过很多热线电话、网上举报的渠道。在举报之后,像网信办、网安这些政府机构一般都会去查处。现在也会利用七牛云的平台,自动地做爬虫检查,检查这些违规违法的行为。这三个方式方法实际上还是有非常多的痛点,因为有很多违规违法的内容还是一直在互联网上流传。
传统方法怎么用机器去查违规违法内容?
最早网安提出的一个方案是拿图像视频 MD5 的文件,把 MD5 值求出来,如果找到一样的就认为它是有问题的。一旦有一些新的违规违法视频,再通过人工把它转进来。违规内容持续流传,只是说相同的文件会找到,但实际上大部分的文件还是存在略微的差别,所以是完全的找不到。
现在市面上也有很多类似的企业,他们基本上采用的方法是用视频单帧的考核模型,这个现在比较主流,有很多插帧的视频会遗漏掉,如果抽走一小段视频,这可能是行为分析,也不会被留意到,所以通过单帧的识别模型还是做不到。
我们现在用的是视频结构化多维度识别,国家网信办、中央网信办和很多地方网信办现在都在沿用这一套系统,我们和网安总局、公安部还开设了联合实验室。
给大家分享一下整个做视频监控云这一套技术的方案。
对一个视频来说首先要提前做分镜头切割。镜头切割就是,比如你有一个长视频,一个镜头是对的,你可以切过来放到这里。首先要把视频段切割出来,每一个视频大多是定景的拍摄。切割完之后对每个视频段进行评估,包括行为的识别、涉黄低俗的识别、片段中的语音提取。语音提取需要做特殊声音的比对,包括低俗的、奇怪的声音,都是要通过特殊的声音去识别出来;文字的识别,包括像自然的语言处理、字幕翻译;然后还有动作的识别,动作其实是比较难捕捉的,比如性暗示行为的识别;还有场景和物品的识别,有一些特殊的物品和场景是违规的。通过这五大板块内容的识别,加上视频时序特征的叠加,我们就可以查处到这个内容的合法性,包括追溯到这个内容的区域、网络,去做整体的查处。
「明瞳」内容安全产品具有较多的优势,视频算法团队在国际上获得了非常多的奖,在视频竞赛中拿到了很多国际大奖。目前已经服务了很多互联网企业,每天审核超过 2 亿的视频,当然这个数据量还在增长,日均的审核量我们预测会超过 10 亿。
「明瞳」内容安全现在审核的主要类别有:涉色情内容、涉敏感内容、涉暴恐内容、涉低俗内容,每一个大分类下还有非常非常多的细分类,所以对审核的认知,首先它有一个很大的审核知识图谱,它建立的过程会通过一些新的东西去学习、去增加。
这个审核对互联网公司来说,看起来非常简单,如果你是存储在七牛云上的,直接打开开关,它就会开始自动审核。而且我们后台也有人工复核,不需要搭建任何的审核系统,就可以帮你全部做到。
智能化城市管理新模式
—「城市慧眼」
下面介绍城市慧眼相关的内容。在上海、广东以及全国各地很多城市进行的智能化城市建设中,我们主要承担的是 AI 人工智能和视频的建设工作。
我们把城市慧眼 AI 分为这六大能力:城市安防,包括人脸动态静态的比对、人员立体追踪、重点人群管理、走失人群的搜寻。还可以做一些在岗督查的工作,监督这个人员上班是不是在待工,有没有玩手机、抽烟、睡觉。还有车辆管理,包括像渣土、环卫等整体的管理,每一种车辆的违规标准都可以识别出来的。一些违法的拉横幅行为也都可以识别。
在上海外滩陆家嘴滨江大道,我们用一个高速的算法做目标跟踪,技术是非常精准的。可以洞察关键路口多方向人流量变化情况,掌握人流规律,适时引导人流方向。
在重点区域还可设置违规告警。在黄线外面,保安在的地方是不允许溜狗的,就会告警让他回去。共享单车不允许停靠的地方,我们也会第一时间识别出来。
这是黄埔外滩的人流密度方向监控。监控的方法实际上是人流密度的计算。如果人头密度非常低的时候,它会画一条线,有可能人数增长就会出现拥堵的现象,上面这个图就是通过人头的方式去做人员密度的整体评估,包括很多的方位。下面这个图实际上有很多的箭头,它可以通过不同的颜色标注不同的人群,通过箭头知道人的行走方向,所以通过这两个视频综合判定出人流的走向和人流聚集的方向,这样就可以去做快速的人员疏导和预警。
大型马拉松活动是有一个大部队,这时候人是非常多的,行人乱窜或者车辆的危险进入可以通过无人机去做全程的跟踪。
整个城市慧眼安防监控的系统由这几个部分组成:人体、物体、场景,还有人像的一套识别系统,我们对应可以去做的能力,包括检测识别、智能检索、行为分析。整个安防监控产品,通过计算机视觉 + 人工智能的能力,可以去做智能发现、实时预警、快速处置、长效治理。
然后是做行人再识别。其实能做人脸识别的摄像头是非常少的,就算这个摄像头能做人脸识别,但如果人背对着摄像头也是识别不了的。ReID,通过行人行走的姿态,上中下的特征,识别出真正人的定位,七牛云在这一方面的学术领域水准非常高,在整个榜上是排名第一的。
早期做深度学习平台的时候,我们觉得管理数据太累,写代码重复率太高,所以最初只是想做一种工具平台。后面发现深度学习平台能够给很多学术的朋友带来很多帮助,特别是学校的学生。这是整个深度学习平台的发布流程,从模型的开发到调整,到调参,自动的训练、验证,到发布上线,整体是一个闭环。
这是AVA 深度学习平台的架构。从底层可以支持的所有存储,上面有一套分布式系统,有一些高级的应用,包括 AI 学习、增量学习,包括模型流程。
LEGO 大数据富媒体知识库是后续更智能去投入的。我们要做视频的结构化,把场景切开,特色的内容识别出来,建立一整套的搜索引擎,构建一套图谱。这个知识图谱是通过爬虫体系不断完善的制度,最后对外的其实是大数据的结构引擎,把里面的样本内容做结合,可以以图搜视频、以视频搜视频,还能得到你想要的数据样本。我们现在得到的数据量非常大,有好几十个 TB,整个样本的量都是在 LEGO 里面。
同时在第二十届高交会展览期间,经由专家评审和高交会组委会评选,七牛云凭借先进的产品创新优势在众多参展企业中脱颖而出,「七牛云海量存储系统」荣获高交会「优秀产品奖」。现场人气爆棚的七牛云展台还获得了本届高交会「优秀展示奖」。