Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

LiveVideoStack内容来源于冰采访嘉宾

于冰:用户导向的音视频体验优化

在LiveVideoStackCon2018音视频技术大会上,快手音视频技术负责人于冰分享了题为《用户导向的音视频体验优化》的主题演讲,从用户的角度来去谈音视频的体验优化。

大家好,这次分享主要从用户的角度来去谈音视频的体验优化,做技术的公司通常都喜欢从技术角度出发去讲问题,如编解码算法、AI技术等。但是我们不妨反过来想一下,什么是用户最需要的,对用户而言什么是真正的好的体验,这也是快手的一个基本原则。

今天的演讲主要分三个部分:

  • 一是移动视频大时代的快手;

  • 二是用户导向的音视频体验优化;

  • 三是移动音视频技术趋势探讨。

一、移动视频大时代的快手

移动视频大时代已经到来,从CNNIC最新的互联网发展状况统计报告可以看到,2015年下半年到现在,移动互联网接入流量已经涨了5倍,固定宽带和4G平均下载速率已经达到了21M,21M是什么样的概念?就是4K视频用手机看已经没有太大问题了。现在制约4G视频发展的主要因素就是资费问题,而各个运营商也在解决这个问题,推出大王卡、免流套餐等等,相信这会让4G的视频消费越来越猛。 

这是快手短视频下载速率分布的数据图,和CNNIC的数据差不多。其中辽宁、河北、山东这些省份速度是最快的,可以看出这些省份运营商优化的比较好。另外看右侧图,联通大数据2018年8月份的户均月消耗流量排行榜数据显示,快手排名第一,一位用户一个月要耗掉1.7GB的流量。快手数据显示,部分用户一天就要消耗掉1个G的流量。

在这个移动视频大时代背景下,短视频为什么异军突起,而不是长视频继续独领风骚?这就要分析长视频和短视频之间的巨大区别。

首先,内容摄制方面,长视频通常以头部PGC内容为主,由专业设备拍摄、专业人员制作后期,比如由大IP改编的作品。而短视频UGC内容是移动端拍摄,移动端制作,随时随地上传。

    第二,长视频通常是横屏,1080P或者4K的分辨率,适合在大屏幕的电视、电脑上观看。而短视频都是竖屏,540P或者720P的分辨率,更适合手机的分辨率及使用习惯。

    第三,长视频以头部内容为主,是集中的热点内容,数量相对较有限但会覆盖到大量的用户,通常人们能看到的、喜欢看的电影差别不会特别大。但是短视频内容是非常长尾的,单个视频播放量会相对比较小,不过会有更多视频被消费者看到。

    第四,从消费频次上看,长视频的观看是中低频的,需要用户用固定时间去消费,看一部电影或追剧需要预留大块、持续的时间,一般只能在周末假期集中消费。但是短视频却可以随时随地刷,却非常高频。

    第五,从商业模式上看,长视频一般都采用广告、订阅或付费等相对成熟的商业模式,而短视频则是采用免费观看的模式,并在其中拓展多种商业模式如直播打赏、信息流广告、电商等。

因此,正是由于短视频在体验上的诸多优势,使得更多用户愿意花费更多时间使用快手等短视频app。

那么快手的总体情况是怎样的呢?快手现在日活跃用户已达1.6亿,月活超过3亿,原创视频总量为80亿条,每日视频播放量150亿次,每天上传视频超过1500万,一年累计用户点赞数700亿次(2018年12月数据)。

快手的使命是“用科技提升每一个人独特的幸福感”。在快手,每个人都能够看到更广阔的世界,也能够被更广阔的世界看到,这就要求平台坚持普惠、去头部化,不然普通用户发布的视频是无法被更多人看到的。

二、用户导向的音视频体验优化

什么是用户导向的思维方式?接下来我们一起了解一下,技术导向与用户导向思维模式的差异。上边这张著名的图来自于《跨越鸿沟(Crossing the Chasm)》这本书,一个技术在处于图中Early Adopters阶段与Early Majority阶段中会有很大的鸿沟,要想跨越这个鸿沟是很有挑战的,首先需要技术本身非常靠谱,其次要非常理解用户的诉求,能够满足大量用户的刚需。从技术或用户两个角度入手,满足上述要点,都可以取得成功。

首先看一些技术导向的案例,比如搜索引擎、无人机、谷歌Chrome浏览器,都是通过非常强的技术手段实现,并且恰好满足了用户的需求,才会获得成功。代表性公司是Google,以技术洞见带来的革命性进展推动市场。也有一些待验证的技术,处于Early Adopters阶段,比如3D电视,需要戴上3D眼镜才能看观看,使用率很低;VR视频,我买了很多VR的头显设备,但用过一次后放在抽屉里再没有拿出来;4K电视也是类似的困境,很多用户并不能看出4K和1080P的区别。这些技术之所以没有大规模普及,主要是因为没有从用户角度思考问题。

而用户导向代表性的公司是Apple,其思维方式是从用户需求出发,做出超出用户预期的产品和技术。我个人认为,对用户的理解其实是更有助于跨越鸿沟的。

再举个音视频领域的例子,十多年前我跟优酷合作做过一次大规模的音乐会在线直播,是业界最早采用H264 FLV分发技术的案例,支持多机位切换,实时回看。虽然该技术方案与今天所采用的主流方案没什么不同,但由于web端大型活动直播的频次低,用户粘性不高,并未引起多大的市场反响。直到七八年以后,随着移动直播体验的普及,相关技术才真正的走入大众市场,变成爆炸性增长的产品。

移动直播最早是从美国兴起的,如2015年上线的Periscope等App,这些产品创新地在直播中加入了点赞、评论、打赏等机制,用互动性增强了用户粘性;另外由于移动直播可以随时随地开播,又提升了主播与用户交互的频度。最终通过用户的体验创新来实现了变革。

看完直播,再来看下传统视频点播App,目前多数影音App是类似YouTube、Netflix这样界面的传统交互模式,通过分类、搜索、推荐等形式构成了复杂交互体验,对于中低频的影视剧长视频观看是比较适合的。但是在移动端碎片化消费的时代,类似快手这种操作界面简洁、主要通过算法实现个性化推荐的短视频APP,操作更简便,反而更受用户欢迎。

快手是一家用户导向、技术驱动的公司,这是公司的定位。现在快手属于已跨越鸿沟且处于上升期的阶段,主要优势有三点:

一是用户场景简单,短视频、直播两种形式的内容,通过推荐做个性化分发,十分易于理解。

二是从用户使用场景出发设定优先级,这样技术落地时就会比较稳、比较准。举例而言,假如你先研发了一项技术,然后再去找技术的落地点,就如同拿了一把锤子(技术)到处去敲矿石(用户使用场景),很可能会找不到适合的石头,或者找到的石头里边没有好东西;但假如我们手上有很多优质翡翠的原石,再去找锤子,即使可能找到的不是最好最先进的锤子,甚至是石器时代的锤子,也能够敲开藏着翡翠的原石。

第三个优势是通过数据验证你的假设,快手用户行为样本量大,数据置信度高。算法好与不好,上线AB试一下便知道,一切用数据说话。

用户导向也带来了很大挑战,技术人员通常喜欢从技术角度出发想问题,但是现在要换位思考,从用户角度、需求去考虑,反向思维,这是非常难的事,很多技术人员需要经历一段时间的转变才能做到。

另外如刚才我们提及的,一把石器时代的锤子,只要能砸开玉石就是一把好锤子,所以解决问题时并不一定需要最先进的技术。具体而言,解决一个很难的技术问题,可以有不同分数的方案。我们团队很多同学都是成绩优秀的学生,喜欢追求90分的方案,投入了大量的时间和资源,却可能因为算法、系统复杂度或其他各种各样的问题,最后迟迟上不了线;而我们很多线上体验一开始可能只有30分,采用一个非常简单的方案就能让你达到60分,为什么不先去做一个60分的方案呢?

我们的解决方案就是让研发人员成为产品的深度用户,自己从用户角度推敲优化。同时做很多的技术储备,当用户需求来了,随时可以拿出来用。如果自己的技术储备不够,又十分着急的话,要考虑采用成熟的第三方技术。技术好不好要用实际数据来说话,看用户是否接受它,而不是盲目上线技术上看起来很牛却曲高和寡的东西。

举个实际例子,快手有个很重要的体验,直播连麦,也就是主播与粉丝实时音视频连线。2016年,很多直播产品上线了3连麦、4连麦,甚至8连麦、16连麦。快手刚上线直播时,产品团队从用户的角度做了评估,考虑直接上线视频连麦可能会给用户带来社交压力,因为被连麦的用户往往不是主播,不是都喜欢露脸。那么如何最小化用户开通连麦的压力?最易接受的形式就是语音连麦,所以我们最先上线的是技术上简单一些的语音连麦,也有充足时间把体验优化到最好。事实证明用户接受度也特别高,等用户完全接受了语音连麦,并且反馈了需要“露脸”的需求,我们才在2017年上线视频连麦;2018年,视频连麦也无法满足用户需求了,进一步上线了视频直播PK的功能,直播PK是一个非常复杂的玩法,而此时快手在技术方面已经做足了储备,迅速上线满足了用户的需求。

接下来介绍下快手的音视频技术体系建设历程,首先是要从用户场景的痛点出发;第二是端到端的流程打通;第三是做科学化、精细化的流程管理;第四,介绍一下我们是如何抓重点解决若干核心问题的。

对于移动端短视频的体验,从拍摄到编辑、发布,到浏览、播放,用户都有不同的诉求。比如拍摄要真实还原,画质也要优异;编辑要操作顺滑,发布成功率要高;浏览要极速加载、播放流畅,清晰度要高,这是理想的情况。但现实情况是拍摄的时很卡顿,很多性能较差的机型帧率不高,分辨率又低,有偏色的问题,画质也参差不齐;编辑发布响应非常慢,上传失败率高;播放的时候有加载慢、播放卡顿、画质模糊不清楚的问题。这些都是用户的痛点,所以我们设计的方案都是针对这些痛点来做的。

接下来是移动端直播体验,其中直播端涉及推流、连麦,观众端就是简单的观看。理想中的移动端直播,需要清晰流畅、低延时,观看端要极速加载、清晰流畅。

我们在实际优化过程中会遇到很多的挑战,比如连麦的体验,用户一连上就卡,该如何改进?这里放了一张《火星救援》的图,Science the shit out of it,我们相信科学的力量。

怎么样才叫科学的方法呢,就是要做到可描述,可衡量,可验证,具体执行下来必须有分析痛点(确认问题)、提出方案(假设)、本地验证、线上AB、确认收益几个环节。首先要分析用户的痛点,产品、研发、运营等各个团队都会反馈用户遇到的问题,之后研发团队会深入实际的用户案例,提出通用的解决方案,然后要做本地验证。谁来验证呢?就是医生团队,我们有专门的音视频质量实验室,他们来验证我们的方案是否靠谱。为什么要本地验证?因为经常有算法工程师做了一个算法,自己验证过觉得非常好,结果上线后大家说没效果,这就是缺了一个非常重要的本地验证的环节。因为算法可能在线上系统没有被调用,或者参数输出有问题,要想非常精细化地验证画质、音质是否有改善,需要专业团队专业设备来做。之后才能去做线上做AB测试,通过数据分析QoS和QoE的指标是否改善。QoS是技术指标比如卡顿,QoE更复杂些,如用户观看时长有无变化,而影响时长的因素非常多,想要确认QoE收益需要大量独立的数据实验。

为了做端到端的体验优化,我们经过两年的时间逐步构建了快手端到端的音视频技术体系,打通了整个快手的直播短视频的技术栈。首先是主播端,就是内容生产和直播推流,包括了拍摄、编辑、直播推流三个大的SDK,把视频通过文件或实时流的方式到云端。其中短视频源站和直播源站都是我们自建的,短视频的源站是做存储、转码、封面抽取,直播源站是做录制、实时大规模的转码,这些都是业界规模最大的。内容分发是多家一线CDN供应商,消费端是我们的播放器SDK,可以做直播和短视频的播放。

各个环节的QoS、QoE数据都会上报到我们的流媒体大数据平台上,平台可以做实时多维的日志分析、监测和报警,任何区域任何运营商有播放、上传、推流的问题,在5分钟之内就可以报警。还可以通过深入的数据分析去找出用户的痛点,上线优化方案,做AB测试,验证我们的优化是否有效。

为什么要端到端打通技术栈?好处很大,举个色彩还原的例子,从拍摄开始到编辑、压缩、传输,再到解码重现,在屏幕上绘制出来,这个过程中很多地方都会涉及到色彩空间的转换、格式的转换,任何一个地方做错了,都会导致呈现出来的视频清晰度、色彩有偏差。想解决这个问题就需要从头到尾梳理清楚,任何环节有问题都需要修改。

接下来分享一些我们重点解决的核心问题。

首先我们需要先看下短视频的业务特点,快手是海量用户上传播放视频的平台,用户分布广、机型分布广。其中,相当一部分快手用户处于偏远地区,痛点在于移动端拍摄编辑不流畅,低端机型画质参差不齐,以及移动端上传失败率高,清晰度低、流畅度差等问题。我们主要着力解决的就是这四个问题。

1、优化移动端的拍摄和编辑

快手内部多个团队合作打造了一个性能可伸缩的移动端多媒体引擎,从视频的采集、编辑到上传实现了全流程打通,带有媒体引擎、图形引擎、图像引擎、AR引擎(由AI引擎支撑),再向下是底层的硬件Video Encoder/Decoder,以及CPU、GPU、GSP、NPU的支撑。有了这些引擎、硬件的支持,用户就可以进行短视频的拍摄编辑、视觉特效、魔法表情、图像增强、AR特效等应用,能够做到高端的手机效果非常好,低端的机型也能够流畅的处理。由于算法复杂度可伸缩,低端手机效果可能相对差一点,但是流畅度没有问题。

2、优化拍摄画质

优化拍摄画质方面,为了改善低端机的画质,快手开发了自动增强滤镜,能够自动调节色彩亮度,处理画面偏色偏灰的问题,让拍摄功能不太好的国产手机获得跟iPhone差媲美的效果。另外一个效果叫暗光增强,是我们跟北大合作的一个算法,本来是光线很差、一团漆黑的视频,暗光增强优化后细节都非常清楚。

3、优化上传体验

快手拥有自研的KTP协议,在短视频90%的丢包下还可以正常传输数据。理论有效带宽在不同的丢包率下肯定是逐次降低的,例如90%的丢包率下,可用带宽可能只有10%,但10%中我们还能用到6%;然而用TCP,丢包率降到20%就不行了,所以用TCP是完全不行的。上线AB验证的结果,可以看到KTP上传失败率降低了27%,取消率降低了23%,还是很有效的。

4、优化清晰度、流畅度

清晰度流畅度的矛盾大家应该都遇到过,如何解决呢?视频压的越小越流畅;而保持同样视频文件的大小,压缩比越高,视频就会越清楚。所以最重要的就是智能压缩的算法。短视频不需要一个恒定的码率,我们可以针对不同的内容和场景复杂度,输出不同的码率,自动根据内容做适配。如果是非常复杂的场景,我们会把码率调高,如果是非常简单的场景码率可以压得低一些。另外,我们选择在云端做非常高复杂度的压缩,追求极致的压缩比。

还有什么手段来优化清晰度呢?可以让系统把不清晰的视频先过滤掉,例如上图最左边的图片系统可判断大概率是很清楚的,中间的图片大概率是模糊的,右边可判断实际上是镜头脏污监测。很多用户的手机拍出来的视频不清楚,主要是因为摄像头不擦,这些我们系统都能检测出来。

下面介绍直播场景。快手直播的特点是以移动端推流、播放为主,我们也支持PC端的推流,主要是做游戏直播。还有一个特点是规模大,是世界上最大的直播平台,场景非常丰富,玩法多样,吃饭、钓鱼、玩个跳舞机都可以随时随地直播。这对我们系统的挑战也非常大,因为用户并不只是坐在家里用固定网络直播,移动端推流的网络、位置都是不确定的。

另外直播玩法多种多样,比如最近的PK特别火。用户痛点在于,主播端推流卡顿很多,如果主播很卡,所有用户都会卡,所以主播卡顿是我们要重点解决的问题。

直播有几个细分的场景,首先是互动直播,就是我们经常说的观众和主播之间的实时互动,它的延迟要求是小于5秒,对流畅性要求特别高,对可靠性要求也非常高,对清晰度要求较高。

其次是游戏直播,对延迟要求更宽松一点,为什么有的主播其实希望延迟高一点?如果游戏主播延迟很低,主播在游戏中就暴露了实时位置,容易被游戏中的敌人伏击,所以游戏主播通常希望延迟在10秒以上,这就是基于用户个性化体验的需求,技术人员不做产品可能就理解不了。游戏直播对流畅性、可靠性要求比较高,清晰度则是要求最高的,因为很多游戏直播是1080P甚至是蓝光的体验。

最后是PK和连麦场景,延迟要求是在400毫秒以内,对流畅性要求高,可靠性要求不高,能够容忍一定的丢包。主要是保证低延迟,因为延迟一旦高了,相当于没有实时性,连麦体验很差;连麦清晰度方面其实可以做得更高,但是为了保证延迟低,清晰度可能会做一些牺牲。

基于上述分析,我们重点优化的方向就是直播上行,这个上行是用KTP推流来解决的,把直播流通过UDP协议推到快手源站,这样在各种弱网下都可以顺畅的直播。然后通过多家CDN去做智能调度和码率自适应,让观众端也更流畅。

上图是优化的一个例子,左边是TCP,右边是KTP,视频码率大概为3-6M,带宽限制最高5M,丢包率是10%,这时候可以看到TCP会经常卡顿,KTP则非常流畅。

实时连麦的场景是音视频领域工程和算法里面挑战最大的,像Apple的FaceTime,以及微信的实时音视频通话,对传输、编解码、音频处理等相关算法都是要求最高的环节。

首先,传输和编解码要做到延迟低于400毫秒,在400毫秒以内做所有的算法,要实现20%的丢包无感知。另外直播连麦要实现无缝切换,不能连麦以后让所有观众卡一下,所以要做很多工程的优化。

音频处理也非常复杂,要做噪声、回声、增益的控制算法。例如PK场景中,两个主播要一起唱歌,就需要支持高音质的K歌,混响、音效等很多方面也要做相应处理。所以这个架构看起来比较简单,但是里面有很多非常复杂的算法。快手的这套体系全是自主研发,没有使用开源,便于我们根据业务需求深度定制。

无论直播还是短视频,怎么才能保证线上的体验最好?我们的大数据系统负责实时分析、监测和智能调度,这是快手音视频技术栈的一个突出特点:音视频团队里面有一个大数据团队。我们一开始做的是离线分析系统,做由于数据量太大,做一个实验,需要跑10个小时数据才能出结果,效率特别低。于是我们开发了实时多维监测报警平台,能够实时监测线上的数据到底怎么样,任何细分地区都可以看到。我们后面还实现了实时多维AB测试,以前做AB测试需跑两天才能在线上查数据。现在AB测试上了以后,马上就能在线看结果、继续做调优。

下一步我们在做的是实时多CDN智能调度。过去我们做实时多维监测报警,如果半夜有报警过来,我们要人工看是哪个区域CDN有问题,把它切掉,晚上没法睡觉很痛苦。有了这个系统以后,切量操作或者量级的配比等优化局部卡顿的操作,都可以让系统自动去做。 

另外,我们还做了故障自动归因,当一个区域视频发生卡顿了,问题在哪,是运营商的原因还是CDN的原因?如果是CDN的原因我们就找CDN去优化,如果CDN没有问题要通过渠道找运营商去优化。归因非常重要,之前都是要人工排查原因,现在用智能的算法就能自动找到原因,直接报警给CDN或运营商方面。

三、移动音视频技术趋势探讨

下边跟大家聊一下我们所关注的未来的趋势,大家都能看到,AI是未来的一个大方向,AI的算法在编解码算法、智能影像技术、传输和分发算法、智能音频处理上,都会有长足的发展和应用,快手对此也比较关注。

编解码是一个基础技术,我们所有的工程优化都是围绕着编解码在做,编解码可谓是音视频的核心引擎。

首先,硬件的编解码会逐步的成熟,硬件速度快、功耗低、密度高,在移动端、直播等领域应用非常广泛,移动端方面,我们在iOS、Android大量使用硬件编解码能力,对提升用户体验非常有效;在GPU方面,我们在直播上支持Intel和NVIDIA两家的高密度硬件编解码方案;快手也在关注FPGA,评估这个方案在性能和速度上的优势。我们相信硬件编码无疑会越来越好,但在短视频领域,我们主要还是用软件去做,因为我们追求的是压缩比。

后HEVC时代,我们比较关注的是H.266和VVC的国际标准,还有包括AV1、AVS3、XVC在内的下一代的编解码技术,快手在美国也建立了标准实验室团队,也在澳门的会议上中了两个提案,我们非常关注下一代标准,希望能贡献我们的力量。

移动端的视频跟标准的通测序列差异是很大的,快手也很关注在这个移动端的视频集里,如何能够针对这些视频的特点在这种序列里面做一些创新的优化算法。

跟AI的结合方面,我们比较看好的是通过AI来做主观质量评价。现在很多公司用的都是VMAF,VMAF其实是用传统图像算法来做feature extraction(特征提取)、用SVM来做预测。有没有办法用深度学习来做特征提取和预测?可不可以比VMAF更准更符合人的主观直觉? 在有了好的主观评价方法基础上,视频的前后处理,也就是视频增强用AI实现也会很有收益。

另外就是针对视频的特点,如何精细地做分析,很多做多媒体分析的同学都是从图像角度来分析的,但如果结合视频特征做内容理解收益会很大,也就是结合做编解码的同学对视频模型的理解,以及成熟快速的编解码算法,可能对视频内容的理解会非常有帮助。

再看一下ROI(region of interest)编码,通过AI可以代替人眼找到视频中比较重要的、用户会感兴趣区域,利用ROI编码圈定用户主要关注的目标,减少信息量。但我认为这个只能在超低带宽情况下使用,如果带宽足够,视频还是尽量清楚比较好,如果我们把自己认为的一些不重要的细节抹掉了,这些细节对用户而言可能恰恰是视频的亮点、趣味性所在。因此ROI在网络不佳的极低码率条件下,才会有用武之地。

下面是智能影像技术。视频的拍摄实际上是一个非常大的领域,跟编解码算法要做非常多的结合。如果在快手APP里面做一个普惠的算法,能够覆盖很多的机型,覆盖非常多的普通用户,让计算摄影学这样高深的技术走向大众。这其中有一些推动力量,比如Camera2接口,有了Camera2的接口实际上能获得更多的信息,包括更丰富的色彩信息、更广的亮度信息,感知空间的深度信息,在此基础之上,可以利用更好的算法替代传统的ISP。

快手也在构建自己的Software ISP引擎,希望能够随着CPU、NPU算力的增加,AI的能力会让手机越来越强,可以用这些计算资源做很多复杂的东西,比如场景识别、物体识别;比如针对不同场景物体对图像做有针对性的调优;比如可以做以前移动端做不了的Super Resolution,Denoising, Low Light Enhancement。如果这些算法如果能够在移动端跑起来,未来对拍摄体验的改进会非常大。

这两年4G在进一步普及,原来很多用户比较担心流量费用较高,出门会手动关掉4G流量。最近运营商都在推4G免流套餐,让用户能够放心刷视频,我们预计用户在线的时长会显著增加。在更多的场景,比如原来没办刷视频的地铁、高铁、户外、人员密集的地方现在都可以刷视频,这对我们的要求就是针对不同的细分网络场景做算法优化。

我们现在比较关注的是多码率自适应,直播短视频方面都在尝试,尤其在短视频上的多码率自适应业界是没有尝试过的,我们有专门的算法团队做这个优化。还有Google做的QUIC协议,在用户体验提升上面会有很明显收益的,我们也在关注,各个CDN什么时候会能够全面支持。

传输和分发怎么与AI结合呢?我们看好智能流控,其中包括带宽预测,还有CDN调度,用强化学习等方法做预测。我们更看重这些算法能否上线,上线的效果怎么样。

2019-2020,5G时代将会正式到来,5G会带来很多基础性的变化:高带宽、低延时。更高的带宽意味着更高的清晰度,它的带宽会是4G的一百倍,所以4K、8K、VR都不成问题。在未来的时代要做哪些玩法,进行哪些创新,这是留给大家的思考的问题。还有Wi-Fi可能会逐步被取代,很多地区现在就有这样的趋势,如果4G资费足够低,用户可能就不装宽带了。还有就是IoT(Internet of Things),即任何的设备都有一个IPv6地址,都可以通信,24x7的录制和传输视频。再者就是实时通话质量预期可以大幅改善,比如现在微信的语音微信的视频还是不能完全替代电话的,5G时代,这些改变都可能发生。

智能音频处理。这是快手另外一块很重要的算法,我们会做更高音质的回声消除、噪声抑制和增益控制,这方面我们有专业的团队在做。音频的编码传输需要在实时传输和弱网丢包的情况下做很多的优化。

我们也在利用AI技术做音频理解和生成。比如短视频拍摄的一个痛点是给视频的配乐要花很长时间,我们希望算法能够通过用户的视频内容、场景乃至情绪理解,实现自动选取配乐,甚至自动生成配乐。

我的演讲内容如上,感谢LiveVideoStack会方的精心组织,这是一年一度音视频技术爱好者的大聚会,也希望今后有更多的同学参与分享音视频优化的经验,谢谢大家!

快手
快手

快手是面向普通人的记录和分享生活的短视频社交平台。以“记录世界记录你”,用有温度的科技提升每个人独特的幸福感为快手的核心使命。快手的AI技术深入产品骨髓,贯穿于内容生产、内容审核、内容分发、内容消费的全业务流程。快手拥有世界领先的计算机视觉与深度学习能力。

产业音视频图像增强数据分析智能硬件计算机视觉
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~