Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与一鸣 思源

不想横屏看视频?谷歌开源框架AutoFlip一键截出最精彩竖版视频

裁剪视频不用愁,谷歌 AutoFlip 实现自动剪辑。视频尺寸、精彩内容通通自动化。

因为手机平板等各种终端设备层出不穷,制作人拍个视频还要剪裁成各种尺寸,以便分发到各种渠道。然而,如果要聚焦于核心内容,那么能追踪主体,并剪裁视频长宽尺寸的能力就必不可少了。

近日,谷歌开源了 AutoFlip 工具。这是一个开源的智能视频剪裁框架,其基于谷歌 MediaPipe 框架。

项目地址:https://github.com/google/mediapipe

在使用过程中,只需要将一段视频和目标维度(如截取的长宽比类型)作为输入,AutoFlip 会分析视频内容并提出一个优化路径和裁剪策略,最后输出一段视频。如下动图所示,我们可以选择各种剪裁长宽比与剪裁模式:

AutoFlip 是什么

AutoFlip 为智能视频调整提供了一套全自动的解决方案,它借助当前顶尖的目标检测与追踪模型理解视频内容。AutoFlip 会检测表示场景变化的构图变化,以便分离出场景进行进一步的处理。在每一个镜头中,它会使用视频分析识别重构场景之前的重要内容,其重构场景主要通过选择针对内容优化的相机模式和路径。

视频裁剪三步走,检测镜头级的视频边界、分析视频内容然后再根据需求进行剪裁。

镜头检测

视频可被视为是一段没有中断的镜头或场景序列。为了检测是否发生了镜头的变化,AutoFlip 计算每一帧的色彩值,并和前一帧进行对比。如果色值的分布发生了明显变化,则标记镜头的改变。在得出剪辑策略前,AutoFlip 会缓存整个视频,用于对整个场景进行优化。

视频内容分析

为了从视频中找到有趣的剪辑片段,AutoFlip 采用了深度学习目标检测模型。有趣的剪辑片段往往包含人和动物,但是其他元素也可以被识别出来,比如文本和广告 logo,运动中的球和动作的捕捉等。

深度学习模型对运动的人或人脸进行了识别。

剪辑

在每一帧找到了兴趣目标后,AutoFlip 自动选择优化策略——静态的、追拍或追踪的,这些取决于目标在视频中的行为。如下图所示,第一行是 AutoFlip 根据帧级的边界框追踪到的相机路径,第二行是平滑后的相机路径。经过平滑处理后,追踪效果还是比较理想的。

左图目标在画面中移动需要追踪相机路径;右图几乎固定在画面相同的位置,静态相机路径就足够了。

AutoFlip 有一个属性图,可以提供最佳效果或自定义需求的剪辑。如果覆盖所有需要的区域不能实现(如目标在一帧视频中显得太大),AutoFlip 则会自动切换到相对不那么激进的策略上。它会应用「信箱效应:letterbox effect」,在保持原始视频尺寸的同时添加屏幕黑边,让画面更自然。

对于右图要求视频囊括所有人脸,AutoFlip 会自动填充半透明黑边以满足设定的视频长宽比。

因为 AutoFlip 是 MediaPipe 的一部分,所以对于具体怎么使用,读者可查阅介绍文档

文档地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md

最后,和其它机器学习算法一样,AutoFlip 的性能会随着目标检测等能力的提升而大大加强,尤其是衍生出来的能力,例如采访镜头中的说话人检测或动漫中的动物脸检测等等。

当然,目前 AutoFlip 还有挺多提升的地方,尤其是当视频边缘有比较重要的文本信息等。谷歌后续也希望 AutoFlip 能进一步融合自然语言处理等技术实现更合理的视频智能剪裁。

原文地址:https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html

工程谷歌
2
相关数据
重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~