因为手机平板等各种终端设备层出不穷,制作人拍个视频还要剪裁成各种尺寸,以便分发到各种渠道。然而,如果要聚焦于核心内容,那么能追踪主体,并剪裁视频长宽尺寸的能力就必不可少了。
近日,谷歌开源了 AutoFlip 工具。这是一个开源的智能视频剪裁框架,其基于谷歌 MediaPipe 框架。
项目地址:https://github.com/google/mediapipe
在使用过程中,只需要将一段视频和目标维度(如截取的长宽比类型)作为输入,AutoFlip 会分析视频内容并提出一个优化路径和裁剪策略,最后输出一段视频。如下动图所示,我们可以选择各种剪裁长宽比与剪裁模式:
AutoFlip 是什么
AutoFlip 为智能视频调整提供了一套全自动的解决方案,它借助当前顶尖的目标检测与追踪模型理解视频内容。AutoFlip 会检测表示场景变化的构图变化,以便分离出场景进行进一步的处理。在每一个镜头中,它会使用视频分析识别重构场景之前的重要内容,其重构场景主要通过选择针对内容优化的相机模式和路径。
视频裁剪三步走,检测镜头级的视频边界、分析视频内容然后再根据需求进行剪裁。
镜头检测
视频可被视为是一段没有中断的镜头或场景序列。为了检测是否发生了镜头的变化,AutoFlip 计算每一帧的色彩值,并和前一帧进行对比。如果色值的分布发生了明显变化,则标记镜头的改变。在得出剪辑策略前,AutoFlip 会缓存整个视频,用于对整个场景进行优化。
视频内容分析
为了从视频中找到有趣的剪辑片段,AutoFlip 采用了深度学习目标检测模型。有趣的剪辑片段往往包含人和动物,但是其他元素也可以被识别出来,比如文本和广告 logo,运动中的球和动作的捕捉等。
深度学习模型对运动的人或人脸进行了识别。
剪辑
在每一帧找到了兴趣目标后,AutoFlip 自动选择优化策略——静态的、追拍或追踪的,这些取决于目标在视频中的行为。如下图所示,第一行是 AutoFlip 根据帧级的边界框追踪到的相机路径,第二行是平滑后的相机路径。经过平滑处理后,追踪效果还是比较理想的。
左图目标在画面中移动需要追踪相机路径;右图几乎固定在画面相同的位置,静态相机路径就足够了。
AutoFlip 有一个属性图,可以提供最佳效果或自定义需求的剪辑。如果覆盖所有需要的区域不能实现(如目标在一帧视频中显得太大),AutoFlip 则会自动切换到相对不那么激进的策略上。它会应用「信箱效应:letterbox effect」,在保持原始视频尺寸的同时添加屏幕黑边,让画面更自然。
对于右图要求视频囊括所有人脸,AutoFlip 会自动填充半透明黑边以满足设定的视频长宽比。
因为 AutoFlip 是 MediaPipe 的一部分,所以对于具体怎么使用,读者可查阅介绍文档
文档地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md
最后,和其它机器学习算法一样,AutoFlip 的性能会随着目标检测等能力的提升而大大加强,尤其是衍生出来的能力,例如采访镜头中的说话人检测或动漫中的动物脸检测等等。
当然,目前 AutoFlip 还有挺多提升的地方,尤其是当视频边缘有比较重要的文本信息等。谷歌后续也希望 AutoFlip 能进一步融合自然语言处理等技术实现更合理的视频智能剪裁。
原文地址:https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html