2021/03/10 17:41

超越最新视频压缩标准H.266，字节跳动编码新技术让视频缩小13%

联合视频专家组 JVET 官网显示，字节跳动先进视频团队（AVG）于今年初发起了一项视频压缩技术提案，并命名为 DAM（Deep-filtering with Adaptive Model-selection）。相比 H.266/VVC 最新标准，DAM 能够为视频编码性能带来显著提升，亮度信号 Y 可实现 10.28% 的性能增益。两个色度信号 U 和 V 的性能增益也分别达到 28.22% 和 27.97%。这是业界公开的单个智能编码工具的最佳性能增益。

视频编解码是视频应用的底层核心技术，作用是对图像进行压缩和数字编码，以尽可能小的带宽传送尽可能高质量的视频数据。H.264 是现在被广泛使用的视频编解码标准，在同等视频质量下，H.265/HEVC 标准可以让视频体积减小一半。H.265 尚未完全普及，新一代标准 H.266/VVC 比 H.265 让视频又减小一半。

这并不是视频编码技术的尽头。

今年初，字节跳动先进视频团队（AVG）向联合视频专家组 JVET 发起了一项 JVET-U0068 技术提案，可以为视频压缩的三个颜色分量（Y, U, V）分别实现约 10%、28%、28% 的性能增益，这是业界公开的单个智能编码工具的最佳性能增益。在优化压缩质量的同时，视频体积相比 H.266 最新标准至少还可以缩小 13%。就其实际效果而言，如果新技术得以应用，与现在主流的 H.264 标准相比，我们看同样质量的视频，大约只需要 22% 的带宽和存储空间。

这项技术名为 DAM（Deep-filtering with Adaptive Model-selection），它是通过深度学习技术构建减少视频压缩失真的滤波器，主干是基于残差单元堆叠的深度卷积神经网络，辅以自适应模型选择以最大程度适应特性复杂的自然视频。该技术由字节跳动 AVG 的美国加州研发团队实现，成员来自高通、英特尔、微软等巨头以及海内外多家顶级院校。

我们先从下图示例中对比 H.264 与 H.266+DAM 的视频压缩效果：

可以看到，相同压缩比条件下，H.266+DAM 编码压缩质量远远优于 H.264。

除了视频压缩质量提升之外，应用 DAM 技术可以比H.266再缩小 13% 的数据体积，以下图片来自国际标准组织的测试视频。其中，图（左）为原图，每像素 12 字节；图（中）使用 VTM11.0 压缩（qp=42），每像素 0.00216字节，峰值信噪比 27.78dB；图（右）使用 VTM11.0+DAM（qp=42），每像素 0.00184 字节，峰值信噪比 28.02dB。

对比图（中）和图（右）可以看出，应用 DAM 技术后，图（右）压缩比更高，峰值信噪比（客观质量）更好，主观质量也相对更好。

图1. 左：原图, 12bpp，中：VTM-11.0压缩，QP42，0.00216bpp,27.78dB,右：VTM-11.0+DAM，QP42, 0.00184bpp，28.02dB

技术细节

DAM 的构建方法

提案 JVET-U0068 所介绍的 DAM 是字节跳动 AVG 此前一项提案 JVET-T0088 的扩展版本。

在具体实现上，为了减轻深度网络的训练难度，DAM 算法利用残差单元作为基本模块，并多次堆叠来构建最终网络。所谓残差单元是指通过引入跳层连接，允许网络把注意力放在变化的残差上。为了处理不同类型的内容，新技术针对不同类型的 slice 和质量级别训练不同网络。此外，还引入了一些新特性来提高编码性能。

图 1：（a）是卷积神经网络滤波器的架构，M 代表特征图的数量，N 代表特征图的空间分辨率；（b）是（a）中残差块的结构。

DAM 滤波方法的主干如上图 1 所示，为了增加感受野，降低复杂度，此方法包含一个步幅为 2 的卷积层，该层将特征图的空间分辨率在水平方向和垂直方向都降低到输入大小的一半，这一层输出的特征图会经过若干顺序堆叠的残差单元。最后一个卷积层以最后一个残差单元的特征图作为输入，输出 4 个子特征图。最后，shuffle 层会生成空间分辨率与输入相同的滤波图像。

与此架构相关的其他细节如下：

对于所有卷积层，使用 3x3 的卷积核。对于内部卷积层，特征图数量设置为 128。对于激活函数，使用 PReLU；
针对不同 slice 类型训练不同的模型；
当为 intra slice 训练卷积神经网络滤波器时，预测和分块信息也被输入网络。

新特性：自适应模型选择

在 JVET-T0088 的卷积神经网络结构基础上，JVET-U0068 引入了以下几种新特性：

首先，每个 slice 或 CTU 单元可以决定是否使用基于卷积神经网络的滤波器；
其次，当某个 slice 或者 CTU 单元确定使用基于卷积神经网络的滤波器时，可以进一步确定使用三个候选模型中的哪个模型。为此目的，使用 {17,22,27,32,37,42} 中的 QP 数值训练不同模型。将编码当前 slice 或 CTU 的 QP 记作 q，那么候选模型由针对 {q，q-5，q-10} 训练的三个模型构成。选择过程基于率失真代价函数，然后将相关模式表征信息写入码流；
第三，基于卷积神经网络的滤波器在所有层都被启用；
最后，现有滤波器中的去块滤波和 SAO 被关掉，而 ALF（和 CCALF）则被置于基于卷积神经网络滤波器后面。

在线推断及训练

推断过程中使用 PyTorch 在 VTM 中执行 DAM 深度学习的在线推断，下表 1 是根据 JVET 建议给出的网络信息：

表 1。

训练过程中以 PyTorch 为训练平台，采用 DIV2K 和 BVI-DVC 数据集，分别训练针对 intra slice 和 inter slice 的卷积神经网络滤波器，并且训练不同的模型以适应不同的 QP 点，训练阶段的网络信息根据 JVET 建议列于下表 2 中。

注意，当训练 inter slice 滤波器时，预测信息也被用作输入，而在 JVET-T0088 中，它仅用于 intra slice。

表 2。

下图 2 给出了训练集和验证集损失函数的一个示例。

图 2。

实验结果：三个颜色分量（亮度 Y 和色度 Cb、Cr）性能增益显著

考虑到 VTM-9.0 和 VTM-10.0 之间的微小差异，并根据 JVET 定义的常规测试条件，在 VTM-9.0 上测试了字节跳动 AVG 的 DAM 技术提案，测试结果如下表 3 和表 4 所示。

结果显示，在 RA 构型下，Y、Cb 和 Cr 的 BD-rate 节省分别为 10.28%、28.22% 和 27.97%；在 AI 配置下，对 Y、Cb 和 Cr 分别可带来 8.33%、23.11% 和 23.55% 的 BD-rate 节省。

表 3：AVG 提案在 VTM9.0（RA）上的性能表现。

表 4：AVG 提案在 VTM9.0（AI）上的性能表现。

总结

实测证明，字节跳动 AVG 的这项视频编码技术创新，可以让视频的数据体积相比 H.266 最新国际标准再缩小 13%。对视频服务商来说，存储和带宽成本将显著降低；对用户来说，在网速较慢的情况下也可以流畅观看高清视频。

但正如前文所述，早在 2013年正式通过的 H.265，如今还没有完全普及。一方面，高昂的专利授权费用导致生产硬件设备和生产内容的厂商无法承担，用户也只能买并不支持 H.265 标准的设备；另一方面，H.265 的专利收费很复杂，想要使用 H.265 得分别多次缴专利费。因此，目前最常见的还是 18 年前的 H.264 标准。

尽管 H.266 新一代标准的推广还有很长的路要走，字节跳动 AVG 的技术探索并不会停止，其研究成果也会通过自主研发的 BVC 编码器投入应用，为抖音、西瓜视频、今日头条等 App 的视频类内容处理，以及云计算、云游戏等基础架构领域创造更高清画质、更流畅播放的视频体验。

产业视频编码字节跳动

相关技术

推理网络 OpenCV

字节跳动机构

北京字节跳动科技有限公司成立于2012年，是最早将人工智能应用于移动互联网场景的科技企业之一，是中国北京的一家信息科技公司，地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端，通过海量信息采集、深度数据挖掘和用户行为分析，为用户智能推荐个性化信息，从而开创了一种全新的新闻阅读模式

https://bytedance.com

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

激活函数技术

在计算网络中，一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

来源：维基百科 Google ML glossary

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

云计算技术

云计算（英语：cloud computing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

来源：Cloud Computing

模型选择技术

模型选择是从给定数据的一组候选模型中选择统计模型的任务。对于具有类似预测或解释力的候选模型，最简单的模型最有可能是最佳选择（奥卡姆剃刀）。

来源：维基百科

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

来源：wiki

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

来源：掘金