摘要
我们提出了一种概率视频模型——视频像素网络(VPN:Video Pixel Network)——其可以评估一个视频中原始像素值的离散型联合分布(discrete joint distribution)。该模型和神经架构视频张量(video tensors)的时间、空间和颜色结构,并能将其编码成一个四维的依赖链(dependency chain)。该 VPN 已经在 Moving MNIST 基准上逼近了最佳可能的表现,其表现已经大幅超越了之前表现最佳的方法,而且其所生成的视频与 ground truth 只有轻微的偏差。该 VPN 还能在以动作为条件的 Robotic Pushing 基准上生成详细的样本并泛化到全新物体的运动上。
图 1:VPN(左)和基准模型(右)的依赖图(上)和神经网络结构(下)
5 Moving MNIST
表 1:在 Moving MNIST 数据集上的 nats/frame 的交叉熵结果
表 2:在 Moving MNIST 数据集上的 nats/frame 的交叉熵结果
表 3:在 Robotic Pushing 数据集上的 nats/dimension 的负对数似然
5.2 结果
表 1 报告了多种最近的视频模型在 Moving MNIST 测试集上的结果。我们的基准模型实现了 110.1 nats/frame,这显著优于之前最佳的模型(Patraucean et al., 2015)。我们将这些增益归功于架构特性,尤其是该网络的分辨率保持方面。此外,该 VPN 实现了 87.6 nats/frame,这已经逼近了 86.3 nats/frame 的下限。
表 2 报告了 VPN 的架构变体的结果。带有扩张型卷积(dilated convolutions)的模型比非扩张型的同等模型表现更好,因为它可以更轻松地在 64 × 64 frames 中移动的相对大的数字上工作。在 Moving MNIST 的例子中,MU 并没有凭仅使用 ReLU 就实现显著的提升,这可能是因为该任务的复杂度相对较低。MU 在 Robotic Pushing(表 3)上实现了可观的提升。
对该模型所生成的视频延续(video continuations)的定性评估与定量评估是相匹配的。图 4 给出了该 VPN 和基准模型在 Moving MNIST 测试集上所生成的随机延续(random continuations)。由该 VPN 所生成的帧拥有一致的锐利度——即使当它们偏离 ground truth 时也是如此。
与此相反,由基准模型所生成的延续会随时间逐渐变模糊——因为模型的不确定性会随所生成的帧的数量而增长,帧间空间依赖(inter-frame spatial dependencies)的缺乏可能会使模型做出可能轨迹之外的预期。
图 4:从 Moving MNIST 测试集随机采样的视频延续。对于每组的三行,中间一行的前 10 帧是给出的背景帧(context frames)。后面的 10 帧从上至下依次为:基准模型生成的帧、VPN 生成的帧、ground truth 帧。
论文地址:Video Pixel Network