AI每日精选

AI每日精选 | Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改 / 谷歌研究人员用深度学习合成运动模糊效果,手抖也能拍出摄影师级照片

AI每日精选 | Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改 / 谷歌研究人员用深度学习合成运动模糊效果,手抖也能拍出摄影师级照片

研究与技术

英伟达新论文:Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation麻省大学、英伟达、以及加州大学默塞德分校联合研究的一篇 CVPR 2018 录取论文近日在 Reddit 引起热议,这篇论文提出了一个端到端卷积神经网络用于可变长度多帧视频插值。以下是论文摘要:给定两个连续帧,视频内插旨在生成中间帧以形成空间和时间相干的视频序列。虽然大多数现有方法都集中在单帧插值上,但我们提出了一种用于可变长度多帧视频插值的端到端卷积神经网络,其中运动解释和遮挡推理是联合建模的。我们首先使用 U-Net 架构计算输入图像之间的双向光流。然后在每个时间步骤线性组合这些流以近似中间双向光流。然而,这些近似流仅在局部平滑区域中很好地工作并且在运动边界周围产生伪影。为了解决这个缺点,我们采用另一个 U-Net 来改进近似流量并预测软可见性图。最后,两个输入图像被翘曲并线性融合以形成每个中间帧。通过在融合之前将可见性图应用于变形图像,我们排除了被遮挡像素对内插中间帧的贡献以避免伪像。由于我们所学习的网络参数都不是时间依赖的,因此我们的方法能够根据需要生成尽可能多的中间帧。我们使用 1,132 个 240-fps 的视频剪辑,包含 300K 个人视频帧,来训练我们的网络。在几个数据集上的实验结果,预测不同数量的插值帧,表明我们的方法始终比现有方法更好地执行。

大公司新闻

产品与应用

投融资

行业动态

暂无评论
暂无评论~