Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

大模型修复徐克经典武侠片,「全损画质」变4K,还原林青霞40年前绝世美貌

剑眉星目,衣带飘飘,伴着仙乐,传闻中的瑶池仙堡堡主从闭关处飞身而出:

图片

一身霓裳羽衣,宛如敦煌壁画中的飞天,或许见过林青霞这一造型的观众并不多。

这段经典的出场画面,来自于 1983 年徐克执导的《蜀山:新蜀山剑侠》,是林青霞的第一部武侠作品。在传统武侠功夫片的内核之中,导演注入了天马行空的想象。这也是港片拍摄中,第一次邀请到好莱坞《星球大战》特效小组支援特技镜头的作品,很多特效制作在当时显得十分前卫和大胆。

以《蜀山:新蜀山剑侠》为代表的老港片,承载了很多人的童年回忆,成为了一代人心目中难以超越的珍贵影像。

但记忆中的这些老港片,往往伴随着模糊、昏暗、掉帧等画质问题。即使今天再将经典之作翻出来重新观赏,部分作品的「全损画质」也会影响到我们感受其艺术和美学价值。

为此,抖音及火山引擎在 2023 年发起了「经典香港电影修复计划」,宣布将在一年内修复 100 部香港经典影片。通过最新技术的助力,让大众看清香港电影最初的、最清晰的样子。

在 8 月 16 日举办的「再续时光 —— 经典香港电影修复发布会」上,这一计划正式启动。首批上线的老港片包括《武状元苏乞儿》、《A 计划》、《蜀山:新蜀山剑侠》等 22 部作品。

图片

基于最前沿的 AI 技术加持,一系列八九十年代的老港片重新焕发了生机。比如在 4K 版本的《蜀山:新蜀山剑侠》中,女神林青霞的美貌被完全还原:

图片

修复前。

图片

修复后。

值得关注的是,这一次老港片修复首次应用了 AIGC 视觉大模型。字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦表示,基于视觉大模型优越的生成能力和丰富的先验知识,修复的效果与效率均实现了大幅度提升。

修复一部四十年前的港片,有多难?

如今,想要找到一部老港片的播放资源并不难,只不过这些视频的画质与我们常看的高清视频相比,观感体验不那么友好。

受限于拍摄设备、存储方式等的影响,一些老港片往往会更加模糊、有严重的胶片噪声且分辨率较低。带给观众的直观感受就是「高糊」、「昏暗」、「不丝滑」:

图片

造成这些问题的原因是多种多样的:在上个世纪,大部分港片拍摄后都是储存在胶片上,而储存胶片的环境需要恒温恒湿。如果保存的温度和湿度不合适,以及在使用、搬运的过程中造成的物理和化学性损伤,产生褪色、撕裂、脏点、霉变、划痕、酸变、收缩、扭曲等情况,反复的放映更是容易造成画面划痕、闪烁、丢帧等损伤。再加上拷贝版本因为翻印过多次,画质也会有衰减。

此外,受限于技术原因,很多武侠类的老港片都无法完全处理掉威亚的痕迹。以《蜀山:新蜀山剑侠》为例,这部作品存在大量的武打动作,观众很容易在观赏过程中发现「钢丝」:

图片

近年来,对此类老电影的修复工作正在越来越多地开展。一般来说,老电影修复分为传统修复、算法修复和艺术修复三大步骤。首先要清洁电影胶片表面的灰尘、污垢,然后对其进行接补,再将胶片每格内容转换为数字化信息,经过修复师一帧帧处理画面上的划痕、污渍等问题,最后进行画面调色。

一部电影可能多达十几万帧,人工修复的成本高、耗时长,难以进行大规模修复。这一套流程下来,大概要花费好几个月的时间,其中又属数字修复环节的工作最为繁琐、枯燥、耗时。

近年来,越来越多的 AI 技术被用于修复老电影,也带来了惊艳的效果。在本次「经典影像修复计划」中,火山引擎团队将传统人工修复与最新的 AI 算法修复相结合,在极大提升电影修复效率的同时,进一步优化了影片的画质。


在这一过程中,火山引擎和中国电影资料馆进行了多轮沟通和讨论,经过不断地测试和反复地调优,才达到算法服务于艺术的理想效果。

特别要提到的是,火山引擎多媒体实验室基于多种自研的画质增强能力,首次将 AIGC 视觉大模型「Stable Diffusion」应用于老片修复场景。

老电影修复,用上生成式 AI 大模型

我们知道的「Stable Diffusion」,是一个文本到图像的生成模型。那么它如何用于视频修复?效果如何?

火山引擎多媒体实验室研究员赵世杰介绍说,除了通过文字 prompt 生成图片和视频内容,相关算法同样可以应用在 prompt 为图片或者视频的场景,实现通过图片或视频来创作新的图片或视频。视频的逐帧修复流程与图像修复类似,其方法也是基于图像修复演变而来的,因此这些算法可以应用于老旧视频到高清视频的转换或是视频画质修复、增强。

相比于此前的 AI 修复方法,采用 AIGC 视觉大模型还具备两大优势:更强大的生成能力,更大规模的先验知识

「扩散模型」的火热,为生成领域带来了全新的景象。在更广阔的数据规模、更庞大的模型参数、更丰富的算力的加持下,诸如Stable Diffusion这类的AIGC大模型显示出了远超以往算法的生成能力,产生的内容纹理细节更逼真且高度灵活。大模型的优势同是来自于数据和模型两个方面。

先验知识上看,在通用大模型成为主流之前,模型常常针对特定任务建立特定数据集,再利用特定数据集去训练特定的端对端模型,这必然带来先验信息不足的问题。而模型从数据集中蒸馏出来的先验信息,却是任务模型能否获得高性能的关键。针对老港片修复这样总体场景数量有限、退化模型众多且未知的任务,很难定制数据集,因此就需要一个能在大型数据集上习得海量先验知识生成模型

而在模型层面,基于Stable Diffusion的大模型有非常强大的信息结构化能力,有能力在学习了海量数据对后,从中提炼出大量的有用知识,「存储」在模型参数之中,为下游的老片修复任务提供了丰富的先验信息。

赵世杰还提到,目前开源的 Stable Diffusion 大模型在老港片修复场景中会遇到许多问题,在实际应用过程中,团队有针对性地对模型进行了多项优化:

1、生成能力优化:基于扩散模型的现有方案,也会在部分场景上表现不稳定,体现在生成伪影或者虚假纹理或闪烁等情况。一方面,团队通过控制模型的边界条件,通过对生成过程中随机种子的优化,增加了模型在迭代过程中输出内容的稳定性,并且保证输出内容的主观效果。另一方面,团队对生成空间进行分析,对大模型复杂庞大的生成空间抽丝剥茧,强化生成质量较高的空间,同时弱化生成较差的空间内容。

2、视频场景优化:像 Stable Diffusion 这样的视觉大模型是基于图片或者单帧的视频图像进行训练和应用的,对于连续的视频序列经常会出现效果和稳定性的问题。为了解决这个问题,团队使用了多种技术手段,包括设计时域的自编码器,光流特征对齐,时域条件约数,使得大模型在修复的过程中可以使用前后帧的信息,生成的内容具有时域稳定性。

3、效率优化:已有的扩散模型因为需要迭代降噪计算结果,所以运算速度很慢,对算力的要求很高。因此,团队对采样的推理步数进行了蒸馏优化,将冗余的采样步数大幅缩减。此外,面向老片修复场景对高分辨率的要求,一个非常实用的思路就是做并行。团队设计了分块推理的结构,在保证各个块算法稳定的前提下提高算法并行度,使得大模型的推理效率整体提高 50 倍以上。

老片修复,火山引擎有哪些技术沉淀?

此外,在清晰度、流畅度、色彩、瑕疵四种老片修复的常见问题上,火山引擎团队已经积累了丰富的 AI 修复技术,有效加速了此次修复。

首先,从清晰度上,团队自研了去噪、去压缩、去模糊、超分辨率、人像增强等多种 AI 算法。针对老旧电影存在的噪声,压缩,模糊等混合画质损伤,通过智能画质问题分析,自适应决策处理算法,达到减少影片伪像、消除模糊、提升分辨率等效果。

针对人像为主的场景,优化后的人像增强模块能够在提升五官清晰度的同时保留皮肤纹理细节,不破坏影片质感。

图片

修复前(左),修复后(右)。

其次,从流畅度上,团队自研了智能插帧算法,通过对前后帧的内容进行光流估计,根据光流信息将前后帧像素都转换到中间帧,然后进行整合,生成中间帧,提升视频帧率,减少观看时的卡顿感。

图片

特别是对于《蜀山:新蜀山剑侠》的众多武打场景来说,帧间运动较大,运动范围超过光流模型感受野时,光流就会估计不准确,导致最终前后帧像素转换到中间帧也不准确,产生拖影。

为了解决这一问题,团队在计算光流时,自适应确定下采倍数,使用下采分辨率后的图片作为输入,得到下采光流后再上采回原分辨率,用于原分辨率图像的像素转换,从而让光流模型在较小的计算量下能够处理较大运动。

图片

修复前(左),修复后(右)。

对于武打中一些过于复杂的运动,插帧对复杂运动的拟合不够准确,从而导致最终插帧结果不准确,产生伪影,对用户观感会有负向体验,这种情况下要尽量避免去做插帧,因此需要有是否适合做插帧的判断方法,我们的插帧判断主要从图像差异度、帧间运动情况、模型预测的插帧置信度三方面去分析,对于图像内容差异度过大、帧间运动复杂度过大、模型预测出插坏的区域过多这三种情况避免使用插帧模型的输出,而使用相邻帧作为插出的帧。

下图是插帧置信度的预测,插帧置信度的黑色区域对应插坏的区域:

图片

然后,从色彩上,团队构建了一整套色彩相关处理算法,包括色彩增强、色偏校正、SDR2HDR 等能力,可以解决老片中的褪色、色偏等问题,让老片色彩更丰富,焕然一新。

图片

由于早期摄影设备能力弱,存储介质老化等原因,常常存在色偏,动态范围偏低等问题,导致影片失真严重,需要通过色彩校正/增强等算法对失真进行修复,使其重焕生机。对于色彩校正算法而言,其难点在于白点估计,传统的灰度世界/完美反射等算法难以准确地估计老片场景中较为复杂的色偏情况,而基于深度学习的色偏校正算法虽然上限较高,但其帧间稳定性较差,且不同帧校正效果差异较大。

为了有效解决上述问题,团队首先对影片进行场景分割,使用深度学习方案逐帧学习其色彩校正矩阵,同时通过质量检测算法剔除其中效果较差校色矩阵,然后按场景求得剩余色彩校正矩阵的均值,对同一场景,使用同一套色彩校正矩阵进行处理,从而得到稳定的校正结果。

图片

修复前。

图片

修复后。

最后,从瑕疵上,老港片中常出现的瑕疵包括线状划痕、雪花颗粒噪点、块状污渍等。团队给出的解决方案包括:

对于较小的雪花噪声,使用传统时域运动补偿去噪算法,利用相邻帧信息,对固定规律的纹理和随机的噪点进行区分,在保证去除大部分噪点的同时,减少对纹理细节的损伤。

对于线状划痕和块状污渍,使用基于深度学习的划痕检测修复模块。通过生成随机长度的直线和不规则的块状mask来模拟划痕损伤,将其添加至无划痕的视频数据获得匹配的数据对。利用该数据集训练网络,可以修复大部分线状划痕和较小的块状污渍。

对于画面损伤较大的块状污渍,使用基于生成式的image inpainting算法,通过局部纹理信息,全局结构信息和颜色纹理信息,来优化生成的画面内容与片源的相似性,同时利用时域一致性算法,防止修复后的画面在时域出现闪烁。

图片

技术与开放的价值

很多人可能会好奇,这样一套复杂的 AI 修复方案,是否有机会组合起来对外开放,让普通人也能将「全损画质」轻松转化为高清视频? 

其实,这些相关的能力开放工作,火山引擎团队很早就开始做了。在火山引擎视频云中,「智能处理」就是团队基于多年对多媒体智能处理的实践经验提炼出的全流程视频前后智能处理及增强技术产品。

图片

火山引擎智能处理官方网站:https://www.volcengine.com/product/imp

作为字节跳动旗下的企业级技术服务平台,火山引擎此前已将字节跳动快速发展过程中积累的增长方法、技术工具和能力开放给外部企业,提供云、AI、大数据技术等系列产品和服务,帮助企业在数字化升级中实现持续增长。

比如,火山引擎每天都会在多个链路、环节对海量视频进行分析,做针对性的增强和修复。而这些修复影像过程中使用到的技术,已经通过火山引擎的「智能处理」工具向所有内外部客户提供服务,便于让更多的企业参与到老片的修复中,为观众带来更多的 4K 超高画质影像作品。

理论AIGC
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

点估计技术

点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像修复技术

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

光流估计技术

光流估计用于估计图像序列中的每个像素的运动,在计算机视觉中有许多应用,例如图像分割,对象分类,视觉测距和驾驶员辅助。

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

场景分割技术

场景分割是语义分割的子任务,是将场景分割成不同对象组成部分的任务。

推荐文章
暂无评论
暂无评论~