后疫情时代,随着技术的不断发展,机器已经转化为人们生活中的第三只“眼”,如工业质检,无人驾驶,智慧城市等应用愈加依赖与视频信息分析与理解,而使得视频能够更利于机器分析的同时能够进一步节省带宽成的压缩技术成为了这一系列行业应用的刚需,面向机器的视频编码VCM(video coding for machine)应运而生。
2019年运动图像专家组(Moving Picture Experts Group, MPEG)第127次会议宣布成立AHG VCM(Ad Hoc Group on Video Coding for Machines)机器视觉编码工作组,工作组研究面向机器视觉或者人机混合视觉的下一代视频编码标准,为机器视觉应用场景提供高压缩率、高任务精度的视频/特征压缩技术。Nokia, Ericsson, Intel, Sumsung, Interdigital, 腾讯, 阿里巴巴, 中国电信, oppo, vivo, 中科院等公司和组织参与该工作组。
腾讯在VCM的工作中担任了重要的角色,担任AHG联合主席,为工作组提供了包含标注的视频数据集(Tencent Video Dataset, TVD) [1][2], 并被工作组采纳成为检测、分割和跟踪任务的通用测试数据集。另外,腾讯牵头制定了通用测试条件(Common test conditions, CTC)和评测框架,为相关技术的验证提供规范化的流程。同时,腾讯也一直积极参与技术路线的推进,成功响应了工作组的多次证据征集(Call for Evidence, CfE)和提案征集(Call for Proposals, CfP),并在后续标准化进程中担任核心实验(Core experiments, CE)召集人等角色来推动技术方案的发展。
过去几年中,工作组进行了大量的基础调研,证明了在机器视觉任务场景下传统视频编码技术存在着较大的提升空间,同时针对目标检测、分割、跟踪等典型机器视觉任务建立了规范的测试数据集和通用测试条件。基于这些前期工作,工作组于2022年4月正式发布提案征集(Call for Proposal, CfP),获得了来自工业界和学术界的积极参与响应,展示了机器视觉编码的巨大应用潜力。目前,标准化仍在持续进行中。
去年,制定了H.266/VVC标准的工作组JVET(Joint Video Experts Team)也成立了新的 AHG 专题组(AHG15),该工作组将针对H.266/VVC与H.265/HEVC这一系列标准进行进一步优化,帮助其在面向机器场景下可以更大程度的提升机器识别精度和进一步节省带宽。目前最新一代编码标准H.266/VVC相较上一代编码标准H.265/HEVC,在相同质量下可以节省约50%带宽,而该工作组预期可在H.266/VVC的基础上更近一步节省50%带宽。随着这一技术的逐渐成熟,可以预见未来面向机器的编码器将有更广阔的应用前景。
[1] An Open Dataset for Video Coding for Machines Standardization | IEEE Conference Publication | IEEE Xplore
[2] A Video Dataset for Learning-based Visual Data Compression and Analysis | IEEE Conference Publication | IEEE Xplore