简介
近年来,短视频领域一直广受关注,且发展迅速。每天有大量UGC短视频被生产、分发和消费,为生产系统带来了巨大的压力,其中的难点之一就是为每个短视频快速、准确地打上标签。为了解决人工编辑的时效和积压问题,自动化标签技术成为各大内容领域公司都非常关注的关键课题。短视频大规模层次分类作为内容理解技术的一个重要方向,为爱奇艺的短视频智能分发业务提供着强力支持,其输出被称为“类型标签”。
以下是我们对一条爱奇艺短视频的分类效果:
算法结果:游戏-题材-角色扮演,与人工结果一致。其实“漫威”、“蜘蛛侠”这类IP的作品既可能是“影视”也可能是“游戏”,或者其他周边,如果缺乏背景知识,人工也不容易做出准确的分类,但是模型由于见到了足够多的样本,反而比单个人工有更大概率做出正确判断,在一定程度上体现了集体智慧和算法的优势。
类型标签在爱奇艺内部有着广泛的应用。
在短视频生产领域,类型标签从视频的生成、准入、审核、标注等多个方面发挥着重要作用。
标签自动化:部分标签的准确率已经达到95%以上,这部分标签已经用算法结果替代人工标注,减少了大量标注人力,提高了视频生产效率;
频道自动化:目前的频道由上传者填写,上传者会投机取巧乱填频道导致频道混乱,影响用户的使用体验,使用类型标签替换频道,提升了频道的分类准确率。
由于准确率很高,短视频生产系统乐高已经部分将自动化标签代替人工标签,并推送到各个业务线,支持着大量业务的智能运营策略。
在个性化推荐领域,已使用算法生成的类型标签全面替代人工标注的频道,成为推荐系统最重要的基础数据之一,在以下的策略中发挥了重要作用。
多样性控制:使用标签完成多样性控制,减少相似内容对用户带来的疲劳,提升播放时长等关键业务指标和多样性等生态指标;
用户画像:基于标签完善用户的长期兴趣和短期兴趣,提升用户画像的完整性、准确性和可解释性;
召回:增强无用户行为的新视频的分发能力,提升用户兴趣探索阶段的泛化性,提升用户的负向兴趣过滤的泛化性,从而提升用户体验;
排序:基于画像的用户兴趣和视频类型标签作为模型的特征,增强排序模型的排序效果。
本文将详细介绍爱奇艺短视频大规模层次分类算法。