北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。
论文地址:https://arxiv.org/pdf/2311.08046.pdf GitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniVi Huggingface 地址:https://huggingface.co/Chat-UniVi Demo 地址:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi