为了这个视频模型,英伟达每天正在疯狂地爬取相当于 80 年时长的视频数据。
更新:我一直在与 GeForce Now(GFN)的人员开会,和他们制定计划。我们将与 GFN 及相关工程团队紧密合作,开发捕获实时游戏数据的方法,扩大 pipeline 的规模,并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备,因此还没有进行统计,但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。
Ego-Exo4D:一个多样化、大规模、多模式、多视角的视频数据集和基准,由 740 名相机佩戴者在全球 13 个城市收集,拍摄了 1286.3 小时的人类熟练活动视频。 Ego4D:这是一个大规模、以自我为中心的数据集和基准套件,在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。 HOI4D:大规模 4D 以自我为中心的数据集,具有丰富的注释,可促进类别级别的人 - 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建,采用 CC BY-NC 4.0 许可,禁止商业使用。 GeForce Now:游戏数据。