Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

英伟达神秘视频基础模型「Cosmos」曝光,数据全靠偷

为了这个视频模型,英伟达每天正在疯狂地爬取相当于 80 年时长的视频数据。

今天,一则关于英伟达要下场做视频模型的消息引爆了 Reddit。

消息源出自外媒 404 Media,据它获得的 Slack 聊天(英伟达的内部聊天平台)、电子邮件和文件显示,英伟达正在从 Youtube 和其他几个来源抓取视频,收集用于其 AI 产品的训练数据。

图片

404 Media 查看的英伟达内部对话显示,当参与该项目的员工提出有关使用「禁止商用的研究数据集」和「YouTube 视频」可能产生法律问题时,管理人员告诉他们,他们已获得公司最高层的批准,可以使用这些内容。

一位匿名的前英伟达员工对此表示,员工被要求从 Netflix、YouTube 和其他来源抓取视频,以训练的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。

该项目内部命名为 Cosmos(但与公司现有的 Cosmos 深度学习产品不同),尚未向公众发布。该项目领导层发给员工的电子邮件显示,Cosmos 的目标是构建一个最先进的视频基础模型,「将光传输、物理和智能模拟封装在一个地方,以解锁对英伟达至关重要的各种下游应用。」

为了收集训练视频,英伟达员工使用名为「 yt-dlp」的开源 YouTube 视频下载器。他们试图从 Netflix 等各种来源下载完整视频,但主要集中在 YouTube 视频。404 Media 查看的电子邮件显示,项目经理选择了使用 Amazon Web Services 中的 20 到 30 台虚拟机,每天下载相当于 80 年的视频。

英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件中表示:「我们正在完成 v1 数据 pipeline 并确保必要的计算资源,以构建一个视频数据工厂,该工厂每天可以产生相当于人类一生视觉体验的训练数据。」

当被问及英伟达使用 YouTube 视频作为其模型的训练数据时,谷歌发言人告诉 404 Media 称,该公司「此前的立场仍然有效」。此前 YouTube 首席执行官 Neal Mohan 表示,如果 OpenAI 使用 YouTube 视频来改进其 AI 视频生成器 Sora,那将「明显违反」YouTube 使用条款。

同样地,Netflix 发言人告诉 404 Media,公司与英伟达并未就内容采集达成协议,而且该平台的服务条款不允许抓取内容。

不过,英伟达方面似乎并不在意。参与该项目的员工提出的法律问题经常被项目经理驳回并表示,未经许可抓取视频的决定是「行政决定」,他们不需要担心,而什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被认为是「悬而未决的法律问题」,他们将来会解决。

英伟达视频模型项目始末

和其他科技巨头类似,英伟达聘用学术研究人才发表学术成果,但从 404 Media 获取的内部邮件可以看出,Cosmos 显然将用于商业用途。

今年三月,一位英伟达的研究员在 Slack 上发帖,提议用《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora,可能效果会更好。

随后,他的提议得到了公司内的认可,但他也补充道,好莱坞对 AI 可能侵占版权的事格外敏感。2023 年七月,拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工,矛头直指 ChatGPT 和 Stable Diffusion 等生成式 AI 产品,在此之前,美国编剧工会已经罢工 70 多天。Stable Diffusion 存在这样的情况,即使不输入对应的提示词,输入「动漫画风的水管工」这样的模糊描述,Stable Diffusion 会直接生成马里奥的经典形象。

在这个帖子下,一位名叫「Liu」的员工(即英伟达研究副总裁Ming-Yu Liu(刘洺堉)回复道:「如果不公开发表论文,就不会引来以上负面问题。我们应该先用能下载的视频进行实验。」
图片
之后,有另外一位英伟达研究员又在内网发了一个帖子,他找到了一份训练视频模型应该优先下载的文件列表,但是英伟达所使用 HD-VILA-100M 数据集中却缺少约 230 万个原始视频。这个不断扩张的列表中还包含一些知名 YouTuber 的原创视频,比如在北美和知名度类似「大家好我是何同学」的数码评测博主 Marques Brownlee(MKBHD)。

出于对版权的保护,一般的视频数据集往往收录 URL 链接或者 YouTube ID,一旦作者删除了原视频,这些内容将不会继续被包含在数据集中,除非视频作者明确同意其内容被保留和使用。

虽然微软在其 HD-VILA-100M 数据集的使用声明中明确禁止用于一切商业用途,但是发帖的英伟达员工似乎并不在意,他很快贴出了这份列表对应的 YouTube 链接,并和同事们讨论出了用 AWS 虚拟机换 IP,规避 YouTube 反爬虫机制的解决方案。

除此之外,英伟达的员工还将手伸向了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补全微软的数据集不同,他们和 YouTube 以及 YouTube 现在的母公司的谷歌达成了一笔「交易」,英伟达以每支视频 0.00625 美元(约等于人民币 4 分钱)的价格买下了 800 万支视频,并将通过谷歌云下载。不考虑出卖版权的问题,谷歌可能以为赚回了这些视频的广告费,但英伟达本来在云带宽方面就存在一些限制,在谷歌云上下载,反而通过能获得更加稳定和可预测的连接。因此,无论从哪个角度来看,这笔「交易」似乎都对英伟达有利。

更令人诧异的是,当有英伟达员工在内网提问:「我们这样下载 YouTube 视频合理吗?」

「这是一个高层决策。我们已经获得了使用所有数据的全面批准。」他得到了这样的回复。

这个决策所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含很多高质量的人脸数据,在得到批准后,有人在公司内网 @了有在其他大公司「构建大型数据集」的经验的同事帮忙。

同时,Cosmos 团队还考虑了如何有效将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遇到了「监管」的障碍。

Jim Fan 发了个帖子说:

更新:我一直在与 GeForce Now(GFN)的人员开会,和他们制定计划。我们将与 GFN 及相关工程团队紧密合作,开发捕获实时游戏数据的方法,扩大 pipeline 的规模,并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备,因此还没有进行统计,但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。

今年三月份,Cosmo 项目的视频数据收集达到了一个里程碑:Nvidia 在两周内完成了 10 万次视频下载。

「进展惊人。现在的问题是我们如何才能获得大量高质量的 URL。」Liu 在这个帖子中回复道。

5 月下旬,项目组成员收到了一封关于视频数据策略的邮件,宣布他们已经编译了 3850 万个视频 URL。邮件中说:「根据计划,下周的收集视频的重点仍然是电影、无人机镜头、第一人称视角的镜头、自然风光。」邮件中还包含一张图表,显示了他们下载的内容类型的百分比。

这封邮件透露了一些关键技术信息,包括模型训练数据中的四个数据集:

  • Ego-Exo4D:一个多样化、大规模、多模式、多视角的视频数据集和基准,由 740 名相机佩戴者在全球 13 个城市收集,拍摄了 1286.3 小时的人类熟练活动视频。
  • Ego4D:这是一个大规模、以自我为中心的数据集和基准套件,在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。
  • HOI4D:大规模 4D 以自我为中心的数据集,具有丰富的注释,可促进类别级别的人 - 物互动研究。HOI4D 由清华大学北京大学和上海期智研究院的研究人员创建,采用 CC BY-NC 4.0 许可,禁止商业使用。
  • GeForce Now:游戏数据。

在另一封邮件中,Cosmos 项目的成员表示:「研究团队现在正在用多种配置训练一个 10 亿参数的模型,每种配置有 16 个节点。在进一步扩展之前,这是一个重要的调试步骤。我们计划在几周内得出结论,然后扩展到 100 亿参数模型。」

「这个更新很棒!」英伟达 CEO 黄仁勋回了这封邮件,他表示:「许多公司都将构建视频基础模型作为目标,我们完全可以做一个加速的 pipeline。」

6 月,项目组成员讨论了在保持人工智能行业竞争力的背景下,模型中哪些类型的内容对英伟达的产品最有用。

「NVIDIA 拥有大多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大限度地推动公司发展,我们整理的数据必须能够很好地适用于这些『杀手级』应用程序」,Cosmos 项目的成员说道。

毫无疑问的是,Cosmos 团队正在开发的模型旨在用于其多种产品的商业用途。

在要求这些公司完全公开训练数据的法案落地之前,他们将继续利用法律灰色地带来抓取受版权保护的数据。如果没有内部邮件或者内网对话泄密,任何人都不知道背地里到底发生了什么,而这样的模型可以让像 Nvidia、Runway 或 OpenAI 等科技巨头赚到数十亿美元。

参考链接:
https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
产业Cosmo英伟达(NVIDIA)
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~