Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛

黄仁勋表示:「AI 的下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。」如今,Project GR00T 又迈出了重要的一步。

昨日,英伟达创始人黄仁勋在 SIGGRAPH 2024 Keynote 演讲中讲到了其人形机器人通用基础模型「Project GR00T」。该模型在功能上迎来了一系列更新。

德克萨斯大学奥斯汀分校助理教授、英伟达高级研究科学家朱玉可发推,在视频中演示了英伟达如何将通用家务机器人大规模仿真训练框架 RoboCasa 和 MimicGen 系统整合到英伟达 Omniverse 平台和 Isaac 机器人开发平台

图片

                              图源:https://x.com/yukez/status/1818092679936299373

视频中涵盖了英伟达自己的三个计算平台,包括 AI、Omniverse 和 Jetson Thor,利用它们简化和加速开发者工作流程。通过这些计算平台的共同赋能,我们有望进入由物理 AI 驱动的人形机器人时代。

图片

其中最大的亮点,开发人员能够使用苹果 Vision Pro 来远程操控人形机器人来执行任务。图片图片图片
与此同时,另一位英伟达高级研究科学家 Jim Fan 表示,Project GR00T 的更新令人振奋。英伟达利用系统化的方法来扩展机器人数据,解决了机器人领域最棘手的难题。

思路也很简单:人类在真实机器人身上收集演示数据,而英伟达在仿真中将这些数据扩展千倍及以上。通过 GPU 加速仿真,人们现在可以用算力来换取耗时耗力耗资金的人类收集数据了。

他谈到自己不久前还认为远程操控在根本上不可扩展,这是因为在原子世界中,我们总是受到 24 小时 / 机器人 / 天数的限制。英伟达在 GR00T 上采用的新的合成数据 pipeline 在比特世界打破了这一局限。

图片

                                                        图源:https://x.com/DrJimFan/status/1818302152982343983

对于英伟达在人形机器人领域的最新进展,有网友表示,苹果 Vision Pro 找到了最酷的用例。

图片

英伟达开始引领下一波浪潮:物理 AI

英伟达也在一篇博客中详述了加速人形机器人的技术流程,完整内容如下:

为了加速全球范围内人形机器人的发展,英伟达宣布为全球领先的机器人制造商、AI 模型开发商和软件制造商提供一套服务、模型和计算平台,以开发、训练和构建下一代人形机器人。

图片

这套产品包括用于机器人仿真和学习的全新 NVIDIA NIM 微服务和框架、用于运行多阶段机器人工作负载的 NVIDIA OSMO 编排服务,以及支持 AI 和仿真的远程操作工作流,该工作流允许开发者使用少量人类演示数据来训练机器人。

黄仁勋表示:「AI 的下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。我们正在推进整个 NVIDIA 机器人堆栈的发展,面向全球人形机器人开发者和公司开放访问,让他们能够使用最符合其需求的平台、加速库和 AI 模型。」

图片

借助 NVIDIA NIM 和 OSMO 加速开发

NIM 微服务提供了由英伟达推理软件提供支持的预构建容器,使开发人员能够将部署时间从几周缩短到几分钟。

两个新的 AI 微服务将允许机器人专家在 NVIDIA Isaac Sim 中增强生成物理人工智能仿真工作流程。

MimicGen NIM 微服务根据来自空间计算设备(如 Apple Vision Pro)记录的远程数据生成合成运动数据。Robocasa NIM 微服务可在 OpenUSD 中生成机器人任务和仿真环境。

云原生托管服务 NVIDIA OSMO 现已推出,允许用户在分布式计算资源(无论是在本地还是在云中)中协调和扩展复杂的机器人开发工作流程。OSMO 的出现大大简化了机器人训练和仿真工作流程,将部署和开发周期从数月缩短至不到一周。

为人形机器人开发者提供先进的数据捕获工作流

训练人形机器人背后的基础模型需要大量的数据。获取人类演示数据的一种方法是使用远程操作,但这种方式正变得越来越昂贵和漫长。

通过在 SIGGRAPH 计算机图形大会上展示的 NVIDIA AI 和 Omniverse 远程操作参考工作流,研究者和 AI 开发者能够从极少量远程捕捉的人类演示中生成大量合成运动和感知数据。

图片

首先,开发人员使用 Apple Vision Pro 捕捉少量远程演示。然后,他们在 NVIDIA Isaac Sim 中仿真录音,并使用 MimicGen NIM 微服务从录音中生成合成数据集。

开发人员使用真实数据和合成数据来训练 Project GR00T 人形机器人基础模型,从而节省了大量的时间并降低了成本。然后,他们使用 Isaac Lab 中的 Robocasa NIM 微服务(一种机器人学习框架)来生成经验以重新训练机器人模型。在整个工作流中,NVIDIA OSMO 将计算任务无缝地分配给不同的资源,为开发者减少了数周的管理工作量。

扩大对 NVIDIA 人形机器人开发者技术的访问权限

NVIDIA 提供了三个计算平台来简化人形机器人的开发:用于训练模型的 NVIDIA AI 超级计算机;基于 Omniverse 构建的 NVIDIA Isaac Sim,机器人可以在仿真世界中学习和完善技能;以及用于运行模型的 NVIDIA Jetson Thor 人形机器人计算机。开发人员可以根据自己的特定需求访问和使用全部或部分平台。

通过新的 NVIDIA 人形机器人开发者计划,开发者可以提前使用新产品以及 NVIDIA Isaac Sim、NVIDIA Isaac Lab、Jetson Thor 和 Project GR00T 通用人形机器人基础模型的最新版本。

1x、波士顿动力、字节跳动、Field AI、Figure、Fourier、Galbot、LimX Dynamics、Mentee、Neura Robotics、RobotEra 和 Skild AI 是首批加入早期访问计划的公司。

开发人员现在可以加入 NVIDIA 人形机器人开发人员计划,以访问 NVIDIA OSMO 和 Isaac Lab,并且很快将获得 NVIDIA NIM 微服务的访问权限。

博客链接:
https://nvidianews.nvidia.com/news/nvidia-accelerates-worldwide-humanoid-robotics-development
产业Project GR00T人形机器人SIGGRAPH 2024
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
推荐文章
暂无评论
暂无评论~