Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

从ALOHA迈向Humanplus,斯坦福开源人形机器人,「高配版人类」上线

人形机器人的「Hello World」。

说起前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人,大家肯定印象深刻,ALOHA 做起家务活来那是有模有样:滑蛋虾仁、蚝油生菜、干贝烧鸡,一会儿功夫速成大餐:

图片

研究团队来自斯坦福,由三个人共同打造完成。Zipeng Fu 为项目共同负责人,他是斯坦福大学 AI 实验室的计算机科学博士生,师从 Chelsea Finn 教授;Tony Z. Zhao 也是斯坦福大学的计算机科学博士生,导师也是 Chelsea Finn。

现在,继 ALOHA 之后,Zipeng Fu、Chelsea Finn 等人又联合推出了一款新的机器人研究 HumanPlus,不过这次 Tony Z. Zhao 没有出现在作者栏里,而是在致谢名单上。

图片

                                        HumanPlus 团队成员。

这款机器人能够自主的叠衣服,然而即使是 2 倍速,动作看起来也是慢吞吞:

图片

充当仓库的搬运工,准确的将物品放置在机器狗背上的篮子里:

图片

给大家表演个向后跳的节目,就像人类一样,扎个马步让自己稳妥一点:

图片

可能你都不会弹的钢琴,但这次机器人会了,它不是乱弹一通,仔细听还能听出旋律来:

化身你的乒乓球搭子,来上几个回合没有问题:

图片

像个电脑新手一样,在键盘上努力的敲出「HELLO WORLD」

图片

打起拳来也是有模有样

图片

值得一提的是,这次斯坦福团队公布了论文、机器人材料清单、数据集以及代码。正如 Tony Z. Zhao 所表示的「这是唯一一篇完全开源的论文,虽然我们处在一个前沿的研究时代,但充满了闭源、竞争等其他因素的限制,这个领域需要更多开放的科学,而不是酷炫的演示。」

图片

根据材料清单我们推测完成机器人组装大约花费 107,945 美元。

图片

研究介绍

图片

论文地址:https://humanoid-ai.github.io/

论文标题:HumanPlus: Humanoid Shadowing and Imitation from Humans

长期以来,人形机器人因其类似人的形态而备受关注。这主要得益于我们周围的环境、工具等都是依据人类形态而设计的,因此人类大小的机器人在解决人类从事的任务上潜力巨大。

通过模仿人类,人形机器人为实现通用机器人智能提供了一个充满希望的途径。

然而,在实际操作中,要让人形机器人从以自我为中心的视角学习自主技能仍然面临挑战。这主要是因为人形机器人在感知和控制方面的复杂性,以及其在形态结构和执行机制上与人类之间仍存在的物理差异。此外,还缺乏一套数据处理流程,可以让人形机器人通过以自我为中心的视角学习自主技能。

基于此,斯坦福团队开发了一个全栈系统,用于人形机器人从人类数据中学习运动和自主技能。该研究首先基于 40 小时的人体运动数据集,通过强化学习在模拟环境中训练低级策略。然后将这一策略迁移到现实世界中,从而允许人形机器人仅使用 RGB 相机实时跟踪人体和手部运动,称为 Shadowing 系统。

通过 Shadowing,人类操作员可以远程操作人形机器人来收集全身数据,以便在现实世界中学习不同的任务。基于收集到的数据,随后进行有监督的行为克隆,使用以自我为中心的视角来训练机器人的技能策略,使人形机器人能够通过模仿人类的技能自主完成不同任务。

研究者在定制的 33 自由度、高 180cm 的人形机器人上演示了该系统,通过多达 40 次演示,该系统可以自主完成诸如穿鞋站立和行走,从仓库货架上卸载物品,折叠运动衫,重新排列物品,打字以及与另一个机器人打招呼等任务,成功率为 60-100%。

该研究团队发布的机器人如图 2 左侧所示,具有 33 个自由度,其中包括两个拥有 6 自由度的手指、两个 1 自由度的手腕和一个有 19 自由度的身体(包含:两个 4 自由度的手臂、两个 5 自由度的腿和一个 1 自由度的腰部)。

图片

该系统基于 Unitree H1 机器人构建,每只手臂集成了 Inspire-Robots RH56DFX Hand,通过定制手腕连接,其中每个手腕配有一个 Dynamixel 伺服电机和两个推力轴承。手和手腕均通过串行通信控制。

机器人头部安装了两个 RGB 网络摄像头(Razer Kiyo Pro),向下倾斜 50 度,瞳距为 160 毫米。手指可以施加高达 10 牛顿的力,而手臂可以举起重达 7.5 公斤的物品。腿部的电机在操作过程中可以产生高达 360Nm 的瞬时扭矩。图 2 右侧提供了该机器人的其他技术规格信息。

人体部分和手部动作使用 SMPL-X 模型进行参数化。为了重定向身体姿态,研究人员将 SMPL-X 对应的欧拉角复制到类人模型中,即髋部、膝盖、脚踝、躯干、肩膀和肘部。机器人的每个髋部和肩部关节由 3 个正交旋转关节组成,因此可以视为一个球形关节。机器人的手指有 6 个自由度:每个食指、中指、无名指和小指各 1 个自由度,大拇指 2 个自由度。为了重定向手部姿势,他们使用中间关节的旋转来映射每个手指的对应欧拉角。并且通过使用前臂和手的全局方向之间的相对旋转,计算 1 自由度的手腕角度。

如图 3 所示,身体姿势估计和重定向在 NVIDIA RTX4090 GPU 上以每秒 25 帧的速度运行。

图片

实时手部姿势估计和重定向:该团队使用 HaMeR——一个基于 Transformer 的手部姿态估计器,通过单个 RGB 摄像头进行实时手部姿态估计。手部姿势估计和重定向在 NVIDIA RTX4090 GPU 上以每秒 10 帧的速度运行。

该研究将低级策略 Humanoid Shadowing Transformer 制定为仅解码器的 Transformer,如图 4 左侧所示。

在每个时间步中,策略的输入是人形机器人的本体感知和目标姿态。策略的输出是人形机器人身体关节的 19 维关节位置设定点,这些设定点随后通过 1000Hz 的 PD 控制器转换为扭矩。

随机化模拟环境和人形机器人的物理参数见表 2。

图片

如图 3 所示,研究者使用单个 RGB 摄像头实时估计人体和手部姿态,并将人体姿态重定向为类人目标姿态。

如图 1 所示,人类操作员站在人形机器人附近,将他们的实时全身运动投射到人形机器人上,并使用视线观察人形机器人的环境和行为,确保远程操作系统反应灵敏。

在被远程操作时,人形机器人通过双目 RGB 摄像头收集第一视角视觉数据。通过 shadowing,研究人员为各种现实场景任务提供了一条高效的数据收集管道,从而避免了模拟环境中真实 RGB 渲染、精确软体对象模拟和多样化任务规范的挑战。

图片

与其他远程操作方法相比,Shadowing 系统更具优势。

图片
产业人形机器人ALOHAHumanPlus斯坦福大学
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

推荐文章
暂无评论
暂无评论~