论文地址:OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation 论文链接:https://arxiv.org/pdf/2410.11792 项目地址:https://ut-austin-rpl.github.io/OKAMI/
首先使用 CoTracker 跟踪关键点,并检测关键点的速度变化以确定关键帧,这些关键帧对应于子目标状态。 对于每个子目标,都确定一个目标物体(会因为操作而运动)和一个参考物体(通过接触或非接触关系作为目标物体运动的空间参考)。目标物体是根据每个物体的平均关键点速度确定的,而参考物体则通过 GPT-4V 预测的几何启发式或语义关系来识别。 确定子目标和相关物体后,生成一个参考规划 l_0, l_1, . . . , l_N,其中每一步 l_i 都对应于一个关键帧,并且包含目标物体 o_target、参考问题 o_reference 和 SMPL-H 轨迹段 的点云。
OKAMI 能否有效地让人形机器人基于单个人类演示视频来模仿各种操作任务? 在 OKAMI 中,将演示者的身体动作重新定位到人形机器人身上是否重要,以及为什么没有选择仅根据物体位置进行重新定位? OKAMI 能否在多样化人体统计学特征的人类演示视频中始终保持自身性能? OKAMI 生成的展示(rollout)是否可以用来训练闭环视觉运动策略?
将毛绒玩具放入篮子里(Plush-toy-in-basket) 将少许盐撒入碗中(Sprinkle-salt) 关上抽屉(Close-the-drawer) 合上笔记本电脑的盖子(Close-the-laptop) 将一袋零食放在盘子上(Place-snacks-on-plate) 将薯片袋放入购物袋中(Bagging)