微软提出使用人手运动视频直接教机器人完成任务的新方法,这种方法使用 GPT-4V 分解视频中的动作,结合大语言模型生成对应的行为表述并作为任务列表,训练机器人只需要动动手就能完成。
论文地址:https://arxiv.org/pdf/2311.12015.pdf 代码即将公开:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
在第一帧中没有任何东西被抓住,但在最后一帧中却有东西被抓住的片段表示发生了抓取。 在第一帧中有东西被握住,而在最后一帧中没有东西被握住的片段表示发生了释放。 其他片段则被归类为包含其他类型动作的片段。
抓取任务的能力:1)接近物体的方向信息,以避免与环境发生碰撞。2)抓取类型还包含人类如何有效的执行操作。 手部移动的能力:1)手移动过程中的航点信息,以避免环境碰撞。 释放任务的能力:1)释放物体后手的撤离方向信息,以避免环境碰撞。 拾取任务的能力:1)矢量化的离开方向信息,以尽量减少物体与平面之间不必要的力。 放置任务的能力:1)朝物体靠近方向的信息,以避免环境碰撞。 旋转任务的能力:1)旋转轴的方向。2) 旋转中心的位置。3)旋转角度。 滑动任务的能力:1)滑动运动的位移。 表面移动任务的能力:1)与表面垂直的轴。