来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。

论文地址:https://arxiv.org/pdf/2311.17842.pdf 论文主页:https://robot-vila.github.io/ 论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc


ViLa 可以将真实图片作为目标。 ViLa 可以将抽象图片(如小孩的画,草稿等)作为目标。 ViLa 可以将语言和图像的混合形式作为目标。 ViLa 可以发现图片中手指指着的位置,并将其作为实际任务中的目标位置。

在 “堆木块” 任务中,ViLa 检测出了执行基本技能时的失败,于是重新执行了一遍基本技能。 在 “放薯片” 任务中,ViLa 意识到了执行过程中人的干扰。 在 “找猫粮” 任务中,ViLa 可以不断地打开抽屉 / 柜子来寻找猫粮,直到找到。 此外,ViLa 可以完成需要人机交互的任务,等待人握住可乐罐之后才松开夹爪。