Sergey Levine 等新论文,无奖励机制的端到端机器人强化学习
机器之心今日获悉,Sergey Levine 等发布新论文研究无奖励机制的端到端机器人强化学习。以下为论文概要:深度神经网络模型和强化学习算法的结合使得机器人能够直接读取原始感觉输入的机器人行为做出决策,例如通过图像等,从而能有效地将估计和控制都包含在一个模型中。然而,强化学习的实际应用必须通过手动编程的奖励函数来指定任务的目标,在本文中,我们提出了一种方法,通过使机器人从少量成功结果的示例中学习,然后机器人主动向用户显示状态并询问,从而消除对奖励规范进行手动编程的需要。利用标签以表示任务是否成功完成。我们在真实世界的机器人操作任务上评估此方法,其中观察包括由机器人的相机观察的图像。在我们的实验中,我们的方法有效地学习直接从图像中排列对象,放置书籍和悬垂布料,而无需任何手动指定的奖励功能,与现实世界仅进行 1-4 小时的交互即可。