概述:机器人广泛应用于工业生产的加工和装配等各个领域。传统的工业机器人需要通过复杂的标定和预编程来完成任务。近年来,自动化水平的发展对机器人在不确定环境下执行复杂任务提出了更高的要求。因而机器人机械手的灵巧性受到更多的关注。本课题旨在工业机器人的灵巧性研究。这其中包括
1. 工业机械手/灵巧手的智能实时抓取;
2. 灵巧手的手内操控;
3. 工业机器人强化学习与智能装配。
本文简述3.
3. 工业机器人强化学习与智能装配
3.1. 简介
工业机器人在装配线中有着广泛用途,如汽车零件装配,线缆组装等等。传统装配线中机器人按照预先设定的轨迹完成装配任务。这种装配模式耗费大量的人力标定和预编程成本,并且难以对环境不确定性鲁棒。
图3.1.1. (左)机器人线缆装配。(右)乐高积木机器人。由于标定的不确定性,乐高积木在插入过程中需要适应各种不确定性。
近年来深度各类学习算法例如监督学习,强化学习开始应用到装配中。监督学习通常需要通过人类示教为学习算法提供大量训练数据,因而效率低下时间成本很高。另一方面,强化学习通过探索环境获得大量数据和对应的奖励,进而摸索出最优装配策略。然而强化学习需要大量数据堆积,难以在实际机器人上获得高效率的探索。近年来有学者采用了优化控制和监督学习相结合的方式,该算法从数据中抽象模型,进而利用优化算法计算最优路径,最优路径被用来训练深度学习网络,如图3.1.2.(右)所示。这种算法极大提高的学习效率,但参数较多,稳定性较差,难以用于工业机器人装配。
图3.1.2. (左)原始的深度确定型策略梯度(Deep Deterministic Policy Gradient)算法[1]。(右)引导性策略搜索(Guided Policy Search)[2]。DDPG效率较低,而GPS在高刚度系统中稳定性较差。
3.2. 引导型DDPG
本课题提出了一种名为Guided-DDPG的“引导型策略搜索”算法,将传统的策略搜索算法效率提升数倍。该算法已应用在工业机械臂的乐高积木装配中。算法的思想如图3.2.1.所示。在初始探索阶段,轨迹优化(半导师)为DDPG提供初始引导,避免DDPG探索过大区域造成数据浪费。随着学习的进行,DDPG逐步建立起评价机制取代轨迹优化。该成果已提交至国际机器人与控制会议(ICRA2019)。
图3.2.1. 引导型DDPG(Guided-DDPG)算法。引导型DDPG使用了轨迹优化作为半导师,引导DDPG探索合适的区域,避免数据浪费。轨迹规划本身难以稳定的完成任务,但是可以起到引导DDPG的作用。逐步建立起的Q-网络将逐步超越半导师,并完成任务。
3.3. 结果比较
该算法的有效性通过仿真和实验验证。在仿真阶段,我们使用了乐高积木装配和U型关节装配,如图3.3.1.所示。
图3.3.1. 该算法的仿真验证。(上)U型关节装配,(下)乐高积木装配。
该算法与其他训练效率的比较如图3.3.2.所示。本文提出的算法可以在1500次尝试以内稳定地学习到装配技能,而传统的DDPG需要7000次以上。与原始DDPG相比,该算法在时间效率上提高55.1%,在数据效率上提高了78.6%,如下表所示。
图3.3.2. 不同算法的学习曲线。(左)乐高积木装配,(右)U型关节装配。本文提出的算法可以在1500次尝试以内稳定地学习到装配技能,而传统的DDPG需要7000次以上。
该算法学习到的装配策略可以泛化到其他相似的任务上,视频如下。
最后,我们通过初步的实验验证了该算法的有效性。我们采用UR5机器人和Robotiq力矩传感器感知反馈信息,在机器人上训练引导型DDPG 1.5小时,如图3.3.3所示。
图3.3.3. 该算法的实验验证。(左)实验装置,(右)算法测试截图。引导型DDPG可以在1.5小时内学习到鲁棒的装配策略,而原始的DDPG不能找到可用的装配策略。
[1]: Lillicrap, Timothy P., et al. "Continuous control with deep reinforcement learning." arXiv preprint arXiv:1509.02971(2015).
[2]: Levine, Sergey, et al. "End-to-end training of deep visuomotor policies." The Journal of Machine Learning Research 17.1 (2016): 1334-1373.
作者简介:
范永祥,2010年至2014年就读于中国科学技术大学机械设置制造及其自动化。2014年进入加州大学伯克利分校攻读机械工程系自动化专业博士,主攻工业机器人的智能与灵巧性研究,其研究领域涵盖抓取(grasping),灵巧操控(dexterous manipulation)以及装配(assembly)。在国际会议上发表多篇论文,其中grasp planning for customized grippers by iterative surface fitting获得2018年国际自动化科学与工程会议(CASE2018)最佳应用论文,robust dexterous manipulation under object dynamics uncertainties获得2017年国际先进智能电子会议(AIM2017)最佳论文提名。
(本系列完)