人类为熟练掌握棋类技艺已经为此练习上千年,千年的智慧沉淀,在今天却能被经过几天的人工智能轻易打败。有时候人们认为,即使在智慧上一定程度败给了AI,但是灵活度方面人类还是更胜一筹、拥有无比的灵活性的。事实证明,人们再一次错了,OpenAI的人工智能机器手Dactyl不仅学会了单手玩魔方,而且只花了4分钟就将一个三阶魔方解开。其灵活程度着实令人大开眼界。图片来源:OpenAI官网OpenAI这家公司大家已经再熟悉不过了,这一次因为玩魔方,他们又站在了机器人和人工智能的风口浪尖。其实AI玩魔方不是什么新鲜事儿。
去年,MIT工程学和计算机科学的两名学生开发的一个机器人虽在0.38秒内解决了魔方问题。但OpenAI所取得的突破与此前的研究更具突破性!过去的一些研究团队使用量身定制的机器手快速操纵魔方,究其根本OpenAI研究的亮点则是使用AI模型指导的五指人形手通过魔方实现“自学习”以及更广泛的现实应用。OpenAI的研究人员使用强化学习(Reinforcement Learning)算法来制定控制策略,这样机器手就可以根据立方体及其手指的状态做出正确的移动。他们使用64台NVIDIA V100 GPU和920台带有32个CPU核心的机器来训练Dactyl,换言之,这就相当于13000年工作量级的AI模型训练经验累积。研究团队报告表示,基于模型和无模型的计划与操作的结合,在1,400个试验过程中Dactyl的平均成功率为90.3%,而对AI组件再培训30,000次,则成功率高达95.2%。
图片来源:OpenAI官网
该系统的训练则是在完全模拟的环境中训练的,它一开始甚至不知道什么是魔方、也不知道如何将机器手与魔方进行物理交互,更不知道最终的结果。唯一“激励”和引导该系统不断翻转魔方的便是,研究人员给予的奖励!当算法能成功旋转魔方表面或对其进行翻转时,研究人员便会给出一定程度的奖励,这样系统才通过“自学习”学会了正确移动魔方。
为了使Dactyl机械手的“感知”能力可捕捉到魔方的状态,研究人员训练了一个卷积神经网络(Convolutional Neural Networks)用于魔方状态预测,并从三个不同角度呈现摄像机所抓取的图像。于人类而言,破解魔方主要是一项智力挑战;但对于人工智能系统来说,魔方可以归结为不同颜色模块的调整,通常来说调整颜色对于机器人来说则是小儿科。那么这项研究真正的难点/障碍是什么呢?便是AI了解机械手硬件的复杂性,以及如何正确协调手指和关节力度。为了使Dactyl能够处理真实世界的复杂性,研究人员必须确保每一次“握物”模拟都尽可能覆盖更多的现实场景。图片来源:OpenAI官网
于是,研究人员便开发了一种全新的方法,称之为自动域随机化(Automatic Domain Randomization, ADR)。该方法可以无休止地在仿生环境中生成实现愈发复杂困难的环境。概括来说就是一个“你追我赶,互相激励”的模式。具体来说,ADR从单一的非随机环境开始,在该环境中,卷积神经网络学习了如何解开三阶魔方;随着神经网络在任务中性能变得更好时,ADR的数量便会自动增加;这时候神经网络也会不断学习新的环境预测魔方状态,直到再次性能超过前次,然后再进行更多随机化。这样的过程循环往复,AI模型便会不断冲破真实世界准确模型的束缚,自然而然,它会变得十分灵巧。Dactyl在随机环境中接受了不断增长的分布的训练,并使用了内存增强策略,这使得它在不熟悉的场景中也可以保持优良性能。不过,研究人员为了测试该系统的局限性,他们在Dactyl单手解魔方的时候加入了一些人为干扰因素。例如,研究人员通过绑住机械手的单个或几个手指或将其套在橡胶手套中;图片来源:OpenAI官网
图片来源:OpenAI官网又例如,不断用其他物体戳它,并用气泡和像五彩纸屑一样的纸片不断干扰它等。
图片来源:OpenAI官网在这种突发的环境情况下,机器人虽然未经历干扰训练,但它仍然顽强坚持,设法解决魔方。这也就印证了该新系统的控制策略的稳定性,同时也很好地测试了视觉网络的性能。
不过,虽然Dactyl的灵巧令人印象深刻,但它目前仍在与速度作斗争。与棋类游戏等不同的是,它无需直面对手,只需沉浸在自己的世界,调整完魔方的速度即可。Dactyl目前还不会对魔方顶级高手构成威胁。它破解一个三阶魔方平均需要4-7分钟,跟以秒计算的世界纪录比起来不算什么。openAI的研究人员也强调表示,他们的目标不是打造一个魔方冠军,而是发掘能在多大程度上提高AI机械手的灵活性,从而最终制造出更通用的机器人。Dactyl已朝着未来机器人迈出了一小步,未来它会独立承担一些体力劳动或家务活,甚至与人类协同工作,而不仅是待在封闭的环境中、人们也不用对它进行任何事先编程。出于美好的愿景,一个同时拥有灵活性、稳定性、适应性的人工智能机器人开始出现在大众视野时,未来机器人便是处理现实世界所有复杂混乱问题的最佳解决方案之一。不过美好的希望是人们对OpenAI最好的“祝福”,现实是,目前的人类生活还不太可能用上科幻电影中的酷炫机器人,无论是批量制造生产是否能带来预期的经济效益,还是距离造出功能强大的机器人所存在技术障碍与壁垒,这些都是摆在科学家面前的“大难题”。但我们相信,顽强的研究人员不会就此放弃,最好的科学成果定会在一次次产业累积中最终呈现出来。短期内期望机器人做太多,同时还要不断解决人类的“犯懒”,似乎也是不太现实的。参考资料
[1] OpenAI teaches a robotic hand to solve a Rubik’s cubeRetrieved Oct 17, 2019 from https://venturebeat.com/2019/10/15/openai-teaches-a-robotic-hand-to-solve-a-rubiks-cube/
[2] OpenAI Robot Hand: Today Rubik’s Cube, Tomorrow theReal World? Retrieved Oct 17, 2019 fromhttps://syncedreview.com/2019/10/15/openai-robot-hand-today-rubiks-cube-tomorrow-the-real-world/
[3] OpenAI’s AI-powered robot learned how to solve aRubik’s cube one-handed Retrieved Oct 17, fromhttps://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai