2019/10/18 09:36

推陈出新！突破机器人玩魔方「老套路」，OpenAI研究更具现实意义

人类为熟练掌握棋类技艺已经为此练习上千年，千年的智慧沉淀，在今天却能被经过几天的人工智能轻易打败。有时候人们认为，即使在智慧上一定程度败给了AI，但是灵活度方面人类还是更胜一筹、拥有无比的灵活性的。事实证明，人们再一次错了，OpenAI的人工智能机器手Dactyl不仅学会了单手玩魔方，而且只花了4分钟就将一个三阶魔方解开。其灵活程度着实令人大开眼界。

图片来源：OpenAI官网OpenAI这家公司大家已经再熟悉不过了，这一次因为玩魔方，他们又站在了机器人和人工智能的风口浪尖。其实AI玩魔方不是什么新鲜事儿。

去年，MIT工程学和计算机科学的两名学生开发的一个机器人虽在0.38秒内解决了魔方问题。但OpenAI所取得的突破与此前的研究更具突破性！过去的一些研究团队使用量身定制的机器手快速操纵魔方，究其根本OpenAI研究的亮点则是使用AI模型指导的五指人形手通过魔方实现“自学习”以及更广泛的现实应用。

OpenAI的研究人员使用强化学习（Reinforcement Learning）算法来制定控制策略，这样机器手就可以根据立方体及其手指的状态做出正确的移动。他们使用64台NVIDIA V100 GPU和920台带有32个CPU核心的机器来训练Dactyl，换言之，这就相当于13000年工作量级的AI模型训练经验累积。研究团队报告表示，基于模型和无模型的计划与操作的结合，在1,400个试验过程中Dactyl的平均成功率为90.3％，而对AI组件再培训30,000次，则成功率高达95.2％。

图片来源：OpenAI官网

该系统的训练则是在完全模拟的环境中训练的，它一开始甚至不知道什么是魔方、也不知道如何将机器手与魔方进行物理交互，更不知道最终的结果。唯一“激励”和引导该系统不断翻转魔方的便是，研究人员给予的奖励！当算法能成功旋转魔方表面或对其进行翻转时，研究人员便会给出一定程度的奖励，这样系统才通过“自学习”学会了正确移动魔方。

相关推荐：能独当一面的家用机器人，什么时候才会出现？

为了使Dactyl机械手的“感知”能力可捕捉到魔方的状态，研究人员训练了一个卷积神经网络（Convolutional Neural Networks）用于魔方状态预测，并从三个不同角度呈现摄像机所抓取的图像。

于人类而言，破解魔方主要是一项智力挑战；但对于人工智能系统来说，魔方可以归结为不同颜色模块的调整，通常来说调整颜色对于机器人来说则是小儿科。那么这项研究真正的难点/障碍是什么呢？便是AI了解机械手硬件的复杂性，以及如何正确协调手指和关节力度。为了使Dactyl能够处理真实世界的复杂性，研究人员必须确保每一次“握物”模拟都尽可能覆盖更多的现实场景。

图片来源：OpenAI官网

随机化训练

于是，研究人员便开发了一种全新的方法，称之为自动域随机化（Automatic Domain Randomization, ADR）。该方法可以无休止地在仿生环境中生成实现愈发复杂困难的环境。概括来说就是一个“你追我赶，互相激励”的模式。

具体来说，ADR从单一的非随机环境开始，在该环境中，卷积神经网络学习了如何解开三阶魔方；随着神经网络在任务中性能变得更好时，ADR的数量便会自动增加；这时候神经网络也会不断学习新的环境预测魔方状态，直到再次性能超过前次，然后再进行更多随机化。这样的过程循环往复，AI模型便会不断冲破真实世界准确模型的束缚，自然而然，它会变得十分灵巧。

稳定性测试

Dactyl在随机环境中接受了不断增长的分布的训练，并使用了内存增强策略，这使得它在不熟悉的场景中也可以保持优良性能。不过，研究人员为了测试该系统的局限性，他们在Dactyl单手解魔方的时候加入了一些人为干扰因素。

例如，研究人员通过绑住机械手的单个或几个手指或将其套在橡胶手套中；

图片来源：OpenAI官网

图片来源：OpenAI官网又例如，不断用其他物体戳它，并用气泡和像五彩纸屑一样的纸片不断干扰它等。

图片来源：OpenAI官网在这种突发的环境情况下，机器人虽然未经历干扰训练，但它仍然顽强坚持，设法解决魔方。这也就印证了该新系统的控制策略的稳定性，同时也很好地测试了视觉网络的性能。

不过，虽然Dactyl的灵巧令人印象深刻，但它目前仍在与速度作斗争。与棋类游戏等不同的是，它无需直面对手，只需沉浸在自己的世界，调整完魔方的速度即可。Dactyl目前还不会对魔方顶级高手构成威胁。它破解一个三阶魔方平均需要4-7分钟，跟以秒计算的世界纪录比起来不算什么。openAI的研究人员也强调表示，他们的目标不是打造一个魔方冠军，而是发掘能在多大程度上提高AI机械手的灵活性，从而最终制造出更通用的机器人。

Dactyl已朝着未来机器人迈出了一小步，未来它会独立承担一些体力劳动或家务活，甚至与人类协同工作，而不仅是待在封闭的环境中、人们也不用对它进行任何事先编程。出于美好的愿景，一个同时拥有灵活性、稳定性、适应性的人工智能机器人开始出现在大众视野时，未来机器人便是处理现实世界所有复杂混乱问题的最佳解决方案之一。

不过美好的希望是人们对OpenAI最好的“祝福”，现实是，目前的人类生活还不太可能用上科幻电影中的酷炫机器人，无论是批量制造生产是否能带来预期的经济效益，还是距离造出功能强大的机器人所存在技术障碍与壁垒，这些都是摆在科学家面前的“大难题”。但我们相信，顽强的研究人员不会就此放弃，最好的科学成果定会在一次次产业累积中最终呈现出来。短期内期望机器人做太多，同时还要不断解决人类的“犯懒”，似乎也是不太现实的。

本文由药明康德AI整理编译

参考资料

[1] OpenAI teaches a robotic hand to solve a Rubik’s cubeRetrieved Oct 17, 2019 from https://venturebeat.com/2019/10/15/openai-teaches-a-robotic-hand-to-solve-a-rubiks-cube/

[2] OpenAI Robot Hand: Today Rubik’s Cube, Tomorrow theReal World? Retrieved Oct 17, 2019 fromhttps://syncedreview.com/2019/10/15/openai-robot-hand-today-rubiks-cube-tomorrow-the-real-world/

[3] OpenAI’s AI-powered robot learned how to solve aRubik’s cube one-handed Retrieved Oct 17, fromhttps://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai

药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康，带你看全AI时代的智慧之光。

产业机器人OpenAI

相关数据

感知技术

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心