Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与:张倩、杜伟

这个一瘸一拐的机器人是用树枝搭的,它自己学会了走路

谁说做机器人一定要用特殊材料?树枝也行。

机器人设计是一个非常繁琐的过程,需要设计者绞尽脑汁地思考并用心维护。所以,这通常要求设计者必须清楚自己想要机器人做哪些事情以及如何使机器人做到这些。

想清楚之后,设计者才开始构建机器人原型,发现设计中的所有问题,提出一些与众不同的改进方案以实现更佳的性能,并在时间/金钱耗尽之前重复这一过程。

然而,如果你对自己设计的机器人期望不高的话,其实它也没那么复杂。去年 12 月,来自东京大学和创业公司 Preferred Networks 的研究者在 NeurIPS workshop 上发表了一篇论文,他们尝试使用一些通用伺服器以及树枝来搭建移动机器人

这些树枝机器人首先借助深度强化学习在模拟环境中学会行走。研究者采取的步骤是:首先从野外捡拾一些树枝,对这些树枝称重并进行 3D 扫描,然后模拟整个机器人,最后对移动最远的智能体进行奖励。在这些步骤中也需要进行一些手动调整,以避免对真实机器人造成压力和磨损的行为。

在虚拟环境中学习行走的机器人。

总的来说,这种策略未必能用到多数应用中,但可以推测,这种机器人在某种程度上可能更加实用。这项研究使人相信,随便从地上抓起什么东西(加上一些伺服器和一两个传感器)就能够搭建一个移动机器人。由此可见,你也可以通过基于传感器的试错、反馈从头开始搭建自己的物理机器人,因为已经有机器人平台做了类似的事情。

这款「树枝机器人」由 Arduino Mega 控制,由 Kondo KRS-2572HV 伺服电机驱动,配有单独的驱动器和电源。

在设计上,这种用常见材料做出的机器人可能并不会像传统机器人那样具有非凡的性能,所以它们仅能在特定环境中发挥作用。好的一点在于不用担心输运结构材料的问题了,就像使用泛化硬件集就能创建多样性设计一样。同时,利用一些常见材料来搭建机器人意味着,你可以轻易地对自己组装的任何东西进行改装,即使你需要重新训练它移动。

目前,该机器人似乎还只能在实验室的光滑路面上行走,「放生」还为时过早。

在野外被杂草缠住、动弹不得的机器人。

论文:Improvised Robotic Design with Found Objects

论文地址:https://nips2018creativity.github.io/doc/improvised_robotic_design.pdf

在这篇论文中,研究者考虑使用常见的材料训练机器人的行动能力,也就是不同形状的树枝。这些材料通常能用于艺术或建筑,但很少有人考虑用它搭建机器人。当我们希望机器人能有效前进时,这些奇奇怪怪的树枝就有了新的含义,例如弹跳腿、牵引臂等等。

因为形状的不固定,那么靠手动编程是写不了的,唯有机器人的自主学习才有可能知道该怎么前进。因此,某个树枝会被机器人当作一条腿,某个分叉会被当作手臂,这都需要机器人自己决定。

总体而言,如下图 1 所示,这篇论文提出了一种使用常见物体设计机器人的概念。它会借助深度强化学习方法搜索最佳的运动策略,并用于不规则机器人的移动方法。这些运动策略会移植到真实「树枝机器人」上,并告诉它到底该怎样运用树枝完成运动。

图 1:打造树枝机器人只需 4 步。(1)捡起树枝;(2)扫描树枝,配置机器人;(3)使用 RL 获得有效的移动策略;(4)转移到真实机器人。

参考链接:https://spectrum.ieee.org/automaton/robotics/robotics-hardware/robots-tree-branches-deep-learning-walk

工程机器人深度强化学习深度策略梯度
4
相关数据
深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

移动机器人技术

移动机器人是一种能够移动的自动机器。移动机器人具有在其环境中移动的能力,并且不固定到一个物理位置。移动机器人可以“自动”主要是指它们能够在没有物理或机电引导装置的情况下导航非受控环境。相比之下,传统的工业机器人或多或少都是固定的(stationary)机械臂或抓取组件。

推荐文章
暂无评论
暂无评论~