2022/10/26 16:57

4分钟对打300多次，谷歌教会机器人打乒乓球

想打乒乓球，可以找机器人陪练了。

让一位乒乓球爱好者和机器人对打，按照机器人的发展趋势来看，谁输谁赢还真说不准。

机器人拥有灵巧的可操作性、腿部运动灵活、抓握能力出色…… 已被广泛应用于各种挑战任务。但在与人类互动紧密的任务中，机器人的表现又如何呢？就拿乒乓球来说，这需要双方高度配合，并且球的运动非常快速，这对算法提出了重大挑战。

在乒乓球比赛中，首要的就是速度和精度，这对学习算法提出了很高的要求。同时，这项运动具有高度结构化（具有固定的、可预测的环境）和多智能体协作（机器人可以与人类或其他机器人一起对打）两大特点，使其成为研究人机交互和强化学习问题的理想实验平台。

来自谷歌的机器人研究团队已经建立了这样一个平台来研究机器人在多人、动态和交互环境中学习所面临的问题。谷歌为此还专门写了一篇博客，来介绍他们一直在研究的两个项目 Iterative-Sim2Real（i-S2R）和 GoalsEye。i-S2R 让机器人能够与人类玩家进行超过 300 次的对打，而 GoalsEye 则使机器人能够从业余爱好者那里学习到一些有用的策略（目标条件策略）。

i-S2R 策略让机器人和人类对打，虽然机器人的握拍姿势看起来不太专业，但也不会漏掉一个球：

你来我往，还挺像那么回事，妥妥打出了高质量球的感觉。

而 GoalsEye 策略则能将球返回到桌面指定位置，就和指哪打哪差不多：

i-S2R：利用模拟器与人类合作进行游戏

在这个项目中，机器人旨在学会与人类合作，即尽可能长时间地与人类进行对打。由于直接针对人类玩家进行训练既乏味又耗时，因此谷歌采用了基于模拟的方法。然而，这又面临一个新的问题，基于模拟的方法很难准确地模拟人类行为、闭环交互任务等。

在 i-S2R 中，谷歌提出了一种在人机交互任务中可以学习人类行为的模型，并在机器人乒乓球平台上对其进行实例化。谷歌已经建立了一个系统，该系统可以与业余人类玩家一起实现高达 340 次击球对打（如下所示）。

人与机器人对打 4 分钟，来回多达 340 次

学习人类行为模型

让机器人准确的学习人类行为还面临以下问题：如果一开始就没有足够好的机器人策略，就无法收集关于人类如何与机器人交互的高质量数据。但是如果没有人类行为模型，从一开始就无法获得机器人策略，这个问题有点绕，就像先有鸡还是先有蛋的问题。一种方法是直接在现实世界中训练机器人策略，但这通常很慢，成本高昂，并且会带来与安全相关的挑战，当人参与其中时，这些挑战会进一步加剧。

如下图所示，i-S2R 使用一个简单的人类行为模型作为近似起点，并在模拟训练和现实世界部署之间交替进行。每次迭代中，人类行为模型和策略都会被调整。

i-S2R 方法

谷歌根据玩家类型对实验结果进行了细分：初学者（占 40% 的玩家）、中级（占 40% 的玩家）和高级（占 20% 的玩家）。由实验结果可得，对于初学者和中级玩家（占 80% 的玩家），i-S2R 的表现都明显优于 S2R+FT（sim-to-real plus fine-tuning）。

按玩家类型划分的 i-S2R 结果。

GoalsEye：可精确击中指定位置

在 GoalsEye 中，谷歌还展示了一种方法，该方法结合了行为克隆技术（behavior cloning techniques）来学习精确的目标定位策略。

这里谷歌重点关注乒乓球的精度，他们希望机器人可以将小球精确返回到球台上的任意指定位置，就如下图所展示的指哪打哪。为实现如下效果，他们还采用了 LFP（Learning from Play）、GCSL（Goal-Conditioned Supervised Learning）。

GoalsEye 策略瞄准直径为 20cm 的圆圈（左）。人类玩家可以瞄准同样的目标（右）。

在最初的 2480 次演示中，谷歌的训练策略仅在 9% 的时间内准确地击中半径为 30 厘米的圆形目标。在经过了大约 13500 次演示后，小球达到目标的准确率上升到 43%（右下图）。

关于这两个项目的更多介绍，请参考以下链接：

Iterative-Sim2Real 主页：https://sites.google.com/view/is2r
GoalsEye 主页：https://sites.google.com/view/goals-eye

原文链接：https://ai.googleblog.com/

理论机器人技术谷歌

相关数据

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

目标定位技术

目标定位任务不仅要识别出图像中是什么，还要给出目标在图像中的位置信息。简单的说，就是用一个矩形框把识别的目标框出来（有时候也有多个固定数量的目标）。一般基本思路是多任务学习，网络带有两个输出分支。一个分支用于做图像分类，即全连接+softmax判断目标类别，和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置，即完成回归任务输出四个数字标记包围盒位置(例如中心点横纵坐标和包围盒长宽)，该分支输出结果只有在分类分支判断不为“背景”时才使用。

来源：知乎