模拟精度提高65%，训练时间减少3倍及以上，DeepMind用强化学习控制核聚变取得进展

编辑 | 紫罗

去年，DeepMind 和瑞士洛桑联邦理工学院（EPFL）合作，用强化学习（RL）控制核聚变反应堆内过热的等离子体，大获成功。DeepMind 让「人造太阳」向前一大步。

RL 在等离子体磁控制领域中显示出了良好的效果。然而，与传统的磁约束反馈控制方法相比，仍然存在显著的缺点。

近日，DeepMind 和 EPFL 的研究团队，解决了 RL 方法的主要缺点；对所需的等离子体特性实现更高的控制精度，减少稳态误差，减少学习新任务所需的时间。

研究人员在此前研究的基础上，对代理架构和训练过程的算法进行了改进。

将模拟中的等离子体形状精度提高了 65%，大幅减少了等离子体电流的长期偏差，并且还将学习新任务所需的训练时间减少了 3 倍及以上。

在 TCV 托卡马克上使用升级后的基于 RL 的控制器进行了新的实验，验证了所实现的模拟结果，并为使用 RL 方法常规实现精确放电指明了道路。

推特网友直呼：「这无疑是离地球上的核聚变和为每个人提供丰富能源更近了一步。」

还有网友表示：「当 AI 遇到物理时，奇迹就会发生！我认为这才是真正能带来改变的 AI 应用类型。」

该研究以「Towards practical reinforcement learning for tokamak magnetic control」为题，发布在 arXiv 预印平台上。

论文链接：https://arxiv.org/abs/2307.11546

研究背景

反馈控制对于托卡马克装置的运行至关重要。

传统上，对等离子体的精确控制是通过等离子体电流、形状和位置的连续闭环来实现的。

在这种范例中，控制设计者预先计算一组前馈线圈电流，然后为每个受控量构建反馈回路。这些量（例如等离子体形状和位置）无法直接测量，必须通过磁测量间接实时估计。特别是，必须使用平衡重建代码实时估计等离子体的形状。此类系统已成功稳定了大范围的放电，但设计可能具有挑战性且耗时，特别是对于新的等离子体场景。

RL 已成为构建实时控制系统的替代范例。强化学习越来越多地用于等离子体控制。然而，RL 方法有许多缺点，限制了它们作为托卡马克等离子体控制的实用解决方案的应用。

解决 RL 的三个挑战

在该研究中，研究人员将解决并开始缓解其中三个挑战：难以指定一个既可学习又能激发精确控制器性能的标量奖励函数；跟踪误差中的稳态偏差；训练时间长。

首先，在奖励塑造（reward shaping）中，研究人员提出了一种奖励塑造方法，作为提高控制精度的直观而简单的解决方案。

图示：四种不同训练配置的性能结果。（来源：论文）

然后，通过向代理提供明确的错误信号和集成错误信号来解决积分器反馈中的稳态误差问题。这缩小了经典控制器和强化学习控制器之间的精度差距。

下图为使用和不使用积分器反馈训练的策略的模拟等离子体电流误差轨迹，每种情况进行了 3 次随机运行。可以看出，积分器反馈大大降低了等离子体电流偏置，正如预期的那样。

图示：shape_70166 任务在 1 s 控制窗口内模拟等离子体电流和形状的误差。（来源：论文）

最后，在 Episode Chunking 和迁移学习中，解决了生成控制策略所需的训练时间问题。

图示：应用于 Showcase_xpoint 任务的 Episode Chunking 结果。（来源：论文）

研究显示，将 chunking 技术应用于具有两个/三个 chunk 的 Showcase_xpoint 任务可显著加快训练时间。

众所周知，RL 算法具有高计算成本和低样本效率，这一问题在托卡马克中加剧，即使是低保真等离子体模拟器的计算成本也比传统强化学习应用中使用的模拟器要高得多。研究人员通过对复杂的放电使用多启动方法来解决这个问题，并显示新策略的训练时间大幅减少。

此外，研究表明，当感兴趣的新场景接近之前的场景时，使用现有控制策略进行热启动训练可以是一种非常有效的工具。

结合起来，这些技术可以显著减少训练时间并提高准确性，从而在使强化学习成为等离子体控制的常规可用技术方面取得重大进展。

TCV 托卡马克放电实验

接下来，研究人员在 TCV 托卡马克专用放电上测试了上述几个模拟增强功能。

首先使用奖励塑造方法来测试经过训练以减少 shape_70166 稳定任务中 LCFS 误差的控制策略。

图示：shape_70166 稳定任务的 LCFS 形状误差策略比较。（来源：论文）

总体而言，模拟性能的改进是有益的，更新后的基础设施的准确性高于之前的基准。然而，优化模拟性能是有限的。事实上，对于这种情况，进一步减少仿真 RMS 误差似乎没有什么好处，相反，现在应该专注于解决仿真与真实的差距。

接下来，比较奖励塑造对更复杂的「snowflake」配置的影响。

下图显示了成功控制等离子体的窗口期间 X 点跟踪的精度。可以看到，仿真中 X 点精度的显著改进确实导致硬件上 X 点精度的改进。与之前的 TCV 实验相比，奖励塑造的改进导致控制窗口上的 RMSE 跟踪距离减少了 59.7%。其他指标（例如 LCFS）报告准确度略有下降，这是预期的，如奖励塑造中所述。在这里，确实看到了奖励塑造的显著好处，尽管仍然需要努力弥合模拟与真实的差距，以保持高精度的完美 snowflake。