机器之心原创

2022/02/17 14:29

史上首次，强化学习算法控制核聚变登上Nature：DeepMind让人造太阳向前一大步

过去三年，DeepMind 和瑞士洛桑联邦理工学院 EPFL 一直在进行一个神秘的项目：用强化学习控制核聚变反应堆内过热的等离子体，如今它已宣告成功。

DeepMind研究科学家David Pfau在论文发表后感叹道：「为了分享这个时刻我已经等了很久，这是第一次在核聚变研究设备上进行深度强化学习的演示！」

可控核聚变、强人工智能、脑机接口是人类科技发展的几个重要方向，有关它们何时可以实现，科学家们的说法永远是「还需几十年」——面临的挑战太多，手头的方法却很有限。

那么用人工智能去控制核聚变，是不是一个有前途的方向？这个问题可能需要由提出 AlphaGo 的 DeepMind 来回答了。

最近，EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志。

论文地址：https://www.nature.com/articles/s41586-021-04301-9

首先，我们来思考一个问题：为什么要用人工智能控制核聚变？

托卡马克是一种用于容纳核聚变反应的环形容器，其内部呈现出一种特殊的混乱状态。氢原子在极高的温度下被挤压在一起，产生比太阳表面还热的、旋转的、翻滚的等离子体。找到控制和限制等离子体的方法将是释放核聚变潜力的关键，而后者被认为是未来几十年清洁能源的源泉。

在这一点上，科学原理似乎是说得通的，剩下的就是工程挑战。参与该研究的瑞士等离子体中心（SPC）主任 Ambrogio Fasoli 表示：「我们需要能够加热这个装置，并保持足够长的时间，以便我们从中吸取能量。」

在同样由聚变驱动的恒星中，仅依靠引力质量就足以将氢原子拉到一起并克服它们的相反电荷。在地球上，科学家们改为使用强大的磁线圈来限制核聚变反应，将其推到所需的位置。这些线圈必须仔细控制，以防止等离子体接触容器本身：这会损坏容器壁并减慢聚变反应。

但每次研究人员想要改变等离子体的配置并尝试不同的形状，以产生更多的能量或更纯净的等离子体时，都需要大量的工程和设计工作。传统的系统是由计算机控制的，基于模型和模拟，但 Fasoli 表示传统方法「复杂且不一定能起到优化的作用」。

DeepMind 控制团队负责人 Martin Riedmiller 表示：「人工智能，特别是强化学习，特别适合解决托卡马克中控制等离子体的复杂问题。」DeepMind 在论文中详细介绍了所提的可以自主控制等离子体的 AI。

技术概览

DeepMind 提出的模型架构如下图所示，该方法具有三个阶段：

第一阶段：设计者为实验指定目标，可能伴随着随时间变化的控制目标；
第二阶段：深度 RL 算法与托卡马克模拟器交互，以找到接近最优的控制策略来满足指定目标；
第三阶段：以神经网络表示的控制策略直接在托卡马克硬件上实时运行（零样本）。

图 1：控制器设计架构（controller design architecture）的各组件示意图。

在第一阶段，实验目标由一组目标指定，这些目标包含不同的期望特性。特性范围包括位置和等离子体电流的基本稳定，以及多个时变目标的复杂组合。然后，这些目标被组合成一个奖励函数，在每个时间步骤中为状态分配一个标量质量度量。该奖励函数还惩罚控制策略，让其不会达到终端状态。至关重要的是，精心设计的奖励函数将被最低限度地指定，从而为学习算法提供最大的灵活性以达到预期的结果。

在第二阶段，高性能 RL 算法通过与环境交互来收集数据并找到控制策略，如图 1a、b 所示。该研究使用的模拟器具有足够的物理保真度来描述等离子体形状和电流的演变，同时保持足够低的计算成本来学习。具体来说，该研究基于自由边界等离子体演化（free-boundary plasma-evolution ）模型，对等离子体状态在极向场线圈电压的影响下的演化进行建模。

RL 算法使用收集到的模拟器数据来找到关于指定奖励函数的最优策略。由于演化等离子体状态的计算要求，模拟器的数据速率明显低于典型 RL 环境的数据速率。该研究通过最大后验策略优化 (MPO) 来克服数据不足问题。MPO 支持跨分布式并行流的数据收集，并以高效的方式进行学习。

在第三阶段，控制策略与相关的实验控制目标绑定到一个可执行文件中，使用量身定制的编译器（10 kHz 实时控制），最大限度地减少依赖性并消除不必要的计算。这个可执行文件是由托卡马克配置变量（TCV）控制框架加载的（图 1d）。每个实验都从标准的等离子体形成程序（plasma-formation procedures）开始，其中传统控制器维持等离子体的位置和总电流。在预定时间里，称为「handover」，控制切换到控制策略，然后启动 19 个 TCV 控制线圈，将等离子体形状和电流转换为所需的目标。训练完成后将不会进一步调整网络权值，换句话说，从模拟到硬件实现了零样本迁移。

基本功能演示

该研究在 TCV 实验中展示了所提架构在控制目标上的能力。首先他们展示了对等离子体平衡基本质量的精确控制。控制策略性能如图 2 所示。所有任务都成功执行，跟踪精度低于期望的阈值。结果表明 RL 体系架构能够在放电实验的所有相关阶段进行精确的等离子体控制。

图 2：等离子体电流、垂直稳定性、位置与形状控制的演示。

控制演示

接下来，该研究展示了所提架构为科学研究生成复杂配置的能力。结果如图 3 所示：

图 3 控制演示。

全新多域等离子体演示

最后展示了架构在探索全新等离子配置方面的强大功能。DeepMind 测试了「液滴」（droplets）的控制，这是一种在容器内部同时存在两个独立等离子体的配置。通过提出的方法，DeepMind 简单地调整了模拟切换状态，以考虑来自单轴等离子体的不同切换条件，并定义一个奖励函数以保持每个液滴组件的位置稳定，同时增加域等离子体电流。

图 4：整个 200 毫米控制窗口内对 TCV 上两个独立液滴的持续控制演示。

未来展望

总而言之，随着聚变反应堆变得越来越大，与 DeepMind 展开合作或许是最关键的。尽管物理学家已经很好地掌握了如何通过传统方法控制小型托卡马克中的等离子体，但随着科学家们尝试令核电站规模的版本可行，挑战只会更多。该领域正取得缓慢但稳定的进展。

上周，位于英国牛津郡的欧洲联合环状反应堆（JET）项目取得了突破，创造了从聚变实验中提取能量的新纪录，在 5 秒时间内产生了 59 兆焦耳的能量。与此同时，位于法国的国际热核聚变实验反应堆（ITER）国际合作项目正在建设当中，预计将于 2025 年启动并成为世界上最大的实验性聚变反应堆。

圣地亚哥能源研究中心的副研究科学家 Dmitri Orlov 表示，「托卡马克装置越复杂，性能越高，就越需要通过越来越高的可靠性和准确性来控制更多数量。」AI 控制的托卡马克装置可以通过优化，以控制热量从反应中转移到容器壁上，并防止破坏性的「等离子体不稳定性」。反应堆本身可以重新设计，以利用强化学习所提供的更严格控制。

最终，Ambrogio Fasoli 认为，与 DeepMind 的合作可以让研究人员突破界限，加速通往聚变能量的漫长旅程。人工智能将赋能我们探索人类无法探索的东西，因为我们可以使用自己不敢冒险的控制系统来达到目标。「如果我们确定自己有一个控制系统，让我们接近极限但不会超出极限，则实际上可以用来探索那些不存在的可能性。」

参考链接：

https://www.wired.com/story/deepmind-ai-nuclear-fusion/

理论强化学习DeepMind可控核聚变

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度强化学习技术

强化学习（Reinforcement Learning）是主体（agent）通过与周围环境的交互来进行学习。强化学习主体（RL agent）每采取一次动作（action）就会得到一个相应的数值奖励（numerical reward），这个奖励表示此次动作的好坏。通过与环境的交互，综合考虑过去的经验（exploitation）和未知的探索（exploration），强化学习主体通过试错的方式（trial and error）学会如何采取下一步的动作，而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励（accumulated reward）。一般来说，真实世界中的强化学习问题包括巨大的状态空间（state spaces）和动作空间（action spaces），传统的强化学习方法会受限于维数灾难（curse of dimensionality）。借助于深度学习中的神经网络，强化学习主体可以直接从原始输入数据（如游戏图像）中提取和学习特征知识，然后根据提取出的特征信息再利用传统的强化学习算法（如TD Learning，SARSA，Q-Learnin）学习控制策略（如游戏策略），而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

来源：Scholarpedia

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

强人工智能技术

强人工智能或通用人工智能（Strong AI或者 Artificial General Intelligence）是具备与人类同等智慧、或超越人类的人工智能，能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一，同时也是科幻小说和未来学家所讨论的主要议题。相对的，弱人工智能（applied AI，narrow AI，weak AI）只处理特定的问题。弱人工智能不需要具有人类完整的认知能力，甚至是完全不具有人类所拥有的感官认知能力，只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能，发现这个具有领域的局限性，人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能（artificial general intelligence，AGI），或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

来源：维基百科

强化学习技术

强化学习是一种试错方法，其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）；其应用包括下棋类游戏、机器人控制和工作调度等。

来源：机器之心