近年来,机器学习在化学领域的应用正以惊人的速度增长,在材料性能预测、新材料探索与设计等领域也取得了很大进展。但是,机器学习与实验过程的直接耦合还存在巨大的挑战。
近日,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队在 AI 研究领域取得了又一项重要研究成果:他们开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。利用 CAMEO 算法实现的 AI 系统,可以有效地减少科学家在实验室中花费的“反复”实验时间,同时最大限度地提高科研效率。
该研究成果以“ On-the-fly closed-loop materials discovery via Bayesian active learning”为题,于 11 月 24 日在线发表在科学期刊《自然-通讯》(Nature Communications)上。
如果一个研究人员想要分析一种材料在不同温度下的特性,那么他可能需要在各种不同温度下进行 N 次试验。然而,温度只是材料的一个指标之一,如果在一项实验中有 5 个指标要分析,每个指标又有 10 个值,那就意味着该研究人员必须进行 10^5 次试验。
Kusne 表示,对于试验次数如此多的实验,研究人员可能会花费几年甚至几十年的时间,所以,这样的实验,几乎不可能进行。
CAMEO 算法的“用武之地”正在于此,CAMEO 可以跳过那些会提供冗余信息的实验,确保每个实验都可以最大限度地帮助科学家获取知识和见解,提升他们的理解能力。通过节省实验时间,可以有效帮助科学家更快实现其目标,也使实验室的有限资源能够得到更有效地利用。
那么,CAMEO 算法如何实现这一点?
CAMEO 是基于机器学习的一个自学习 AI 算法,为材料研究领域的探索提供了一种全新的范式。CAMEO 通过闭环操作来寻找有用的新材料,首先从数据库中加载材料数据,然后通过贝叶斯机器学习对数据进行分析,预测未知材料的结构和功能特性,并通过主动学习来确定下一步要研究的最有价值的材料。在进行下一轮实验之前,CAMEO 还可以要求科学家根据过去所执行的实验经验,提供材料的晶体结构等信息。
论文作者之一、马里兰大学材料科学与工程教授 Ichiro Takeuchi 表示:“实验的关键在于,我们能够在一个由多种材料构成的组合库中启动(unleash)CAMEO 算法。” 在通常的组合研究中,阵列中的每一种材料都会被依次测量,以寻找具有最佳性能的化合物。即使使用快速的测量设置,也需要花费很长时间。而有了 CAMEO 算法,仅需很少量的常规测量就可以找到最佳材料。
Kusne 说:“CAMEO 算法是无监督的,许多类型的 AI 算法都需要进行训练或监督,我们不要求它学习物理规律,而是将它们编码到 AI 中。这样一来,就不需要人类再去训练 AI 模型。”
了解材料结构的最佳方法之一是 X 射线衍射法,即使用 X 射线轰击材料。通过识别 X 射线反射的角度,科学家可以确定原子在材料中的排列方式,从而使他们能够确定其晶体结构。然而,一次内部 X 射线衍射实验可能需要一个小时或更长时间。在斯坦福同步辐射光源(SSRL)进行的实验中,由于快速移动的粒子会发射大量的 X 射线,一台足球场大小的大型机器以接近光速的速度加速带电粒子,整个过程可能需要 10 秒钟。
Kusne 说:“把这个过程想象成制作一份完美的蛋糕,你正在混合各种类型的材料(比如,面粉、鸡蛋或黄油),通过使用各种配方来制作最好的蛋糕。” 而借助人工智能,则可以搜索制作 “配方” 或实验流程,来确定材料的最佳成分。如此一来,便节省了大量的实验时间。
CAMEO 通过给定的 177 种潜在的材料进行研究,这些材料涵盖了大范围的组成配方。为了获得这种材料,CAMEO 耗时 10 小时完成了 19 个不同的实验,相比之下,一个科学家大约需要 90 个小时才能完成同样多的实验。
例如,在 DVD 或蓝光光盘上,光学对比度允许扫描激光通过区分高反射率或低反射率的区域来读取光盘。研究人员发现,GST467 的光学对比度是 DVD 常用的材料 GST225 的两倍,较大的对比优势也使其表现出了明显优于传统材料的特性。
GST467 还可应用于用于控制电路中光的方向的光子开关器件,还可以应用于神经形态计算(旨在开发模拟大脑神经元结构和功能的设备,为新型计算机的出现以及从复杂图像中提取有用数据等其他应用提供可能)。
与类似的机器学习方法不同,CAMEO 算法不是对大量数据进行机器学习和预测,而是通过关注晶体材料的成分、结构和性质之间的关系,追踪材料相应功能的结构来源,引导系统发现有用的新化合物。
CAMEO 的一个好处是最大限度地降低了成本,因为在同步加速器设施中进行实验是需要花费时间和金钱的。研究人员估计,使用 CAMEO 可以将实验数量减少十分之一,相应地可以将实验时间缩短十倍。由于人工智能正在运行测量数据、收集数据,分析数据的过程,这也大大降低了研究人员进行实验所需的知识量,他们只需关注正在运行的 AI 系统。
CAMEO 的另一个好处是为科学家提供了远程工作的能力。SLAC 美国国家加速器实验室的研究员 Apurva Mehta 说:“这掀起了一波科研热潮,科学家不需要在实验室中,就可以继续工作和生产。” 这可能意味着,如果科学家们可以依靠人工智能在实验室进行实验,更加安全地远程从事传染性疾病或病毒的研究。
研究人员表示,他们将继续改进这一 AI 算法,并尝试使该算法可以解决更复杂的问题。Kusne 说:“CAMEO 拥有机器人科学家的智慧,它的构建,是为了以一种非常高效的方式,来设计、运行和学习实验。”
https://www.nature.com/articles/s41467-020-19597-w