Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

又一次!AI「击败了」人类,自学习AI算法发现高性能材料,未来远程科研或成现实

每当看到 AI 这个词,你脑海中是否会浮现出超级智能计算机?或者想到不需要人类辅助即可执行任务的机器人?或许,这些梦想并不遥远。

近年来,机器学习在化学领域的应用正以惊人的速度增长,在材料性能预测、新材料探索与设计等领域也取得了很大进展。但是,机器学习与实验过程的直接耦合还存在巨大的挑战。

近日,一个包括美国国家标准与技术研究所(NIST)在内的多机构研究团队在 AI 研究领域取得了又一项重要研究成果:他们开发出了一种名为 CAMEO 的 AI 算法,该算法在不需要科学家额外训练的情况下,自主发现了一种潜在的实用新材料。利用 CAMEO 算法实现的 AI 系统,可以有效地减少科学家在实验室中花费的“反复”实验时间,同时最大限度地提高科研效率。

该研究成果以“ On-the-fly closed-loop materials discovery via Bayesian active learning”为题,于 11 月 24 日在线发表在科学期刊《自然-通讯》(Nature Communications)上。
(来源:Nature Communications
对此,论文作者之一、NIST 研究员 Aaron Gilad Kusne 表示,在材料科学领域,科学家们一直以来都在不断寻求可用于特定应用场合的新材料,比如 “一种可用于制造汽车的轻巧坚固金属,或者可承受喷气发动机的高应力和高温环境的材料”。

帮助解决科研痛点

新材料的发现是推动现代科学发展与技术革新的源动力之一,而传统的材料研发需要进行大量的试验,效率低且成本高——要想寻找这样的新材料,不仅需要研究人员进行大量的实验,还需要耗费大量的时间去做理论调查。

如果一个研究人员想要分析一种材料在不同温度下的特性,那么他可能需要在各种不同温度下进行 N 次试验。然而,温度只是材料的一个指标之一,如果在一项实验中有 5 个指标要分析,每个指标又有 10 个值,那就意味着该研究人员必须进行 10^5 次试验。

Kusne 表示,对于试验次数如此多的实验,研究人员可能会花费几年甚至几十年的时间,所以,这样的实验,几乎不可能进行。

CAMEO 算法的“用武之地”正在于此,CAMEO 可以跳过那些会提供冗余信息的实验,确保每个实验都可以最大限度地帮助科学家获取知识和见解,提升他们的理解能力。通过节省实验时间,可以有效帮助科学家更快实现其目标,也使实验室的有限资源能够得到更有效地利用。

那么,CAMEO 算法如何实现这一点?

CAMEO 是基于机器学习的一个自学习 AI 算法,为材料研究领域的探索提供了一种全新的范式。CAMEO 通过闭环操作来寻找有用的新材料,首先从数据库中加载材料数据,然后通过贝叶斯机器学习对数据进行分析,预测未知材料的结构和功能特性,并通过主动学习来确定下一步要研究的最有价值的材料。在进行下一轮实验之前,CAMEO 还可以要求科学家根据过去所执行的实验经验,提供材料的晶体结构等信息。

论文作者之一、马里兰大学材料科学与工程教授 Ichiro Takeuchi 表示:“实验的关键在于,我们能够在一个由多种材料构成的组合库中启动(unleash)CAMEO 算法。” 在通常的组合研究中,阵列中的每一种材料都会被依次测量,以寻找具有最佳性能的化合物。即使使用快速的测量设置,也需要花费很长时间。而有了 CAMEO 算法,仅需很少量的常规测量就可以找到最佳材料。
图 | CAMEO 在一个闭环操作中寻找新材料的过程(来源:NIST)

该 AI 算法还被设计成包含关键原理的知识,包括过去的模拟和实验室实验的知识、设备的工作原理以及物理概念。例如,研究人员使 CAMEO 掌握了相位图知识,相位图描述了材料中原子的排列如何随化学成分和温度的变化而变化。而理解原子在材料中的排列方式对于确定材料的特性至关重要,根据排列方式可以确定材料的硬度、电绝缘性,以及材料的应用场合。

Kusne 说:“CAMEO 算法是无监督的,许多类型的 AI 算法都需要进行训练或监督,我们不要求它学习物理规律,而是将它们编码到 AI 中。这样一来,就不需要人类再去训练 AI 模型。”

了解材料结构的最佳方法之一是 X 射线衍射法,即使用 X 射线轰击材料。通过识别 X 射线反射的角度,科学家可以确定原子在材料中的排列方式,从而使他们能够确定其晶体结构。然而,一次内部 X 射线衍射实验可能需要一个小时或更长时间。在斯坦福同步辐射光源(SSRL)进行的实验中,由于快速移动的粒子会发射大量的 X 射线,一台足球场大小的大型机器以接近光速的速度加速带电粒子,整个过程可能需要 10 秒钟。
(来源:Nature Communications
CAMEO 算法安装在一台计算机上,通过数据网络与 X 射线衍射设备相连接,通过确定 X 射线反射的角度,科学家们可以确定原子在材料中的排列方式,从而弄清楚材料的晶体结构。在每次进行新的迭代时,CAMEO 都会从过去的测量中学习并确定下一个要研究的材料。这使得 AI 可以探索材料的成分如何影响其结构,并确定完成任务的最佳材料。

Kusne 说:“把这个过程想象成制作一份完美的蛋糕,你正在混合各种类型的材料(比如,面粉、鸡蛋或黄油),通过使用各种配方来制作最好的蛋糕。” 而借助人工智能,则可以搜索制作 “配方” 或实验流程,来确定材料的最佳成分。如此一来,便节省了大量的实验时间。

自主发现,性能更优

CAMEO 就是使用这种方法发现了 GST467 材料。

CAMEO 通过给定的 177 种潜在的材料进行研究,这些材料涵盖了大范围的组成配方。为了获得这种材料,CAMEO 耗时 10 小时完成了 19 个不同的实验,相比之下,一个科学家大约需要 90 个小时才能完成同样多的实验。

图 | GST467 的发现过程(图片来源:nature communications)

CAMEO 发现的新材料 GST467 由三种不同的元素(锗、锑、碲,Te-Ge-Sb)组成,是一种相变存储材料,即当它受热迅速熔化时,其原子结构会从晶态(原子在指定的、有规律的位置上的固体材料)变为非晶态(原子在随机位置上的固体材料)。这种相变存储材料被用于数据存储等电子存储应用程序。
Image caption虽然 Ge-Sb-Te 合金系统中可能存在无限种成分变化,但 GST467 是适合相变应用的最佳材料。研究人员希望 CAMEO 算法能找到最佳组合的 Ge-Sb-Te 合金,以满足在晶态和非晶态之间的 “光学对比度” 差异最大的特性。

例如,在 DVD 或蓝光光盘上,光学对比度允许扫描激光通过区分高反射率或低反射率的区域来读取光盘。研究人员发现,GST467 的光学对比度是 DVD 常用的材料 GST225 的两倍,较大的对比优势也使其表现出了明显优于传统材料的特性。

GST467 还可应用于用于控制电路中光的方向的光子开关器件,还可以应用于神经形态计算(旨在开发模拟大脑神经元结构和功能的设备,为新型计算机的出现以及从复杂图像中提取有用数据等其他应用提供可能)。

远程科研或成现实

研究人员认为,不只是 GST467,CAMEO 还可以发现许多其他材料。如今,他们已经将 CAMEO 的代码开源,免费提供给科学家和研究人员使用。

与类似的机器学习方法不同,CAMEO 算法不是对大量数据进行机器学习和预测,而是通过关注晶体材料的成分、结构和性质之间的关系,追踪材料相应功能的结构来源,引导系统发现有用的新化合物。

CAMEO 的一个好处是最大限度地降低了成本,因为在同步加速器设施中进行实验是需要花费时间和金钱的。研究人员估计,使用 CAMEO 可以将实验数量减少十分之一,相应地可以将实验时间缩短十倍。由于人工智能正在运行测量数据、收集数据,分析数据的过程,这也大大降低了研究人员进行实验所需的知识量,他们只需关注正在运行的 AI 系统。

CAMEO 的另一个好处是为科学家提供了远程工作的能力。SLAC 美国国家加速器实验室的研究员 Apurva Mehta 说:“这掀起了一波科研热潮,科学家不需要在实验室中,就可以继续工作和生产。” 这可能意味着,如果科学家们可以依靠人工智能在实验室进行实验,更加安全地远程从事传染性疾病或病毒的研究

研究人员表示,他们将继续改进这一 AI 算法,并尝试使该算法可以解决更复杂的问题。Kusne 说:“CAMEO 拥有机器人科学家的智慧,它的构建,是为了以一种非常高效的方式,来设计、运行和学习实验。”

参考资料:
https://www.nature.com/articles/s41467-020-19597-w
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业神经形态计算机器学习主动学习
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

神经形态计算技术

神经形态工程也称为神经形态计算,是Carver Mead在1980年代后期开发的一个概念,描述了使用包含电子模拟电路来模拟神经系统中存在的神经生物学结构的超大规模集成(VLSI)系统。 近来,神经形态(Neuromorphic)一词已被用于描述模拟、数字、混合模式模拟/数字VLSI以及实现神经系统模型(用于感知,运动控制或多感官集成)的软件系统。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

推荐文章
暂无评论
暂无评论~