Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

打开AI黑匣子,「三段式」AI用于化学研究,优化分子同时产生新化学知识,登Nature

图片

编辑 | KX

AI 工具的强大功能,令人难以置信。但如果你试图打开引擎盖并了解它们在做什么,你通常会一无所获。AI 常常被视为「黑匣子」。

对于化学来说,AI 可以帮助我们优化分子,但它无法告诉我们为什么这是最佳的——重要的特性、结构和功能是什么?

近日,伊利诺伊大学厄巴纳-香槟分校(UIUC)的一个跨学科研究团队打开了黑匣子,研究人员通过将 AI 与自动化学合成和实验验证相结合,找到了 AI 所依赖的化学原理,从而改进用于收集太阳能的分子。

研究找到了比现有稳定四倍的捕光分子,同时给出了使其保持稳定的重要见解 ——这是一个阻碍材料开发的化学问题。

研究人员提出将闭环实验与基于物理的特征选择监督学习集成,称为「闭环转移」(Closed-loop Transfer,CLT),可以在优化目标函数的同时产生化学见解。

「通过我们的过程,我们确定了是什么赋予这些分子更高的光稳定性。我们把 AI 黑匣子变成了一个透明的玻璃球。」伊利诺伊大学厄巴纳-香槟分校化学教授 Nicholas Jackson 说。

相关研究以「Closed-loop transfer enables artificial intelligence to yield chemical knowledge」为题,于 8 月 28 日发表在《Nature》上。

图片

论文链接:https://www.nature.com/articles/s41586-024-07892-1

AI 引导的闭环实验

AI 引导的闭环实验平台,在加速科学发现方面显示出巨大潜力。但目前还不可能利用闭环优化策略来获取全新的化学知识。

光稳定性是一种普遍存在的化学功能,目前缺乏通用的化学设计原则。化学知识的缺乏限制了有机光伏、染色聚合物、太阳能燃料和荧光染料等领域的进展。

此前对分子光稳定性的研究主要集中在最低激发三重态 (T1) 的能量学及其与键解离能的关系上,但在分散的化学类别中研究有限。最近的研究表明,较高能量的三重态 (Tn, n > 1) 也适用于较窄的化学类别,但仍然缺乏通用的设计原则。

闭环范式有望在传统方法未能实现的光稳定性方面取得突破。为了实现这一愿景,需要从闭环策略中提取知识的新方法,然后 AI 才能产生可解释的假设并增强科学家对光稳定性和分子功能的根本理解。

「三段式」AI 方法用于化学研究

该研究的目标是,如何改进有机太阳能电池,这种电池基于薄而柔韧的材料,而不是现在遍布屋顶和田野的刚性、沉重的硅基电池板。

「阻碍有机光伏电池商业化的是稳定性问题。高性能材料在暴露于光线下时会降解,而这并不是太阳能电池所希望的,」UIUC 化学和生物分子工程教授 Ying Diao 说。「它们可以以硅无法实现的方式制造和安装,也可以将热量和红外光转化为能量,但自 20 世纪 80 年代以来,稳定性一直是一个问题。」

在此,伊利诺伊大学厄巴纳-香槟分校研究团队提出了一种三阶段方法,该方法在展示化学知识的同时,还优化了广泛化学空间中的分子功能。

  • 第一阶段是机器学习 (ML) 驱动的假设生成:应用贝叶斯优化 (BO) 来提高光稳定性,直到性能指标达到稳定状态,并使用基于物理的分子特征出现 ML 衍生的假设。

  • 第二阶段是假设检验:通过实验验证 ML 得出的假设,来建立新发现的化学知识。

  • 第三阶段是物理驱动的发现:将新的基于物理的知识应用于化学设计空间,人为驱动,突破优化瓶颈。

图片

图示:CLT 范式。(来源:论文)

分子的光稳定性提高四倍

在多轮闭环合成和实验表征中,AI 算法给出了合成和探索哪些化学物质的建议。每一轮之后,新的数据都会被重新纳入模型,然后模型给出改进的建议,每一轮实验都会更接近预期的结果。

研究人员在五轮闭环实验中产生了 30 种新的化学候选物。

重要的是,通过对 2,200 个潜在分子总空间的不到 1.5% 进行采样,排名前五位的分子的平均光稳定性提高了 500% 以上,这一结果与之前的理论预测一致。

图片

图示:第一阶段机器学习驱动的假设生成。(来源:论文)

研究结果还表明,与传统的 T1 能量光稳定性描述符相反,高能 TDOS 成为整个化学空间中分子光稳定性的主要决定因素。这一见解在第四轮 BO 之后出现,并在第五轮之后得到证实。由于 ML 模型的收敛与分子光稳定性的稳定期相吻合,这标志着 BO 实验的结束。

「模块化化学方法完美地补充了闭环实验。AI 算法要求获取具有最大学习潜力的新数据,而自动分子合成平台可以非常快速地生成所需的新化合物。然后对这些化合物进行测试,数据会返回到模型中,模型会一次又一次地变得更智能,」伊利诺伊大学化学教授 Martin Burke 说道。

Jackson 说,「现在我们有了一些使分子具有光稳定性的物理描述,这使得筛选新化学候选物的过程比在化学空间中盲目搜索要简单得多。」

「我们相信我们可以解决其他材料系统。最终,我们设想了一个界面,研究人员可以输入他们想要的化学功能,AI 将生成假设进行测试。」Schroeder 说。

参考内容:https://phys.org/news/2024-08-ai-black-team-key-chemistry.html
理论
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

假设检验技术

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

推荐文章
暂无评论
暂无评论~