长期以来,化学家的目标是想象新分子的化学结构,并能够预测它在所需应用中的作用。然而,在实践中,这个愿景很难实现,通常需要大量的实验室工作来合成、分离、纯化和表征新设计的分子,以获得所需信息。最近,劳伦斯·利弗莫尔国家实验室(LLNL)的研究团队通过创建机器学习(ML)模型,可以仅从分子的化学结构(如分子密度)预测分子的晶体特性,从而实现了这一愿景。预测晶体结构描述符(而不是整个晶体结构)提供了一种推断材料特性的有效方法,从而加快了材料的设计和发现。该研究于4.26以题为「Predicting Energetics Materials’ Crystalline Density from Chemical Structure by Machine Learning」发表在《化学信息与建模杂志》(Journal of Chemical Information and Modeling)上。新分子化合物的发现是一个劳动密集型且成本高昂的「爱迪生式」过程。几十年来,人们一直希望能够仅从化学结构和合成之前预测分子化合物的整体结晶特性,以减少新化合物的开发时间。然而,这个目标仍难以实现。此前,虽然有多种 ML 方法可用于预测分子级特性,包括能级和亲脂性,但使用 ML 方法来预测分子化合物的结晶特性的探索较少。现在,研究人员证明了ML方法可用于直接学习分子化合物的化学结构与晶体特性之间的关系,并在没有晶体结构信息的情况下进行预测。研究新分子化合物的典型过程和劳动力示意图(蓝色箭头)
绿色突出显示的是机器学习可以加速新分子开发的各种可能的捷径该研究集中在预测一类称为高能炸药 (high explosives,HE) 的高能材料的晶体密度上,因为分子 HE 的密度与爆速直接相关,这是评估分子 HE 候选物时的重要性能指标。此外,新 HE 的开发和测试是特别危险的工作,如果及早确定优先级并将待合成和研究的样品最小化,将特别受益。ML 模型框架目前获得密度近似值的最佳方法是通过基于量子力学的密度泛函理论 (DFT) 计算。然而,迄今为止发表的方法仍然没有提供准确的预测。「与之前基于 ML 的方法相比,我们最杰出的 ML 模型之一能够更准确地预测高能和类高能分子的晶体密度。」LLNL 应用数学家、论文的共同第一作者 Phan Nguyen 说 。LLNL计算机科学家、共同第一作者Donald Loveland表示:「与 DFT 相比,ML 模型在计算精度上更具竞争力,同时所需的计算时间也很短。」使用已发表的晶体密度 HE 相关数据集和几种密度回归模型:随机森林(RF)、偏最小二乘回归(PSLR)、消息传播神经网络 (MPNN)和支持向量回归(SVR),评估了各种特征组合和方法的拟合优度,以预测剑桥结构数据库(Cambridge Structural Database,CSD) 中 HE 相关分子的密度。预测密度与真实密度研究表明,使用带有 RF、PLSR 和 MPNN 的 RDKit 的方法比基线 E3FP/SVR 方法的性能更好,并产生接近真实密度值的密度预测。基于消息传播神经网络 (MPNN) 的模型的性能表现最佳,其R2值为 0.914,在预测结晶密度方面优于当前最先进的方法。尽管像 MPNN 这样的基于神经网络的方法有其自身的缺点(即它们的计算成本高,模型复杂性阻碍了人类的可解释性),但当适当的手工特征尚未开发或识别时,此类方法可能特别适用。
LLNL 的高爆应用设施 (HEAF) 的成员已经开始利用该模型的网络界面,旨在发现新的不敏感的高能材料。通过简单地输入分子的 2D 化学结构,HEAF 化学家能够快速确定这些分子的预测结晶密度,这与潜在的能量性能指标密切相关。「我们很高兴看到我们的工作成果应用于实验室的重要任务。这项工作必将有助于加速新材料的发现和优化,」LLNL 材料科学家、该项目首席研究员 Yong Han 说。材料科学部门的后续工作将 ML 模型与生成模型结合使用,快速有效地搜索大型化学空间,以寻找高密度候选物。该团队将继续寻找实验室感兴趣的新特性,其愿景是为材料科学家提供一套用于研究的预测模型。论文链接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01318
参考内容:https://phys.org/news/2021-06-machine-aids-materials.html