Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习预测有机分子内的态密度,加速功能材料设计


图片

编辑 | 绿萝

有机化学是研究碳基分子的化学。它不仅是生物科学的基础,而且对许多当前和未来的技术都至关重要。了解材料分子的电子结构是预测材料化学性质的关键。

近日,来自东京大学的研究团队开发了一种机器学习算法来预测有机分子内的态密度(DOS),即电子在材料分子内的基态中可以占据的能级数目。这些基于光谱数据的预测对有机化学家和材料科学家分析碳基分子很有帮助。

该研究以「Prediction of the Ground-State Electronic Structure from Core-Loss Spectra of Organic Molecules by Machine Learning」为题,于 2023 年 5 月 18 日发布在《J. Phys. Chem. Lett.》上。

图片

论文链接:https://doi.org/10.1021/acs.jpclett.3c00142

局部原子和电子结构与纳米材料的性质密切相关。因此,表征局部原子和电子结构对于研究和设计纳米材料变得至关重要。

在纳米材料的表征方法中,核损失光谱(Core-loss Spectroscopy),即电子能量损失谱 (EELS)和 X 射线吸收近边结构(XANES),由于其具有较高的空间分辨率和灵敏度,反映了材料的原子和电子结构,得到了广泛的应用。

然而,分子结构、化学键和各种分子性质,如磁性和机械性质,主要是由已占轨道的基态电子结构决定的,这是不能直接从核损失谱中得到的。此外,基态电子结构与核损光谱之间的联系是间接的,光谱所具有的信息仅在激发分子的电子缺失(未占据)状态下。

为了解决这个问题,东京大学的团队训练了一个神经网络机器学习模型来分析核损光谱数据并预测电子态密度。

该研究旨在使用 ML 从碳 k 边(C K-edge)核损失谱中获得有机分子的完整基态电子结构,特别是 s 轨道和 p 轨道分波态密度 (Partial Density of States,PDOS)。

研究使用具有两个隐藏层的前馈神经网络 (FNN) 作为 ML 模型,以数据库中的碳 K 边 ELNES/XANES 和基态 PDOS 碳 s- 和 p- 轨道分别用作输入和输出。

图片

图 1:ML 模型架构示意图。(来源:论文)

首先,通过计算 22 151 个分子的态密度和相应的核损耗光谱来构建数据库。还添加了一些模拟噪音。然后,该算法在核损失谱上进行了训练并进行了优化,以预测基态下占据和未占据状态的正确态密度。

「我们试图使用由较小分子训练的模型来推断对较大分子的预测。我们发现通过排除小分子可以提高准确性,」论文一作 Po-Yen Chen 解释说。

对于进一步的研究,外推研究提供了一个重要的指示,因为外推的成功意味着 PDOS 预测存在规律性,并且该 ML 模型可能应用于更大的分子。

为了检查模型的外推能力,研究人员检查了三种类型的训练数据集(分别称为 model-blue、model-green 和 model-brown),但所有训练都是使用小于 20 个原子的相对较小的分子进行的。应用三种不同类型的模型来预测具有 21-26 个原子的较大分子的 PDOS,作为测试数据。

图片

图 2:模型外推能力验证结果。(来源:论文)

在第一个模型 model-blue 中,将具有不同原子数的分子的 ELNES/XANES-PDOS 相关性与测试数据集进行了比较。平均 MSE 值随着训练数据集中分子的原子数 (n) 的增加而减小,这意味着较大的分子具有相似的 ELNES/XANES– PDOS 与测试数据集的相关性。

在 model-green 模型中,更大的 n 意味着更大的分子被添加到训练数据集中。趋势非常接近 model-blue,最小值出现在模型中具有 1-20 个原子的分子,表明将较大的分子添加到训练数据集中可以增加 ELNES/XANES- 的相似性 PDOS 相关性。

在 model-brown 中,n 的增加对应于去除训练数据集中原子数少于 n 的分子。有趣的是,它首先显示出较低的 MSE,然后在去除具有 18 个或更多原子的分子时 MSE明显更高。

为了详细了解微小分子排除的影响,从三个模型中挑选了两个 model,model A 和 model B。

结果表明模型 B 可以提供与模型 A 相似或更好的 PDOS 预测。此外,模型 B 中训练数据集的大小(5848 个数据)比模型 A 中的训练数据集(21042 个数据)小 4 倍,表明去除微小分子可以提高 PDOS 预测,而不是增加训练数据量。

为了证实模型的进一步外推能力,研究人员还构建了 10 个工业固硬剂或环氧树脂分子的分子结构,并模拟了 ELNES/XANES 光谱,

结果表明模型在没有微小分子的情况下表现出良好的外推性能,并且具有应用于大分子的潜力。

图片

图 3:(a–j) 模拟的 ELNES/XANES 光谱和 (k–t) DGEBA、PACM、DGEBA–PACM 和 7 种 EPON 分子模型 B 的 PDOS 预测结果。(来源:论文)

该团队还发现,通过使用平滑预处理和向数据添加特定噪声,可以改进对态密度的预测,从而可以加速预测模型在真实数据上的应用。

图片

图 4:具有不同 λ 和平滑尺度的测试数据的 MSE 值的训练数据集依赖性,其中训练数据处理不同的 λ。(来源:论文)

该研究证明了在 ML 的帮助下,可以从核损失谱中获得基态下的分子电子结构,包括占据态和未占据态,这将有助于科学家了解基态分子的材料性质,加速功能分子的设计。

参考内容:https://phys.org/news/2023-05-machine-density-states-molecules.html

产业
暂无评论
暂无评论~