2024/12/03 14:42

打破GNN与语言模型间壁垒，图辅助多模态预训练框架用于催化剂筛选，登Nature子刊

编辑 | KX

吸附能是一种反应性描述符，必须准确预测，才能有效地将机器学习应用于催化剂筛选。该过程涉及在催化表面上的不同吸附构型中找到最低能量。

尽管图神经网络在计算催化剂系统的能量方面表现出色，但它们严重依赖原子空间坐标。相比之下，基于 Transformer 的语言模型可以直接使用人类可读的文本输入，无需详细的原子位置或拓扑结构；然而，这些语言模型通常难以准确预测吸附构型的能量。

近日，卡内基梅隆大学的研究人员通过一种称为图辅助预训练的自监督过程，将其潜在空间与成熟的图神经网络对齐，从而改进了预测语言模型。该方法将吸附构型能量预测的平均绝对误差降低了 7.4-9.8%，将模型的注意力重新引导到吸附构型上。

在此基础上，研究人员建议使用生成式大语言模型为预测模型创建文本输入，而不依赖于精确的原子位置。这展示了语言模型在没有详细几何信息的能量预测中的潜在用例。

相关研究以「Multimodal language and graph learning of adsorption configuration in catalysis」为题，于 11 月 27 日发布在《Nature Machine Intelligence》上。

论文链接：https://www.nature.com/articles/s42256-024-00930-7

研究背景

机器学习 (ML) 方法，尤其是图神经网络 (GNN)，已成为计算成本高昂的密度泛函理论 (DFT) 模拟的有效替代品。这可以加速高通量材料筛选的能量和力预测。基于 ML 的 DFT 替代模型在催化中的成功应用可以识别特定反应的最佳催化剂材料。

尽管 GNN 在催化领域的机器学习应用中取得了重大成功，但获取其输入数据可能具有挑战性，因为它们需要原子位置或拓扑。构建结构的图表示依赖于识别每个原子在特定接近度阈值内的最近邻。然而，实现如此精确的坐标可能很困难，这主要限制了 GNN 在理论研究中的适用性。

语言模型可以处理原子系统的文本描述，而不是用原子坐标构建输入。例如，MOFormer 模型将金属有机骨架 (MOF) 编码为文本字符串表示形式，称为 MOFid，与图表示不同，它包含有关构建块和拓扑代码的化学信息。

吸附能的识别是催化剂筛选中的关键反应性描述符。虽然语言模型有可能绕过对精确原子位置的需求，但其准确性仍然是一个问题。提高模型的准确性对于有效地将这种基于文本的方法应用于吸附构型能量预测任务至关重要。

多模态预训练框架

在此，研究人员开发了一个多模态预训练框架，称为图辅助预训练，在共享潜在空间内将已建立的基于图的方法与新引入的基于文本的方法联系起来。引入此方法是为了提高吸附构型能量预测的准确性。该框架使用 RoBERTa 编码器进行文本处理，并使用线性回归头来预测催化剂系统能量。

图 1：模型训练框架的概述。（来源：论文）

此外，EquiformerV2 模型由于能够对精确的原子结构进行编码而被用作图编码器。在此框架中，文本和图嵌入在预训练期间都以自监督的方式对齐。随后，该模型经历微调阶段，在该阶段，使用从 DFT 计算中得出的能量标签以监督方式进行训练。重要的是，微调步骤完全依赖于文本输入数据，而不需要图表示。

研究进行两种类型的下游推理：一种是为了评估图辅助预训练的效果，另一种是为了证明该模型在没有精确了解吸附质-催化剂系统结构的情况下预测能量的能力。

首先，为了评估图辅助预训练对预测准确性的影响，研究人员对从 ML 弛豫结构派生的测试集字符串进行了预测。CatBERTa 模型以文本字符串作为输入，使用从 ML 弛豫结构派生的文本数据进行训练，以预测弛豫构型的能量。其次，为了说明该模型在不依赖精确结构的情况下预测能量的潜力，使用 LLM 生成晶体学信息文件 (CIF) 格式的指示性结构。这是通过提供吸附质和催化剂的化学成分和表面取向作为输入来完成的。生成的 CIF 被转换成与 CatBERTa 输入兼容的文本字符串。

图 2：模型推理框架。（来源：论文）

文本字符串是通过将结构信息转换为包含三个部分的特定格式生成的。第一部分代表吸附物的化学符号，第二部分包括催化剂的化学符号和米勒指数，分别表示化学组成和表面取向。最后一部分描述了吸附构型，捕获了吸附物和催化剂表面顶层中的主要和次要相互作用原子，这些原子是使用 Pymatgen 库识别的。

图辅助预训练是框架的核心组件，旨在将知识从图嵌入转移到文本嵌入。这种方法弥补了 GNN 与语言模型之间的差距。

图辅助预训练方法导致 MAE 大幅降低，如表 1 所示，降幅从 7.4% 到 9.8% 不等。为了评估图辅助预训练带来的增强效果。比较了使用和不使用这种预训练方法的 CatBERTa 的预测结果。在所有情况下，图辅助预训练都提高了下游预测准确性。

这表明图辅助预训练可以作为一种可转移的预训练策略，弥合高性能 GNN 与新兴的基于 Transformer 的语言模型方法之间的差距。

展望未来

该研究提出的多模态预训练方法，将图和文本嵌入集成到潜在空间中。这促进了不同模型设置之间的连接，增强了语言模型在预测任务中的应用。

虽然当前框架在预测准确性和生成有效性方面存在局限性，但它是更详细的模拟或实验验证的开始。

展望未来，研究人员表示：「我们的目标是开发一个更全面的基于语言的催化剂设计平台，通过改进预测和生成能力，将它们集成到单个 LLM 中，整合其他功能工具，并在类似代理的框架中为平台配备推理和规划能力。」

理论催化剂化学GNNLLMAI for Science

相关数据

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

线性回归技术

在现实世界中，存在着大量这样的情况：两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值，但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高，用Y表示他的体重。众所周知，一般说来，当X大时，Y也倾向于大，但由X不能严格地决定Y。又如，城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时，由于室内空调、冰箱等家用电器的使用，可能用电就高，相反，在春秋季节气温不高也不低，用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多，变量之间的这种关系称为“相关关系”，回归模型就是研究相关关系的一个有力工具。

来源：王松桂等编线性统计模型线性回归与方差分析高等教育出版社 Wikipedia

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构，它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图，并通过在整张图上传递、转换和聚合节点特征信息，从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入，并用于节点分类或预测节点之间的连接，完整的模型可以通过端到端的方式训练。

来源：机器之心

语言模型技术

统计式的语言模型是借由一个几率分布，而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。

来源：维基百科