Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

耗时缩短十倍以上,大规模AI方法加速原子模拟进程,推动更泛用的策略发展

图片

编辑丨&

扩展一直是提高机器学习各个领域的模型性能和泛化的关键因素。尽管在扩展其他类型的机器学习模型方面取得了成功,但对神经网络原子间电位 (NNIP) 扩展的研究仍然有限。

该领域的主要范式是将许多物理域约束合并到模型中,例如旋转等方差等对称性约束。来自美国加州大学伯克利分校和劳伦斯伯克利国家实验室 (Berkeley Lab) 的研究团队认为,这些日益复杂的领域约束抑制了 NNIP 的扩展能力,从长远来看,这种策略可能会导致模型性能停滞不前。

为了系统地研究 NNIP 扩展属性和策略,团队提出了一种全新的专为可扩展性而设计的 NNIP 架构:高效缩放注意力原子间势 (EScAIP),意在通过注意力机制扩展模型有效提高模型表达能力。

该方法以「The Importance of Being Scalable: Improving the Speed and Accuracy of Neural Network Interatomic Potentials Across Chemical Domains」为题,于 2024 年 10 月 31 日发布于 Arxiv 预印平台。

图片

与现有的 NNIP 模型相比,EScAIP 因使用高度优化的注意力 GPU 内核实现,效率大幅提高,推理时间至少加快 10 倍,内存使用量减少 5 倍。

团队强调,他们的方法应被视为一种哲学而非特定模型。它代表了开发通用 NNIP 的概念验证,这些 NNIP 通过扩展实现更好的表达性,并通过增加计算资源和训练数据继续有效扩展。

关于神经网络通用进化的思考

近年来,扩展模型大小、数据和计算的原理已成为提高机器学习 (ML) 性能和泛化的关键因素,涵盖从自然语言处理 (NLP)到计算机视觉 (CV)。ML 中的扩展在很大程度上取决于是否能最好地利用 GPU 计算能力。这通常涉及如何有效地将模型大小增加到较大的参数量级,以及优化模型训练和推理以实现最佳计算效率。

与这类发展并行的方向,涵盖了原子模拟,解决药物设计、催化、材料等方面的问题。其中,机器学习原子间势,尤其是神经网络原子间势 (NNIP),作为密度泛函论等计算密集型量子力学计算的替代模型而广受欢迎。

NNIP 旨在高效、准确地预测分子系统的能量和力,允许在难以用密度泛函理论直接模拟的系统上执行几何弛豫或分子动力学等下游任务。

当前的 NNIP 主要基于图神经网络 (GNN)。该领域的许多有效模型越来越多地尝试将受物理启发的约束嵌入到模型中,这些约束包括将预定义的对称性(例如旋转等方差)合并到 NN 架构中,以及使用复杂的输入特征集。

团队认为,这些日益复杂的领域约束抑制了 ML 模型的扩展能力,并且可能会随着时间的推移在模型性能方面趋于平稳。随着模型规模的增加,可以假设施加这些约束会阻碍有效表示的学习,限制模型的泛化能力,并阻碍有效的优化。其中许多功能工程方法并未针对 GPU 上的高效并行化进行优化,进一步限制了它们的可扩展性和效率。

基于这些理解,他们开发了高效缩放注意力原子电位 (EScAIP)。该模型在各种化学应用中实现了最佳性能,包括在 Open Catalyst 2020、Open Catalyst 2022、SPICE 分子和材料项目 (MPTrj) 数据集上的最佳性能。

图片

图 1:EScAIP 与 Open Catalyst 数据集(OC20)上的基线模型之间的效率、性能和扩展比较。

EScAIP 可以很好地与计算一起扩展,并且其设计方式将随着 GPU 计算的不断进步而进一步提高效率。

模型的种子与未来的枝芽

这些模型通常经过训练,可以根据系统属性(包括原子序数和位置)预测系统能量和每原子力。模型分为两类:基于组表示节点特征的模型,以及基于笛卡尔坐标表示的节点特征的模型。

NNIP 领域也越来越关注使用量子力学模拟生成更大的数据集,并使用它来训练模型。有一种趋势是将物理启发的约束纳入 NNIP 模型架构,例如所有将对称约束合并到模型中的组。然而,还有其他工作路线并没有试图直接在 NNIP 中构建对称性,而是尝试“近似”对称性。

通过消融研究,该团队系统地研究了缩放神经网络原子间势 (NNIP) 模型的策略。在确认了高阶对称性(旋转阶数 𝐿)对扩展效率的影响后,他们也得出了增加模型参数的最佳方法。

图片

图 2:EquiformerV2 在 OC20 2M 数据集上的消融研究结果。

提高具有组表示特征的 NNIP 模型能力的一种流行方法是增加表示的顺序。如果没有控制模型中可训练参数的总数,会在模拟中引入差异,这可能混淆 𝐿 对模型的性能影响。

为了明确增加的影响𝐿在模型性能上,并确定在 NNIP 模型中增加参数的最有效策略,团队将不同值的可训练参数数量标准化,并系统地添加进模型。

比较分析揭示了不同参数扩展策略的性能增益具有明显的层次结构。一旦跨模型的参数数量得到控制,许多模型与原始模型就会产生相当的误差。增加注意力机制参数是最有利的,并且比简单地在所有组件中添加更多参数有着更实质性的突破。

EScAIP

为了避免冗杂的张量积,团队对旋转和平移不变的标量特征进行调整,以利用自然语言处理中优化的自我注意机制。这种处理使该模型比 EquiformerV2 等等变群表示模型的时间和内存效率更高。

图片

图 3:高效缩放注意力原子间势 (EScAIP) 模型架构的图示。

通过引导模型进行精细的力大小预测,模型可以学习更好的系统表示,从而帮助它更准确地预测系统能量。力的大小是原子的局部属性,而能量预测是分子系统的全局属性。这可能解释了为何节点读出特征预测力的大小对于能量预测很有帮助。

甜蜜的教训与轻快的步伐

团队注意到,他们的调查路线遵循了一些苦涩教训的原则。专注于扩展和计算的策略往往优于那些试图将领域知识嵌入模型的策略。但是他们却相信这个教训是甜蜜的,因其使大规模培训大众化,并使其可供更广泛的社区使用。

原子系统比嵌入到模型中的特定领域信息要复杂得多。预定义的对称约束和手工制作的特征仅提供了这种复杂性的简单表示。后续改进最好伴随着相关的评估指标,使 NNIP 能够通过缩放获得表达能力来学习其余信息。

随着数据集的不断增长,在小型数据集上从头开始训练模型可能变得没有必要。虽然约束在非常小的数据制度中可能会提供一些帮助,但也可以利用预先训练的大型模型的表示作为在较小数据集上进行微调的起点。

除了专注于数据生成之外,其他技术在 NNIP 领域可能会越来越重要。其中包括模型蒸馏、通用训练和推理策略,这些策略与模型无关,可以应用于任何 NNIP,以及更好地与实验结果联系起来的方法。这表明更全面的策略对于 NNIP 的准确性与效用极为重要。

原文链接:https://arxiv.org/abs/2410.24169

相关代码:https://github.com/ASK-Berkeley/EScAIP

理论
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~