Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

当AI遇上量子化学,这是NeurIPS 2022挑战赛的冠军解决方案

在刚刚落幕的由 Meta AI 研究院及卡耐基梅隆大学(CMU)联合机器学习顶级会议 NeurIPS 共同举办的第二届 Open Catalyst Challenge (OCP)竞赛中,由腾讯 AI Lab 领头,中国人民大学,清华大学以及香港中文大学组成的联合团队 TTRC 以 0.396eV 绝对误差的成绩获得第一,相对于去年的最好成绩,提升达到 27.6%。

一、背景

Open Catalyst Project (OCP)是由 Meta AI 和卡耐基梅隆大学联合发起的一个科研项目,旨在使用人工智能算法加速可用于再生能源存储的催化剂的发现。其核心目的是通过寻找高效且经济的催化剂来解决再生能源存储的问题。

在这一领域,传统方法是基于量子力学(密度泛函理论 DFT)的模拟计算催化剂表面和目标吸附物的结合能来测试和评估新的催化剂结构。然而,这类模拟的一大缺点是其巨大的计算成本,通常单个组合模拟就需要耗费 24 小时以上。这使得我们无法高效且大量地筛选潜在的催化剂结构。因此,如何利用机器学习算法去建模量子化学模型进而实现对于催化剂结构的有效筛选还是一个非常具有前景的方向。

图片

传统基于量子力学的计算流程(引自官方资料)

给定一个催化剂 - 吸附物组成的反应系统,经典的量子力学模拟计算分为两个步骤,第一步是基于密度泛函理论计算系统中微观粒子的等效受力。第二步则是基于这个受力迭代更新系统中原子核的位置。直到受力收敛。这样就可以得到这个系统低能态,即松弛状态,进而计算催化剂和吸附物的结合能。

本次比赛参赛主题则是构造机器学习模型预测一个由催化剂 - 吸附物组成的反应系统的松弛状态能量,即 IS2RE(Initial state to relaxed energy)。同上一届不同的是,除了提供催化剂 - 吸附物以及对应能量标签(46 万)外,主办方还额外提供了 200 万的由密度泛函计算得到的静态反应系统的坐标及其对应的力和能量。基于这些数据,模型可以去预测静态结构下的等效受力,即 S2EF(Structure to energy and force),使得模型可以更好探索量子力学计算的部分建模。

二、技术

自从 OCP 项目发起以来,由于其重要的科学意义和庞大的数据规模以及具有挑战的任务,吸引了 DeepMind,MSRA,达摩院,MILA,MIT,上海交大等机构的关注和参与。在今年的第二届比赛中,我们提出的 GeoEnsemble 框架以 0.396eV 绝对误差的成绩获得第一,相对于去年比赛最好成绩 Graphormer,提升达到 27.6%。


图片

非公开测试集排行榜,带下划线的为官方 Baseline。(引自官方资料)


图片

本届比赛的方案相对于上一届方案的提升。(引自官方资料)


图片

限定比赛用训练集的方法,在 Public Leaderboard 性能表现。

数据来源: https://eval.ai/web/challenges/challenge-page/712/leaderboard/1950

在 GeoEnsemble 框架中,为了对原子之间复杂的动态交互关系进行建模,我们在 ICLR 2022 发表的图动力学神经网络(GMN)[1]的基础上进行了改进,提出了 GMN-OC 模型。

GMN-OC 模型的输入是一个由原子构成的几何图,几何图中包含了几何特征(原子的三维坐标)和非几何特征(原子的类型),模型可以预测输出几何向量(原子的受力)和非几何标量(系统能量)。


图片

GMN-OC 整体输入和输出流程

在 GMN-OC 模型中,我们构造了一个基于多通道的几何特征 O(3)等变函数图片 与不变函数 图片 用来处理几何特征和非几何特征的交互。

基于这两个函数,我们构建了一个基于消息传递的图神经网络,在 GMN-OC 的每一个网络层中,会基于 O(3)等变与不变函数进行消息传递与聚合,从而实现对每个原子的几何特征图片和非几何特征图片进行更新。

图片

基于消息传播的几何特征更新过程

在这个基础模型上,我们进一步引入了一个全局共享表示模块(Global Representation Module)建模在 DFT 计算中可能涉及到的粒子之间的全局交互信息。同时也保持了模型的等变性。

图片

全局共享表示模块示意图

整个 GMN-OC 模型结构如下图。同时,我们在计算图片时,使用了 Multi-head 的显存优化方法,使得模型可以更好的应对大数据的处理。


图片

GMN-OC 模型整体架构

此外在训练技术上,为了充分利用赛事提供的两组训练数据,我们使用了 Pretrain-Finetune、Multi-task Learning 等优化技术,进一步提高模型预测精度。此外,我们结合 GMN-OC/SCN/GemNet 等多个模型,构建了多模型融合方案 GeoEnsemble。为了提高模型训练速度,我们还使用了混合精度训练等技术,并在大规模集群上完成了分布式训练。

图片

GeoEnsemble 在训练上的改进

三、展望

利用人工智能技术助力自然科学领域中的探索和发现,已经成为近年来人工智能领域备受瞩目的应用方向之一。得益于高性能计算能力和前沿人工智能技术的不断发展,基础科学领域的研究者得以利用人工智能算法去加速相关领域中复杂、大规模的计算和模拟任务,如蛋白质折叠、小分子结合能计算、催化剂发现等。

腾讯 AI Lab,基于在人工智能算法研究中的积累,在生命科学,物理建模等多个应用方向上取得了重要的突破。例如首个大规模小分子预训练模型 GROVER [2]及骨架跃迁生成模型 [3],自研蛋白质折叠模型 tFold [3] 和基于序列预训练的抗体结构预测模型 tFold-Ab [4],基于等变性的蛋白质对接模型 EquiDock [5],基于图动力学网络的蛋白质动态结构预测模型 EGHN [6]等。同时,腾讯云深 AI 药物发现平台研发的基于等变图神经网络的分子能量框架 DeepQC,可以实现对类药分子的高精度的量化计算。

我们将在近期开源这次比赛使用的模型和训练推理源码,以助力人工智能在量子化学模拟和电子结构计算等基础研究领域的应用。在未来,腾讯 AI Lab 将持续研发和落地 AI 新技术,推动 AI 在交叉学科中的新应用,探索 AI 赋能科学发现的新范式。

比赛链接:https://opencatalystproject.org/challenge.html

项目主页:https://ai.tencent.com/ailab/ml/ocp/index.html

引用:

1. Equivariant Graph Mechanics Networks with Constraints

2. Self-Supervised Graph Transformer on Large-Scale Molecular Data

3. A novel scalarized scaffold hopping algorithm with graph-based variational autoencoder for discovery of JAK1 inhibitors

4. When homologous sequences meet structural decoys: Accurate contact prediction by tFold in CASP14—(tFold for CASP14 contact prediction)

5. tFold-Ab: Fast and Accurate Antibody Structure Prediction without Sequence Homologs

6. Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking

7. Equivariant Graph Hierarchy-Based Neural Networks

理论量子化学
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~