Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

分子表征从「图」到「视频」,1.2亿帧、200万分子,湖大分子视频基础模型登Nature子刊

图片

编辑 | KX

分子表征已经从「图」扩展到「视频」了。

两年前,湖南大学的研究团队,开发了具有化学意识的深度学习框架 ImageMol,用于从大规模分子图像中学习分子结构,可准确预测分子特性和药物靶点。

现在,该研究团队将 ImageMol 进行了重大升级,提出一个基于分子视频的基础模型,称为 VideoMol,该模型在 1.2 亿帧的 200 万个未标记的类药物分子和生物活性分子上进行了预训练。

VideoMol 是一个新颖的分子表征学习框架,与以往基于序列、图和图像的分子表征学习方法有显著不同。VideoMol 将分子视为动态视频,以视频处理的方式学习分子表征,这意味着大量视频表征学习技术可用于分子表征学习

与之前的 ImageMol 相比,VideoMol 有几个实质性的升级:

(1)分子视觉表征的内容由二维像素信息升级为三维像素信息;

(2)分子预训练由基于图的学习升级为基于视频的学习;

(3)包含的指纹信息由之前的 1 个指纹(MACCS 键)升级为 21 个指纹。

由于 VideoMol 涉及图像表征学习、视频表征学习、多视角表征学习等研究领域,因此具有更大的研究潜力,可以激励更多研究人员进行更大的性能改进。

相关研究以「A molecular video-derived foundation model for scientific drug discovery」为题,于 11 月 8 日发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-53742-z

药物发现是一个复杂且耗时的过程,包括潜在药物靶点的识别、化合物设计和合成、化合物的功效和安全性测试。

计算药物发现使用计算和人工智能技术来协助药物开发,可以大大减少传统药物发现和开发的时间和成本。

对数亿种化合物进行精确的分子表征是计算药物发现界面临的一项重要挑战。随着深度学习自监督学习的兴起,自动化分子表征学习方法可以通过对大规模分子数据集进行预训练,从分子序列、图和图像中提取表征。这些方法在药物发现的各种任务中表现出显著的性能提升。

基于视频表征学习计算机视觉自监督学习的最新进展,基于自监督视频的预训练模型为进一步提高药物发现的性能提供了机会。

VideoMol 框架:1.2 亿帧的 200 万个分子

分子存在于自然界中,不断进行构象动态变化,视频是最直接的表示方法。无需人工提取特征,即可从视频中直接观察到分子的三维信息,例如原子对之间的距离、多个原子之间形成的夹角等。

具体来说,VideoMol 利用动态感知(dynamic awareness)和物理化学感知,以无监督的方式从大量分子 3D 动态视频中学习分子表征。VideoMol 从 200 万个具有人类蛋白质组多种生物活性的分子视频的 1.2 亿帧中捕获化合物的物理化学信息。

研究人员评估了不同表示在特征提取能力上的优势,发现所提出的视频表示比现有表示具有明显的优势,在 8 个基本属性上的提升率为 39.8%。因此,这些显著的差异促使研究人员开发了 VideoMol,以分子衍生视频的形式准确预测分子的靶点和性质。

首先,为 200 万个类药和生物活性分子生成构象,并为每个 3D 分子渲染 60 帧的动态视频(共 1.2 亿帧)。然后,将分子 3D 视频输入视频编码器以提取潜在特征,并实施三种预训练策略,通过考虑视频的变化和分子的物理化学信息来优化潜在表示。最后,在下游任务(分子靶标和属性的预测)上对预训练的视频编码器进行微调,以进一步提高模型性能。

VideoMol 通过使用梯度加权类激活映射(Grad-CAM)实现了良好的可解释性,通过热图可视化分子视频对预测结果的贡献。

图片

图示:VideoMol 基础模型概述。(来源:论文)

为了全面评估 VideoMol 的性能,研究人员选择了四类任务:(1)化合物激酶结合活性预测,(2)配体-GPCR(G 蛋白偶联受体)结合活性预测,(3)抗 SARS-CoV-2 活性预测,(4)分子特性预测。

图片

图示:VideoMol 框架在多种药物发现任务中的表现。(来源:论文)

研究表明,VideoMol 是一种有效的基于分子视频的表征学习方法,在多种药物发现任务中表现优于最先进的方法。

发现配体-受体相互作用

接下来,研究人员通过 VideoMol 识别 4 个众所周知的人类靶标的新型配体-受体相互作用:β-分泌酶 1 (BACE1)、环氧合酶 1 (COX-1)、COX-2 和前列腺素 E 受体 4 (EP4),从而评估该模型的通用性。

此外,还验证了 VideoMol 在 4 个靶标(BACE1、COX-1、COX-2 和 EP4)的虚拟筛选中的高精度,这与正在进行的临床和实验数据一致。

图片

图示:针对四种常见药物靶点(BACE1、COX-1、COX-2 和 EP4)的虚拟筛选。(来源:论文)

与 ImageMol 相比,VideoMol 在这 4 个靶标上实现了 38.1% 的平均精度提升,这表明 VideoMol 能够推广到外部验证集。特别是在 COX-1、COX-2 和 EP4 抑制剂的虚拟筛选中,VideoMol 取得了明显的优势,证明了 VideoMol 可以克服数据不平衡(ChEMBL 的 COX-1 和 COX-2 的不平衡率为 0.043 和 0.253)和数据稀缺(ChEMBL 的 EP4 仅有 350 个样本)的情况。

视频可视化和模型可解释性

由于分子视频中的每一帧都代表同一个分子,因此它们在特征空间中的投影应该相似。

为了评估 VideoMol 对分子视频的判别能力,研究人员随机选择了 100 个分子视频并提取视频中每一帧的特征。随后,使用 t-SNE 将每个特征投影到二维空间中。来自同一视频的帧很好地聚类在一起,而来自不同视频的帧则明显分开。通过定量评估这些聚类的 DB(Davies Bouldin)指数。VideoMol 实现了较低的 DB 指数(值为 0.197),表明 VideoMol 具有识别同一分子的不同帧的能力。

研究人员分别从相同和不同的分子视频中随机抽取 10,000 对分子帧,并计算这些配对样本之间的余弦相似度。正如预期的那样,视频内的平均相似度很高(88.3%),而视频间的平均相似度几乎为零(0.5%),这表明 VideoMol 对同一分子的不同 3D 视图具有稳健性。

图片

图示:VideoMol 的生物学解释和特征分布。(来源:论文)

在 VideoMol 的可解释性方面,研究发现,VideoMol 对同一视频不同帧的注意力不同,这是由于视角遮挡问题导致有用信息经常分散在不同的视图中。这显示了分子视频的优势,使 VideoMol 能够通过扫描每一帧来了解更多的分子信息。此外,值得注意的是,VideoMol 可以感知遮挡场景中的子结构。

研究人员相信,随着分子成像技术的不断进步,通过视频来表示分子并进行推理很有前途。总而言之,VideoMol 的推出,一方面丰富了计算药物发现领域的分子表征形式,另一方面启发人们从不同角度学习和理解分子。

注:封面来自网络

理论AI for Science药物分子表征AI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~