Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

精确属性控制,湖大、西电从头药物设计AI方法,登Nature子刊

图片

编辑 | 萝卜皮

深度生成模型在药物从头设计领域受到广泛关注。然而,针对新靶点合理设计配体分子仍然具有挑战性,特别是在控制生成分子的性质方面。

在这里,受到 DNA 编码化合物库技术的启发,湖南大学和西安电子科技大学的研究人员提出了 DeepBlock,这是一种基于块(block)的配体生成深度学习方法,可根据目标蛋白质序列进行定制,同时实现精确的属性控制。

此外,DeepBlock 还可以结合优化算法和深度学习来调控生成分子的性质。

该研究以「A deep learning approach for rational ligand generation with toxicity control via reactive building blocks」为题,于 2024 年 11 月 8 日发布在《Nature Computational Science》。

图片

寻找能够与特定蛋白质结合的小分子配体是药物发现中的关键环节。虚拟筛选已成为一种重要方法,利用计算机程序在小分子库中识别生物活性化合物。然而,虚拟筛选的有效性受到巨大化学空间和所用化合物库的限制。

相比之下,从头药物设计策略(从头生成分子结构)提供了一种有希望的途径,可以探索现有库之外更广阔的化学空间。

近年来,这些模型在分子生成上取得了显著进展,但它们通常缺乏针对特定蛋白质靶标的生成能力,因此需要通过额外筛选或结合强化学习等技术来弥补。此外,生成分子的可合成性和药物的毒性、代谢等特性也需在实际药物开发中予以考虑。

DNA 编码化合物库技术已成为一种广泛接受的湿实验室药物发现方法。该方法利用组合化学通过分子构件的反应快速生成大量候选化合物。

DeepBlock

受 DNA 编码化合物库技术的启发,湖南大学和西安电子科技大学的研究团队提出了一种基于深度学习的框架 DeepBlock,利用分子构件进行从头药物设计。这里的构件表示能够相互发生化学反应的分子片段。

图片

图示:DeepBlock 框架概述。(来源:论文)

DeepBlock 的核心理念是将分子生成过程分解为两个连续步骤:首先,根据蛋白质序列嵌入特征生成构建块,然后将其组装成完整的分子。通过利用这些块的固有属性及其之间的化学相互作用,DeepBlock 可以设计出更优质的合理分子。

基于这一理念,研究人员在 DeepBlock 中设计了有效的机制来解决两个关键任务:根据蛋白质序列定制分子生成和生成过程中的属性控制。

在 DeepBlock 中,该团队加入了块生成网络(BGNet),这是一种条件深度生成模型,旨在根据给定的蛋白质序列生成块序列。BGNet 结合了两个关键特性,可显著提高其性能。

首先,它由一个在大规模分子数据集上预训练的分子块自动编码器构建而成,它包含 10,701 个块的广泛词典,其中包含各种常用的片段。这种预训练扩展了化学空间,并缓解了由于蛋白质-配体对数据集的大小有限而导致的潜在过度拟合。

其次,研究人员在 DeepBlock 中引入了一个关键组件——靶标贡献感知模块。该模块增强了模型自主识别配体与残基之间相互作用的能力,弥补了蛋白质序列中 3D 结构信息的缺失。

BGNet 中这两个特征的结合凸显了其生成多样化和生物活性分子片段的能力,有效地解决了蛋白质序列数据带来的挑战。

图片

图示:优化前后亲和力对比。(来源:论文)

此外,该团队将 BGNet 与模拟退火 (SA) 算法或贝叶斯优化 (BO) 结合使用来控制生成过程,旨在增强其他特性,同时保留其对目标蛋白质的结合亲和力。

图片

图示:优化过程和结果。(来源:论文)

研究团队还进行了以药物毒性为优化目标的实验。当与以毒性为优化目标的模拟退火或贝叶斯优化相结合时,DeepBlock 成功生成具有低毒性的配体,同时保留与靶标的亲和力。

未来工作

该方法也存在局限性。

DeepBlock 目前只能从现有的块字典中生成块,因此限制了其生成的分子的多样性。

该团队未来的研究方向是探索从头生成块的方法,从而将该模型从现有字典块的限制中解放出来,并释放其可以创建的分子的更大多功能性和新颖性的潜力。

此外,DeepBlock 生成二维 (2D) 分子结构作为 SMILES 字符串,提供可控属性和对新目标的适用性。虽然 SMILES 字符串为各种药物开发场景提供了足够的结构信息,但它们缺乏 3D 结构细节。

未来的研究将侧重于将该方法与 LiGAN 等方法相结合,以开发基于分子构建块的受控 3D 分子生成方法。这种混合方法可以结合 2D 和 3D 药物设计方法的优势,从而有可能提高药物发现的效率和有效性。

论文链接:https://www.nature.com/articles/s43588-024-00718-0

产业科学人工智能药物研发深度学习AI for Science
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~