Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI突破抗药性困境!山大团队融合潜在扩散模型与MD设计新型抗菌肽

图片

编辑 | 2049

世界卫生组织预测,到 2050 年,抗生素耐药性感染可能导致每年 1000 万人死亡,超越癌症成为人类健康的首要威胁。随着抗生素滥用导致的耐药性问题日益严重,开发新型抗菌药物已成为当务之急。

在此背景下,抗菌肽(Antimicrobial Peptides,AMPs)因其广谱抗菌活性和低耐药性特征,被视为下一代抗感染药物的希望之星。然而,传统设计方法受限于化学空间的庞杂性,难以高效探索新型 AMPs。

现有 AI 生成模型虽能加速肽序列设计,却面临两大瓶颈:生成序列多样性不足(相似度普遍高于 0.7),且抗真菌肽研究几乎空白。

针对这一挑战,山东大学药学院研究团队创新性地将潜在扩散模型(Latent Diffusion Model,LDM)与分子动力学模拟结合,开发出 AMP 设计新范式。实验显示,该方法生成的肽序列相似度低至 0.5686,其中 AMP-29 对耐药性白色念珠菌的抑制浓度(MIC)达 6.25 μM,体内疗效显著。

该研究以「Artificial intelligence using a latent diffusion model enables the generation of diverse and potent antimicrobial peptides」为题,发表于 2025 年 2 月 5 日的《Science Advances》。

图片

研究背景

抗菌肽通过破坏微生物细胞膜发挥杀菌作用,其多靶点机制可有效延缓耐药性产生。AI辅助设计虽能提升开发效率,现有方法却陷入两难:基于筛选的模型需遍历指数级化学空间,计算成本高昂;生成式模型虽能探索更大空间,但序列相似度居高不下,且大多数研究聚焦于抗菌肽,抗真菌肽设计研究相对较少。

究其根本,传统生成对抗网络(GAN)和变分自编码器(VAE)难以捕捉 AMPs 的复杂序列特征。扩散模型(Diffusion Model)虽在图像生成中表现卓越,但其直接应用于蛋白质序列设计时,存在维度灾难和特征解耦困难。

研究团队突破性地提出:通过潜在空间降维,将序列生成与物化属性解耦,并引入条件约束机制,实现 AMPs 的定向生成。这一技术路径为突破多样性瓶颈提供了全新可能。

模型架构与训练策略

研究团队构建了基于 Transformer 的双阶段架构,通过变分自编码器将可变长度肽序列映射至 128 维潜在空间。核心创新在于引入蛋白质语言模型 ESM2 650M 进行特征提取,使潜在变量能够编码高阶结构信息。

扩散阶段采用 BERT 编码器构建条件约束机制。在预训练 48 万条通用肽序列后,使用 1:10 的正负样本比例进行微调,使模型能区分 AMPs 与非 AMPs。

通过调节噪声缩放因子(Scaling Factor),模型在保持多样性的同时,将序列与训练集的相似度控制在 0.5686±0.0720,较其他现有方法显著降低

图片

图示:基于潜在扩散模型的 AMP 生成流程。(来源:论文)

筛选机制与实验验证

生成后的 60 万候选序列需经过严格筛选。第一级集成分类器(RNN-CNN-Transformer)以 91% 的准确率初筛潜在 AMPs;第二级通过 CD-HIT 聚类(阈值 0.6)提升多样性;第三级结合随机森林模型与粗粒度分子动力学模拟,预测肽-膜相互作用。

图片

图示:生成肽的理化性质与活性验证。(来源:论文)

关键突破在于分子动力学筛选体系:通过构建 3:1 POPC/POPG 膜模型,模拟 500 ns 内肽与膜的相互作用。结果显示,活性肽(如 AMP-24)能深入嵌入膜内并引发脂质重排,而非活性肽仅吸附于膜表面。

体内实验中,2% AMP-29 凝胶处理 24 小时可显著降低小鼠皮肤真菌载量;静脉注射 AMP-24(40 mg/kg)显著减轻肺纤维化,且心脏、肝脏未见毒性损伤。

值得注意的是,AMP-24 对革兰阴性菌表现出独特的作用机制:其通过形成螺旋结构平行插入膜内,引发环形孔洞效应,该机制经全原子分子动力学模拟验证。

图片

图示:AMP-24与 AMP-29 的机制与疗效。(来源:论文)

未来展望

本研究将潜在扩散模型应用于抗真菌肽设计,成功提高了序列多样性。通过融合语言模型特征编码与多物理场筛选,实现了「生成-验证」闭环。

然而,当前模型尚未整合二级结构等关键参数,导致部分候选肽存在溶血毒性。未来研究可引入强化学习,将毒性预测作为生成约束条件;同时拓展至其他类型的功能性肽设计。

论文链接:https://www.science.org/doi/10.1126/sciadv.adp7171

产业
相关数据
变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

推荐文章
暂无评论
暂无评论~