Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

可发现药物靶点,哈佛等机构开发了一种对蛋白建模的深度学习方法

编辑 | 萝卜皮

翻译延伸对于维持细胞蛋白质稳态至关重要,并且翻译景观的改变与一系列疾病相关。核糖体分析可以在基因组规模上详细测量翻译。然而,目前尚不清楚如何从这些数据中的技术产物中分离出生物变异,并识别翻译失调的序列决定因素。

在最新的研究中,中国科学院、哈佛大学(Harvard University)、斯坦福大学(Stanford University)、约翰霍普金斯大学(Johns Hopkins University)的研究团队开发了 Riboformer,一个基于深度学习的框架,用于对翻译动态中上下文相关的变化进行建模。

Riboformer 利用 Transformer 架构,能够以密码子分辨率准确预测核糖体密度。当在无偏数据集上进行训练时,Riboformer 会纠正以前未见过的数据集中的实验伪影,这揭示了同义密码子翻译中的细微差异,并揭示了翻译延伸的瓶颈。

研究人员表明 Riboformer 可以与计算机诱变相结合,以识别有助于核糖体在各种生物环境(包括衰老和病毒感染)中停滞的序列基序。

该研究以「Riboformer: a deep learning framework for predicting context-dependent translation dynamics」为题,于 2024 年 3 月 5 日发布在《Nature Communications》。


翻译动态分析的挑战性

核糖体以不同的速率沿着 mRNA 移动,这会影响蛋白质稳态和细胞功能。转录组的延伸率是由局部序列特征(例如 mRNA 二级结构、带电氨基酸簇和连续脯氨酸残基)与全局因素(例如细胞资源可用性和蛋白质质量控制)之间复杂的相互作用决定的。

这些错综复杂的问题会影响翻译效率、共翻译蛋白质折叠和共价修饰。细胞必须微调延伸率,以达到每个 mRNA 的适当蛋白质输出水平,满足调节和蛋白质折叠的需求。但是在理解翻译动力学方面,破译复杂疾病中翻译失调和蛋白质稳态崩溃的调控密码仍然具有挑战性。

核糖体分析的出现使科学家对 mRNA 翻译的理解取得了实质性进展。核糖体分析捕获并测序受核糖体保护免于核酸酶消化的 mRNA 片段,从而可以可靠地推断每个足迹中的核糖体解码位点,并产生有关每个基因的 mRNA 上核糖体分布的信息。

一般来说,密码子上的核糖体密度越大,解码速度就越慢。科学家发现非最佳密码子具有更高的核糖体密度,且解码速度更慢。科学家已经开发了几种计算方法,但人们很少致力于对翻译动态中上下文相关的变化进行建模。并且,现有的计算工具缺乏使用多个数据集(有偏与无偏)来模拟这些伪影引起的核糖体分布变化的能力。

其次,在复杂的生理状态下驱动翻译景观变化的潜在机制,在很大程度上仍然难以捉摸。即便以疾病为中心的研究通常采用病例与对照等设计原则,但目前的方法并未利用这些方法来揭示影响疾病进展中翻译延伸的序列特征。另外,当前模型的预测能力有限。训练后的模型不能用于改进现有实验的分析或预测新环境中的核糖体分布。

深度学习框架 Riboformer

为了应对这些挑战,中国科学院、哈佛大学、斯坦福大学、约翰霍普金斯大学的研究人员提出了 Riboformer,这是一种基于深度学习的框架,可以模拟密码子分辨率下核糖体动力学中上下文相关的变化。

该模型比较了两个数据集之间的核糖体分布,并提取驱动它们之间差异的序列特征。这种结构使经过训练的 Riboformer 模型能够从输入数据集中消除实验偏差,查询核糖体密度相对变化的序列决定因素,并根据单体谱预测核糖体碰撞(二体)位点。


图示:Riboformer 概述。(来源:论文)

该方法基于 Transformer 架构,可以有效地捕获翻译延伸调节中密码子之间的相互依赖性。研究人员使用各种原核和真核核糖体分析数据集对 Riboformer 的预测性能进行了基准测试。

测试结果证明,该神经网络结构在模拟实验方案对体内翻译景观的影响方面有效,并且经过训练的 Riboformer 模型可以纠正各种未见过的数据集中的伪影。这个过程揭示了同义密码子翻译中的细微差异,并揭示了翻译延伸中的潜在瓶颈。

与计算机诱变分析相结合,Riboformer 可以识别在各种生物环境(例如衰老和病毒感染)中导致核糖体停滞的肽基序,证明了其在不同研究领域的多功能性。


图示:Riboformer 捕捉翻译动态的上下文依赖性。(来源:论文)

Riboformer 可用于药物靶点

通过模拟序列突变对核糖体占用的影响,Riboformer 模型识别了负责核糖体碰撞的序列,提供了超越简单基序分析的见解。这种方法能够对核糖体暂停位点进行精细分类,揭示氨基酸电荷和 mRNA 结构对核糖体碰撞的影响,并确定富含脯氨酸的基序对年轻和老化酵母中核糖体停顿的影响。

此外,它还提供了对翻译动力学调控密码的深入了解,有助于发现新的治疗靶点。该团队应用 Riboformer 分析 SARS-CoV-2 感染人类细胞后的核糖体谱。


图示:SARS-CoV-2 规范开放阅读框 (ORF) 的核糖体谱分析。(来源:论文)

结果表明,脆性 X 智力迟钝蛋白 (Fragile X Mental Retardation Protein,FMRP) 的结合基序有助于感染后期核糖体占用率的增加。值得注意的是,FMRP 已被证明可以与多核糖体结合,该团队的结果表明脆性 X 综合征药物具有抑制 SARS-CoV-2 病毒繁殖的治疗潜力。

有趣的是,FMRP 对 ZIKA 病毒具有抗病毒活性。此外,一项新的研究表明,通过抑制 mGluR5 可减少 SARS-CoV-2 病毒载量,mGluR5 是通过 FMRP 发出信号的脆性 X 综合征的主要药物靶点。

Riboformer 的局限性

Riboformer 框架也存在局限性。首先,它依赖现有的数据集进行训练。随着平移景观无偏测量技术的发展,研究人员设想可以进一步训练新的 Riboformer 模型,以改进对有偏数据集的分析。其次,与许多现有方法一样,Riboformer 不考虑翻译起始和终止,这两者都会影响核糖体沿着转录本排队。该模型在下游分析中排除了基因编码区的前十个密码子。这可以在未来的工作中通过翻译起始率和延伸率的系统量化和建模来解决。第三,由于训练样本数量有限,Riboformer 不适用于处理核糖体移码等罕见事件。

结语

总而言之,Riboformer 是一种端到端工具,有助于核糖体分析数据集的标准化和解释,同时提供了一种对现有异质核糖体分析数据集进行综合分析的方法。比较多个物种的核糖体谱可以通过进化的视角研究核糖体停滞,为研究决定密码子选择和延伸效率的进化力量铺平道路。

此外,随着单细胞 Ribo-seq 和 RIBOmap 等单细胞测序方法的快速发展,Riboformer 等上下文感知模型将使以细胞状态和细胞类型特异性方式研究翻译动力学成为可能。当参考输入被屏蔽时,Riboformer 可以用作纯基于序列的模型,或者与 Scikit-ribo 和 choros 等其他计算方法结合使用,以更准确地估计核糖体分布。

同时,研究人员认为 Riboformer 架构可以广泛适用于对其他类型的高通量测序数据中的实验偏差和生物变异进行建模。

Riboformer 获取:https://github.com/lingxusb/Riboformer/

论文链接:https://www.nature.com/articles/s41467-024-46241-8

理论深度学习蛋白质
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~