Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AlphaFold 3轻松应对核酸、脂类分子?科学家迫不及待地更新了评测

图片

编辑 | 萝卜皮

「如果这可以重现的话,这就是我们所知的世界末日!功能建模的新时代已经开始。」欧洲分子生物学实验室(EMBL)的科学家 Jan Kosinski 发推文表示。他在 AlphaFold 3 发布后,立刻用它做了一系列简单的测试,并把相关结果发在了 X 上。

图片

「我取出了一个结构未知的转录因子,将其折叠起来,将其识别序列嵌入更长的 DNA 中。AlphaFold 3 准确定位了转录因子。」Kosinski 解释道。

视频链接:https://mp.weixin.qq.com/s/-T-c603cFN5BCmPk5M1JFg

他使用的转录因子:https://jaspar2020.genereg.net/matrix/MA0027.2/

使用的 DNA 序列:CAGGATCCTAATTATGGATCCTGTGTATCTTCAGT

他用的模型是:https://oc.embl.de/index.php/s/SsDKcS06P1xewAV

他说:「一旦 AlphaFold 3 的开源副本可用并且运行良好,我们也许能够通过计算来预测所有转录因子的序列特异性。我认为那会很大,对吧?」

同时,严谨的 Kosinski 呼吁网友:「但如果有人检查我是否没有混淆,是否与其他转录因子一致,以及分数是否可以用于区分特定和非特定序列,我会很高兴。」

Kosinski 还做了其他实验。

视频链接:https://mp.weixin.qq.com/s/-T-c603cFN5BCmPk5M1JFg

「还有一个,也许没有训练偏差。应该特异性结合启动子区域 ATTTTAGTCGCGCCTAAAAT 并且它再次出现!左为晶体结构,右为 AlphaFold 3 模型。启动子为红色。」他发文解释道。

图片

「我们还不知道是否如此,但如果这种序列特异性推广到 CRISPR、锌指结构、TALEN、限制性核酸酶——可以为 AlphaFold 3 所有者带来多少收入?」他在推文里调侃道。

第二天 Kosinski 又用限制性内切酶做了相关测试。

图片

「它『不能』推广到我手中的限制性核酸酶。识别序列为青色,切割位点为红色。」他说,「但请注意:只有两个示例和长 DNA,有人可以尝试精确长度的序列并比较特定和非特定序列。」

图片

AlphaFold 3 无法正确预测限制性核酸酶 BamHI 的序列,尽管有 5 种结构可用,其中 4 种带有 DNA。」他发推文说,「左边是模型,右边是晶体结构。鉴于其中一些结构可能包含在训练和模板数据库中,这表明训练集中结构的存在并不能保证准确的预测。」 

BamHI:https://uniprot.org/uniprotkb/P23940/entry#struct

图片

洛桑联邦理工学院(EPFL)的 Martin Pacesa 评论道:「可能是因为来自 MSA 的噪音!如果有太多 RE 同源物识别非常不同的目标序列,它可能会迷失在共同进化噪声中。」

Kosinski 对 Pacesa 的观点表示肯定:「是的,你可能是对的,REases 在它们的 MSA 中通常很少有相似的序列……或者当我在硕士期间研究它们时,它们就这样做了。」

图片

「它『识别』了什么?」网友 Evgenii 问道。

「CAAGCTTG,它只是绑定了另一个回文序列(像回文序列这样的 REases,原始序列 GGATCC 也是一个回文序列)。」Kosinski 回复道,「我尝试对序列进行洗牌,但它仍然找到并绑定了另一个不完美的回文序列(GCACGC)。我想我们需要一个更好的『背景诱饵序列』」

「有趣的!AAGCTT 那是 HindIII。根据您迄今为止的经验,AlphaFold 3 如何处理较长的 dsDNA 片段?」维也纳大学 Max Perutz 实验室的 Pim Huis in 't Veld 发文评论说。

「之前那这个起作用的原因是它搜索任何回文序列,因为这是相似的二聚体所结合的吗?有时它是否会寻找与训练模型中类似的一维 DNA 模式(例如回文、不匹配)? 」法国 CNRS Orléans 的 Marcin J. Suskiewicz 发文评论道。

「也许会有一个合理的解释!」Kosinski 说道。

图片

帕拉茨基大学(Univerzita Palackého)的理论物理化学家、化学和生物信息学家 Karel Krápník Berka 则使用 AlphaFold 3 对膜上的脂质分子进行了研究。

图片

AlphaFold 3 还可用于预测膜位置。」他发文表示,「这是 CYP2E1 与油酸 (OLA) 的示例。这是与我 2013 年的 MD 膜模型和来自纳米圆盘的冷冻电镜进行对比。」

Kosinski 做了相关测试并跟帖道:「使用这种技巧在类脂膜双层内建模的候选新型大麻素受体,添加油酸(OLA)作为配体。」

视频链接:https://mp.weixin.qq.com/s/-T-c603cFN5BCmPk5M1JFg

后续成果,ScienceAI 还会持续跟进。

相关内容:https://twitter.com/jankosinski/status/1788532231939453015

理论帕拉茨基大学AlphaFold 3
相关数据
数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

推荐文章
暂无评论
暂无评论~