Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

详解百图生科 AIGP 平台:拥有对生命科学多维度的理解,提供多种蛋白质生成能力

编辑 | 萝卜皮

近期,ChatGPT 的出现,使 AI 大模型火出了「圈」,向学界证明了 AI 大模型在自然语言处理领域的有效性,也引起了社会各界的关注。ChatGPT 在自然语言领域的成功范式能否在生命科学领域复现呢?

BioMap 百图生科,两年来一直致力于打造生命科学领域的 AI 大模型,已经构建了千亿参数的跨模态大模型体系「xTrimo」 (The Cross-Modal Transformer Representation of Interactome and Multi-Omics)。

2023 年 3 月 23 日,百图生科在北京发布生命科学大模型驱动的 AIGP —— AI Generated Protein 平台。

什么是 AIGP 平台,它有哪些功能?

AIGP 可以对各种各样生命问题进行理解,有针对性地生成蛋白质或者对生成式的方式设计蛋白质。AIGP 主要有三大类功能,F2P—Function to Protein(可以生成形状、结构、功能、理化性质等一系列的满足用户需求的蛋白)、P2P—Protein to Protein(根据给定蛋白,生成对应的可互作蛋白)、C2P—Cell to Protein(根据给定细胞的组学数据,发现调控细胞功能的靶点蛋白,同时设计相应的调控蛋白)。

图:AIGP 3大功能模块+12项核心能力示意图

F2P—Function to Protein

Function to Protein 即在实际使用过程中,给模型输入某种功能设定,比如形成特定的结构,拥有特定催化功能,形成特定的调控功能,以及可表达性、产量、热稳定性等等。根据这样输入的 Function 需求,AI 模型可以设计出一些符合条件的蛋白。基于新功能、新结构、蛋白优化、新酶设计等多能力,可以为合成生物学、酶工程、医美保健等领域提供更多探索可能。

P2P—Protein to Protein

Protein to Protein 是根据一个蛋白质靶点,生成对应的和靶点结合的蛋白。这时可以将结合蛋白的序列或者结构、特定的结合表位作为输入;根据这些输入限定,AI 模型可以设计出高亲和力、高精准表位、高差异化选择,并且序列层面上差异度高的蛋白质。这种能力可以帮助研究人员设计一些大分子药物,包括单抗类、TCR等等。未来,甚至可以设计出一些自然界没有的全新大分子形态。

C2P—Cell to Protein

Cell to Protein,输入特定细胞的组学数据(这里组学数据可以理解为某个患者的疾病信息),基于这些数据,AI 大模型能够识别它是哪一类细胞,处于怎样的激活状态,并识别出相关的调控通路和调控靶点。之后再结合 P2P 的功能,设计与靶点对应的调控蛋白。比如,可以输入病人相关的多组学数据,AIGP 平台能够分析病人的多组学数据,找到这个病人相关疾病对应的靶点,根据靶点生成一个抗体以及一系列多样性的蛋白,之后将蛋白在实验室里面合成,从而开发出特效药。因此,这个功能可以进行精准的细胞分类、细胞调控靶点预测、组织特异性靶点预测和药物组合效应预测。

AIGP平台为什么能回答生命科学问题?

人类的自然语言,一般是以几个基础的字母或者单个的字为基础,经过组合形成词语、句子、段落、篇章……可以与人类灵活对话的 ChatGPT,是通过大量的自然语言语料作预训练,之后通过监督学习、强化学习等方式训练出来的。

将生物信息同自然语言做对比,生命科学里最重要的语言是基因序列。与基因相对应的则是可以被表达的蛋白质序列。蛋白质由 20 种氨基酸组成,氨基酸序列就像句子一样;氨基酸链可以折叠成三维结构的蛋白质;蛋白之间也可以发生作用;然后产生复杂的蛋白质相互作用网络,形成细胞功能;细胞之间也会相互作用,形成组织器官……所以,从这个角度上看,这些生物信息的结构与自然语言词、句、段落的嵌套结构是类似的。

AIGP 能够理解生命科学的问题,有针对地生成对应的蛋白,是因为它对多层次嵌套体系有非常好的理解。百图生科团队所建立的 xTrimo 大模型体系是与生物信息的多层嵌套体系一一对应的。

跨模态预训练模型

生命体的数据包括分子层面、细胞层面、组织细胞间的通讯……它们所构成的网络是多维度的极其复杂的。这里需要有一个对应模态的预训练模型,用跨模态之间相互协同去做预训练,才能产生跨模态互相理解的能力。因此,xTrimo 大模型体系有四层嵌套形式:蛋白质数据的预训练模型,蛋白质相互作用的预训练模型,细胞体系的预训练模型,针对蛋白质设计关键参数的预测模型。

图:xTrimo的嵌套结构示意

为了使模型充分吸收生物数据,该团队做了许多模型层面的创新、架构调整,用了一些新的注意力机制,除了 transformer 还有各种技术手段,甚至加入了图像处理的能力。另外训练时,研究人员还用了大量知识增强,知识蒸馏,让序列变得更好。除了预训练模型之外,还需要一些额外信号才能够使大模型体系针对某个对应的任务作更好的预测;这需要非常多的数据并行、模型并行、流水性并行的技术手段。

闭环

在 AI 生成蛋白质方面,不能仅仅吸收大量非监督的数据,就期望 AIGP 平台能够生成所希望的蛋白质。还需要经过专家的信息的输入,实验室数据的输入才能把大规模的 AI 生命科学模型调整到一个生成有用的蛋白的程度。

所以除了大规模的预训练模型之外,百图生科还拥有高通量的湿实验室,对 AI 生成的蛋白质进行结构、理化性质的检测;得到相关数据之后,再次反馈给 AI 大模型。这就形成了一个由大模型体系、高通量验证、大数据平台三部分构成的闭环。可以使大模型得到更好的优化,同时更加有针对性地生成蛋白质。

图:xTrimo 大模型闭环体系

AIGP平台的实力究竟如何

AIGP 平台能够设计全新的蛋白质,设计针对重要靶点的蛋白质药物,可以理解生命科学的问题,根据疾病病人的数据去找到靶点。预测蛋白质结构方面,它的速度比 Alphafold 快 100 多倍。AIGP 平台上的预测模型在预测生成蛋白、靶点蛋白之间相互结合的位点和三维结构方面,比现在的模型准很多。例如,预测抗体和蛋白之间结合三维结构时,AIGP平台的准确度比 Alphafold2 高 3 倍以上。除此之外,该平台还可以进行蛋白质亲和力预测,对单细胞数据的表征进行理解等等。

图:百图生科 CTO 宋乐

百图生科 CTO 宋乐博士说:「因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴。」

百图生科 CEO 刘维在发布活动中表示,虽然百图生科的 AI 大模型和与之配套的大规模数据图谱、高通量验证体系都远不完美,但已经凝结了很多前沿技术的创新和探索。接下来,从开始展露一些能力到提高它的泛化能力和速度,需要专业伙伴的合作的加入,而且,合作伙伴也将得益这一系列尝试,实现前沿项目的加速研发。

产业
暂无评论
暂无评论~