Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

图片

编辑丨toileter

在如今的 AI for Biology 社区里,当今的词汇是基础模型。每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。

虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。蛋白质语言模型将使他们能够识别更好的酶来降解塑料或具有更多类似药物特性的蛋白质结合剂。这些层位于越来越容易获得的基因组数据之上。由此带来的将会是光明的未来。

不过 FutureHouse 的联合创始人兼首席执行官 Sam Rodriques 认为,真正的生物学看起来有所不同。像是在NeurlPs (一个关于神经信息处理系统的会议)这样的 AI 生物学会议上,真正的生物学家并不多。他上个月在不列颠哥伦比亚省温哥华参加了该活动。

将这些推动生物发现的基础模型的梦想与《Nature》与《Science》的最新目录进行对比:

  • 一个长的非编码 eRNA 形成 R 环来塑造情绪体验诱导的行为适应——作者在小鼠中发现了一种 IncRNA,该 IncRNA 响应神经元活动而表达,该神经元活动调节染色质的 3D 结构,从而激活参与神经元可塑性的基因。作者进一步确定,这种 IncRNA 对于某些形式的学习是必不可少的。

论文链接:https://www.science.org/doi/10.1126/science.adp1562

  • 癌细胞损害单核细胞介导的 T 细胞刺激以逃避免疫——作者发现小鼠黑色素瘤细胞分泌一种脂质代谢物,阻止单核细胞激活 CD8+T细胞。

论文链接:https://www.nature.com/articles/s41586-024-08257-4

  • 钙调磷酸酶和 PKA 之间的突触后竞争调节哺乳动物的睡眠-觉醒周期——通过生成鼠敲除系,作者确定了对调节睡眠-觉醒周期至关重要的磷酸酶和激酶,并表明它作通过调节兴奋性突触后位点的蛋白质发挥作用。

论文链接:https://www.nature.com/articles/s41586-024-08132-2

Sam 坦言,他很难想象这些发现怎么会从多模态生物学基础模型中掉出来。这并不是一个稻草人的论点。当然,基础模型可能会从第一篇论文中识别出 IncRNA,但无法确定这样的基础模型如何将其与染色质重塑联系起来。

具有足够数据的多模式基础模型也有可能识别与接受某些类型治疗的黑色素瘤细胞相关的代谢变化,但 Sam 不明白该基础模型如何识别这些代谢物在防止 CD8+T 细胞活化方面的作用。事实上,他不认为今天正在开发的任何基础模型都能够产生这些论文中描述的那种丰富的新生物学见解。然而,这些见解正是新疗法的来源。

Sam 认为,问题在于机器学习模型在结构化数据上工作得非常好,因此所有正在构建的基础模型都是高度结构化的。以蛋白质序列作为输入,并产生蛋白质序列作为输出。将细胞状态和化学扰动作为输入,并产生新的细胞状态作为输出。

然而,生物学的结构很差。IncRNA 见解就是一个很好的例子:研究者可以使用什么结构化表示来表示 IncRNA 在调节染色质结构中的作用?蛋白质模型无法表示它,DNA 模型无法表示它,虚拟单元模型无法表示它。也许一个包含 RNA 表达和 3D 基因组状态的模型可以代表它,但是该模型将如何代表单核细胞的脂质调节呢?

Sam 担心每个发现都可能需要自己的表示空间。事实上,生物学的本质是这样的,如果没有整个有机体的原子分辨率真实空间模型,可能就没有足以表示与疾病相关的生物现象的多样性的表示。这样的全生物模型还很遥远--目前仍然没有一个计算机模型可以完全代表单个活细胞的复杂性。

当然,自然语言除外,它已经发展到代表人类能够思考的所有概念。事实上,Sam 认为自然语言最终是生物学中不可避免的发现,因为它是人类目前所知道的唯--种媒介,它的结构足以用于机器学习,并且足够灵活地表示生物概念的全部多样性。

将语言和生物学结合起来的一种方法是使用代理,就像在 FutureHouse 构建的代理一样。语言代理是语言模型--就像 ChatGPT 一样--可以使用文献搜索工具(例如 PubMed)、蛋白质结构预测工具(例如 AlphaFold)、DNA 分析工具(例如 BLAST)等以与人类相同的方式分析生物数据,但速度更快,规模更大。

FutureHouse 最近部署了代理 PaperQA2 来搜索文献,并为人类基因组中的几乎所有蛋白质编码基因撰写一篇准确且被引用的维基百科风格的文章。未来,语言代理将能够自动分析实验数据和临床报告,以提供详细的生物学假设,类似于上面的 Nature 和 Science 论文中的假设。

文章链接:https://wikicrow.ai/ZMYM3

还有其他方法可以将语言和生物学结合起来。将自然语言与蛋白质、DNA、转录组学等相结合的训练模型也将非常高效,前提是添加结构化数据类型不会限制它们表示非结构化概念的能力。

生物学的历史建立在人类于自然界中发现的用于研究生物现象的工具之上。CRISPR 是最近的一个有力例子。Sam 如此陈述道。

正如所有生物学家都知道的那样,试图从头开始设计事物(几乎)永远不会奏效,有效的方法是在自然界中寻找事物并重新利用它们。如果事实证明 FutureHouse 的工程不足以用于研究生物学,而古老的自然语言只是我们在自然界中发现的另一种工具,必须用于解开生物学的奥秘,那么它在美学上将是令人愉悦的。

理论模型AI for Science生物学
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~