2024/07/19 16:09

ML如何推动结构生物学的发展？哈佛科学家用AI在最小尺度上研究人类发育

编辑 | 白菜叶

对于结构生物学家 Lucas Farnung 来说，没有比单个受精卵如何发育成一个功能齐全的人类更令人着迷的问题了。他正努力在最小尺度上研究这一过程：数万亿个原子必须同步工作才能实现这一过程。

「我看不出解决 5,000 块拼图和我们在实验室进行的研究有什么大区别。」哈佛医学院布拉瓦尼克研究所（Blavatnik Institute at Harvard Medical School）细胞生物学助理教授 Farnung 说，「我们试图从视觉上弄清楚这个过程是什么样子，然后我们就可以形成关于它如何运作的想法。」

人体中的几乎所有细胞都含有相同的遗传物质，但是这些细胞在发育过程中会变成什么组织类型（例如，变成肝脏还是皮肤）很大程度上是由基因表达决定的，基因表达决定了哪些基因被开启和关闭。

基因表达受转录过程调控，而转录正是 Farnung 研究的重点。在转录过程中，分子机器读取 DNA 内存储的遗传蓝图中包含的指令，并生成执行指令的分子 RNA。其他分子机器读取 RNA 并利用这些信息制造为身体几乎所有活动提供能量的蛋白质。

Farnung 研究负责转录的分子机器的结构和功能。

在接受媒体采访时，Farnung 讨论了他的工作以及机器学习如何加速该领域的研究。

Q：你的研究试图回答的核心问题是什么？

Farnung：我总是说，我们感兴趣的是最小的逻辑问题。人类基因组几乎存在于每个细胞中，如果你把组成基因组的 DNA 拉长，它的长度大约是两米，也就是六英尺半。但这种两米长的分子必须塞进细胞核里，而细胞核只有几微米大小。

这就相当于把一条从波士顿延伸到康涅狄格州纽黑文（约 150 英里）的鱼线塞进一个足球里。

为了实现这一点，我们的细胞将 DNA 压缩成一种称为染色质的结构，但分子机器却无法再访问 DNA 上的基因组信息。

这就产生了冲突，因为 DNA 需要足够紧凑才能容纳在细胞核内，但分子机器必须能够访问 DNA 上的基因组信息。

我们特别感兴趣的是观察 RNA 聚合酶 II 这种分子机器如何获取基因组信息并将 DNA 转录为 RNA 的过程。

Q：你们团队使用什么技术来可视化分子机器？

Farnung：我们的一般方法是从细胞中分离出分子机器，然后使用特定类型的显微镜或 X 射线束对其进行观察。

为此，我们将编码感兴趣的人类分子机器的遗传物质引入昆虫或细菌细胞中，这样细胞就会大量制造这种机器。

然后，我们使用纯化技术将机器从细胞中分离出来，以便我们能够单独研究它。

然而，这很复杂，因为我们通常不只是对单个分子机器感兴趣，我们也将其称为蛋白质。

有数千种蛋白质相互作用来调节转录，因此我们必须重复这个过程数千次才能了解这些蛋白质-蛋白质相互作用。

Q：人工智能开始渗透到基础生物学的方方面面。它是否改变了你进行结构生物学研究的方式？

Farnung：在过去的三四十年里，我所在领域的研究一直是一个繁琐的过程。一个博士生的科研生涯可能只专注于研究一两种蛋白质，而要了解蛋白质在细胞中的相互作用，则所需的工作量是数千名学生都未必能完成的。

然而，在过去的两三年里，我们越来越多地寻求通过计算方法来预测蛋白质相互作用。谷歌 DeepMind 发布了可以预测蛋白质折叠的机器学习模型 AlphaFold，这是一个重大突破。重要的是，蛋白质的折叠方式决定了它们的功能和相互作用。

我们现在正在使用人工智能来预测数以万计的蛋白质-蛋白质相互作用，其中许多相互作用以前从未被实验描述过。实际上，并非所有这些相互作用都发生在细胞内部，但我们可以通过实验室实验来验证它们。

这非常令人兴奋，因为它确实加速了我们的科学研究。当我回顾我的博士学位时，前三年基本上是失败的——我没能发现任何蛋白质之间的相互作用。

现在，有了这些计算预测，我实验室的博士生或博士后可以非常有信心，实验室验证蛋白质-蛋白质相互作用的实验将会成功。我称之为分子生物学的强化版——但合法——因为我们现在可以更快地找到我们想要回答的实际问题。

Q：除了效率和速度之外，人工智能还在哪些方面重塑你的领域？

Farnung：一个令人兴奋的变化是，我们现在可以以无偏见的方式测试人体中的任何蛋白质与任何其他蛋白质，看看它们是否有可能相互作用。我们领域中的机器学习工具正在造成类似于个人电脑对社会造成的破坏。

当我刚成为研究员时，人们正在使用 X 射线晶体学来揭示单个蛋白质的结构——这是一项美妙的高分辨率技术，但可能需要很多年的时间。后来，在我攻读博士和博士后期间，低温电子显微镜（简称低温电子显微镜）应运而生。这项技术让我们能够以高分辨率观察更大、更动态的蛋白质复合物。

过去 10 年，低温电子显微镜让我们对生物学的理解取得了很大进展，并加快了药物开发。

我以为自己很幸运能参与到低温电子显微镜带来的所谓分辨率革命中。但现在，感觉蛋白质预测的机器学习正在带来第二次革命，这对我来说真是太神奇了，让我想知道我们还会看到多少加速。

据我估计，我们现在的研究速度可能比 10 年前快 5 到 10 倍。看看机器学习如何改变我们在未来 10 年进行生物研究的方式将会很有趣。

当然，我们必须小心谨慎地管理这些工具，但我很高兴能够以 10 倍的速度找到我思考已久的问题的答案。

Q：除了实验室之外，你的工作还有哪些下游应用？

Farnung：我们正在从基础层面了解人体内的生物学工作原理，但我们始终坚信，了解基本的生物学机制可以帮助我们开发出针对各种疾病的有效治疗方法。例如，事实证明分子机器对 DNA 染色质结构的破坏是许多癌症的主要驱动因素之一。一旦我们弄清楚了这些分子机器的结构，我们就能了解改变几个原子来复制导致癌症的突变的效果，此时我们就可以开始设计针对蛋白质的药物。

我们刚刚与 HMS 治疗计划合作启动了一个项目，该项目正在研究染色质重塑剂，这是一种在前列腺癌中发生严重突变的蛋白质。我们最近获得了这种蛋白质的结构，并正在进行虚拟筛选，以查看哪些化合物可以与其结合。

我们希望能够设计出一种抑制这种蛋白质的化合物，并有可能开发成一种可以减缓前列腺癌进展的成熟药物。我们也在研究与自闭症等神经发育障碍有关的蛋白质。机器学习可以在这方面为我们提供帮助，因为我们用来预测蛋白质结构和蛋白质间相互作用的工具也可以预测小分子化合物如何与蛋白质结合。

Q：说到合作，跨研究领域和学科的工作对您的研究有何重要性？

Farnung：合作对我的研究来说非常重要。生物学领域已经变得非常复杂，有如此多不同的研究领域，以至于不可能了解一切。通过合作，我们可以让具有不同专业知识的人聚在一起研究重要的生物学问题，例如分子机器如何访问人类基因组。

我们与哈佛医学院的其他研究人员在多个不同层面展开合作。有时，我们会利用结构专业知识来支持其他实验室的工作。有时，我们已经解决了某种蛋白质的结构，但我们需要合作来了解该蛋白质在更广泛的细胞环境中的作用。我们还与使用其他分子生物学方法的实验室合作。合作对于推动进步和更好地理解生物学至关重要。

相关内容：https://hms.harvard.edu/news/how-machine-learning-propelling-structural-biology

产业AI癌细胞逻辑机器学习结构生物学

相关数据

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统，是DeepMind在2017-2018年中一直在研究的项目，它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多，在生物学的核心挑战之一上取得了重大进展。

来源：机器之心 DeepMind博客