Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI 驱动科学大爆发!从蛋白质到数学证明,2024 年最值得关注的科技突破

编辑 | ScienceAI

2024 年对于 AI for Science 而言,可谓硕果累累:两个诺贝尔奖再度聚焦人工智能与科学的先驱性结合。

其一是诺贝尔化学奖,颁发给了在蛋白质设计与蛋白质结构预测领域做出开创性贡献的 David Baker 博士、John Jumper 博士以及Demis Hassabis 博士;其二是诺贝尔物理学奖,授予了 John J. Hopfield 博士与 Geoffrey Hinton 博士,以表彰他们在人工神经网络及其机学习核心原理方面的奠基性工作。

诺奖颁奖典礼上的演讲视频亦已公开,与大众共同见证了 AI 与科学交融所开拓的全新时代。这些殊荣所代表的,不仅是对过去卓越成果的致敬,更是对未来诸多未知前沿的探索预告。

回顾整个 2024 年,AI for Science 领域在不同学科交织下展现出一系列引人瞩目的新趋势。以下将重点梳理其中几大主要主题。

一、神经网络的「缩放定律」(Neural Scaling Laws)

首当其冲的是「神经网络缩放定律」的兴起。这一概念旨在揭示:当模型规模、参数量以及计算量作不同程度的扩展或缩减时,神经网络性能如何随之变化。

缩放定律在大语言模型(LLM)的训练中尤其显著:2024 年里,不仅商业界(如 GPT-4o、Claude-3.5-Sonnet)纷纷推出更大参数量的新模型,开源社群也迎来了 Llama-3.1–140B 等超大参数版本。这些新模型在表现上均优于其前代产品,充分彰显了参数规模扩张所带来的性能飞跃。

在今年九月,OpenAI 推出了 GPT-o1-preview,再次为推理(inference)阶段的规模化注入新思路:他们在测试阶段提升了计算资源投入,令模型在攻克高难度数学题目等复杂任务上表现卓然。

虽尚未披露具体技术细节,Hugging Face 的团队已独立开发出类似方案,并在 MATH-500 基准测试中令小参数模型(如 1B 与 3B 规模的 Llama Instruct 模型)胜过更大型号(如 8B 与 70B 模型)。这印证了「测试阶段扩大资源投入」这一思路的潜能,也为业界带来更多启发。

令人惊喜的是,类似的缩放规律也在科学应用中出现。例如在蛋白折叠领域,名为 ESM Cambrian 的模型在 CASP15 竞赛上展现了「近似幂律」般的性能提升,其水平甚至超越了同期大多数模型,进一步佐证缩放定律在 AI 与科学交汇处的普适性。

二、原子级生物大分子结构预测

在结构生物学领域,AlphaFold3 的横空出世无疑是今年最耀眼的进展之一。新版不仅能预测蛋白质单体结构,更可精准模拟包含核苷酸、小分子以及离子在内的复杂体系,达到此前专用模型难以企及的准确度。

伴随着 AlphaFold 大家族不断攀升的影响力,相关数据库也在快速扩容:由伦敦大学学院(UCL)带头创建的「The Encyclopedia of Domains」(TED)即源于 AlphaFold 数据库(AFDB),通过分析海量蛋白质结构,TED 已发现逾万种此前未被记录的结构互作关系,并为蛋白折叠空间谱系图增添了数千种新折叠形式。这些发现再次表明,蛋白质结构世界仍有广阔未知等待我们发掘。

尽管 AlphaFold 对各类生物医学研究推动甚大,其在实际药物设计中的效用仍有争议。加州大学旧金山分校的一项研究表明:将实验测得的真实蛋白结构与AlphaFold 所预测的模型同时用于对接模拟时,两者虽拥有相近的「命中率」,但鉴定到的配体几乎无重叠之处。然而,这种差异或许意味着 AlphaFold 提供了另一种真实而未被充分利用的蛋白质构象,有望拓展基于结构的药物筛选边界。

在激烈的竞争氛围下,类似 Chai-1、NeuralPLexer3 及 Boltz-1 等新模型于今年九月至十一月间相继问世,并宣称具备媲美 AlphaFold3 的性能。它们能否在制药工业中掀起变革,尚需时间验证。这些后起之秀的出现,昭示着以原子级精准度为目标的生物分子结构预测方兴未艾,也为下一代计算机辅助药物设计奠定了坚实基础。

三、「非等变」神经架构(Non-equivariant Neural Architecture)

值得关注的是,AlphaFold3 在其网络设计中弃用了等变(equivariant)架构,这一做法在学界和工业界引起了广泛热议:神经网络在建模物理对称性时,究竟需不需要显式保留等变性?分歧不仅停留在结构生物学领域,也在分子模拟(molecular simulation)社区再次浮现。

一方面,近期刊登于《Nature》的大规模分子模拟工作,表明神经网络势能函数(NNIP)已能精确捕捉量子级相互作用,为化学、材料与生物物理等多领域带来前所未有的求解能力。

另一方面,「苦涩教训」(the 「bitter lesson」)在此领域再次得到印证:相比于依赖精心设计特征或严格物理对称性的模型,那些以大规模计算和数据为驱动的通用网络往往后劲更足。

加州大学伯克利分校的一项研究便显示,减少对物理对称性的显式嵌入后,架构在推理速度和准确度上均能胜过许多基于对称性的模型,再度呼应了在诸多 AI 应用中一再出现的规律:只要数据和算力足够,通用化网络也能自发学习出有效的表示。

这并不表示领域知识和对称性毫无价值,而是提示着一个更微妙的平衡:显式地嵌入物理先验,有时不如留给模型更多灵活度来「自学成才」。最近的研究显示,非等变模型若辅以充分的数据增广与算力投入,或可与等变模型之间的性能差距越拉越小。然而,研究还指出,在同等计算预算下,等变架构在诸多场景下仍然占据优势,且这一差距呈可预测的「缩放规律」。

更有趣的是,两类模型在寻求最佳算力分配(平衡准确度与推理效率)时会侧重不同的策略。随着对分子动力学在长期尺度上的模拟需求不断上升,如何在效率与可扩展性之间做出合理取舍,必将成为今后分子科学领域的重要议题。

四、大语言模型(Large Language Models)

过去一年,大语言模型凭借日渐增强的推理能力与交互形式,一直吸引着科研工作者的目光。其中最瞩目的当属其在数学领域的应用:DeepMind 的 AlphaProof 与 AlphaGeometry2 正是这方面的典型案例。

AlphaProof 结合了大语言模型AlphaZero强化学习框架,可攻克国际数学奥林匹克(IMO)中的代数与数论难题;升级版 AlphaGeometry2 在几何题上效率提高两个量级,IMO的解题成功率也从 53% 攀升至 83%。

二者合力更在 IMO 2024 上取得了相当于银牌的成绩(据官方博客所述),不仅彰显了 AI 在数学领域的潜力,也为未来「机器数学家」指明了新方向。

与之呼应,Meta 亦在数学领域发力:其新模型针对动力系统全局稳定性中的李雅普诺夫函数(Lyapunov functions)推导问题给出了解决思路。

该问题在控制理论与天体力学中举足轻重,而 Meta 的模型通过为多项式系统生成随机解,并利用序列到序列(sequence-to-sequence)Transformer 进行训练,最终在算法求解器和人类专家都望而生畏的领域取得了突破,并成功拓展到缺乏算法解的非多项式系统上。

在其他科学方向,大语言模型同样大放异彩。OpenAI 利用强化学习与微调技术,开发出专门用于罕见病基因发现的模型,展现了在稀缺数据场景中的出色适应力,隐含了大语言模型在基因组学与精准医疗方向的广阔前景。

另一个例子是 MOLLEO:该模型可甄别高活性分子,性能超越先前各类先进算法,这从侧面证明了大语言模型对化学知识拥有潜在记忆与表征能力,并能通过搜索与采样有效释放出来。

总体而言,大语言模型在科学领域的飞跃,已为生成假设、综合知识与破解复杂难题提供了全新引擎。

五、科学领域的「基础模型」(Scientific Foundation Models)

语言模型的发展异曲同工,科学领域也在逐渐形成「基础模型」(Foundation Models)之势:它们在生物、物理、化学乃至跨学科中均被视为下一代驱动创新的基石。

EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白——其中最具代表性的是一个全新绿色荧光蛋白,与任何已知天然蛋白均无直接同源性。

在细胞水平建模上,Virtual Cell Initiative 则着力打造面向细胞过程的 AI 基础模型(如 scGPT、UCE 等),通过高度细化的计算模拟,探寻疾病机理与细胞行为。

更进一步的,是 GenBio AI 团队提出的 AIDO(AI-Driven Digital Organism)——一个跨越分子、细胞、组织乃至器官层面的整体模型。AIDO 将多种尺度的生物学信息进行整合,朝着更完备的数字生物系统迈进,也为基础与转化研究提供了全新路径。

除了生命科学,在物理领域,PolymathicAI 陆续发布了多组数据集,致力于构建跨学科的物理动力学基础模型;在气候科学领域,Aurora 与 GenCast 等模型也不断推陈出新,为地球气候预测与研究注入新动能。

六、小分子药物研发

过去一年,小分子药物设计领域同样取得了诸多进展——尤其在「可合成性(synthesizability)」这一关键环节上,业界与学界都在加速弥合计算设计与实验落地的鸿沟。

为确保生成的小分子不仅功能优异,还能在实验室顺利合成,最新思路是「合成优先」:直接在搜索和设计阶段就优先考虑可行的合成路径。

斯坦福大学的 SyntheMol 便是这一思路的先行者:它采用蒙特卡洛树搜索算法(Monte Carlo Tree Search)于合成路径的广阔空间中「漫游」,最终发现可抑制革兰氏阴性菌 Acinetobacter baumannii 生长的分子先导化合物。在深度学习端,GFlowNet 等方法也在大规模的反应网络与分子库中探索合成友好的化学空间,展现出敏捷而高效的搜索能力。

不仅如此,「分子投影」(molecular 「projection」)技术也在近年崭露头角。ChemProjector 就是此领域的代表:它能够将一个可能在现实中难以合成的虚拟分子,投影到一个拥有相似核心特征、却更易合成的「可行」版本上。此举既可修正原本难以落地的候选分子,也能基于已知先导化合物的「邻域化合物」进行系统性拓展。

另一个范例是SynFormer:通过多模态生成的方式,它能够覆盖 Enamine REAL 库的绝大部分化学空间。更难得的是,SynFormer 提出了可「模块化」整合到任何非受限分子生成流程中的新方法,确保设计产物保持可合成性。在此基础上,研究人员进一步将 SynFormer 与传统的遗传算法结合,证明该管线不仅令生成分子保持可合成优势,甚至还能提升整体优化效率。

七、量子化学

在量子化学领域,Pfau 及其合作者在2024年带来的突破性进展,或许可谓「登峰造极」。

他们提出的自然激发态变分蒙特卡洛(NES-VMC)方法,利用神经网络的高灵活度,并通过巧妙的数学变换,将激发态计算归结为针对「扩展体系」的基态问题,从而在计算传统上最棘手的激发态时取得了惊艳的准确度。

该方法在从简单原子到苯分子等复杂体系中都能保持对化学精度的逼近,尤其在多重激发、低激发能级的体系(如对丁二烯的争议性激发态顺序)上也得到了令人信服的结果。

这项工作对于研究物质与光的相互作用意义重大,潜在应用更是无远弗届:从光催化、太阳能电池、发光二极管到量子点技术,都将因更精准的激发态预测而受益。NES-VMC 的出现,标志着人类在理解与模拟光物质相互作用领域又迈进一大步,为下一代能源与光电材料的设计提供了坚实的理论基石。

八、AI-for-Science 领域初创企业:生物医药与材料科学的崛起

2024 年对 AI-for-science 生态系统中的初创企业而言同样具有颠覆性意义,尤其在生物科技,以及方兴未艾的化学与材料科学领域。

在生物技术与制药方向,多家企业迎来了重大里程碑。晶泰科技XtalPi在港股功上市,市值高达25亿美元;Terray Therapeutics 和 Lambic Therapeutics 等公司也完成了可观的融资轮次,并在各自的药物管线中取得实质性进展。

最令人瞩目的是 Isomorphic Labs——这家源自 Google DeepMind 的衍生公司宣布与礼来(Eli Lilly)和诺华(Novartis)达成战略合作,光是预付款就高达 8250 万美元,总合同规模或可达到 30 亿美元(不含后续专利费),充分说明即便是久经沙场的巨头也对这些专精AI模型的商业价值给予了高度认可  。

与此同时,在化学与材料科学领域,新的初创企业也开始崭露头角。Orbital Materials 与 DP Technology 先后发布了旨在加速分子动力学模拟的预训练机器学习势能模型——Orb与DPA-2,兼具更高精准度与更快速度。

Radical AI、深度原理 Deep Principle、CuspAI 以及 Entalpic 等年轻公司也成功完成了种子轮融资,并纷纷提出了意图重塑化学与材料发现在内的雄心规划。虽然它们对行业的长期影响有待时间检验,但这一批初创企业的出现,标志着 AI 驱动创新在这些新兴领域中已然开启新的篇章。

当 2024 年缓缓落下帷幕,AI 与科学的深度交融已经在多个前沿领域里开花结果。诺奖的殊荣固然高光,但更加扣人心弦的,是那些仍未解的难题与方兴未艾的新思路。

无论是神经网络的「缩放定律」,还是非等变架构在物理对称性中的取舍,抑或是 LLM 在数学与精准医疗上的崭新尝试,以及新兴初创企业在生物医药与材料科学领域的群雄逐鹿,都生动诠释了 AI 正如何不断拓展科学发现的边界。

展望未来,我们有理由相信,这场从分子到宇宙的智能革命,尚在序章,而它所奏响的乐章,定将愈发雄浑。

本文章由 AI for Science 研讨会系列的多位组织者共同撰写:Sherry Lixue Cheng, Yuanqi Du, Chenru Duan, Tianfan Fu, Wenhao Gao, Kexin Huang, Ziming Liu, Di Luo and Shitong Luo(按字母顺序排列)

理论生物量子药物化学AI for Science
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
晶泰科技机构

XtalPI晶泰科技是一家药物固相研发商,通过计算物理、量子化学、人工智能、与云端智能算法,实现药物固相筛选与设计,为有数据分析和智能分析需求的用户提供创建数据分析模型、进行预测、产生分析报告及报告结果可视化等服务;用户可以定制需要的人工智能及统计模型,或者直接使用平台上其他用户分享的成熟模型。

http://www.jingtaikeji.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

控制理论技术

控制理论是工程学与数学的跨领域分支,主要处理在有输入信号的动力系统的行为。系统的外部输入称为“参考值”,系统中的一个或多个变数需随着参考值变化,控制器处理系统的输入,使系统输出得到预期的效果。 控制理论一般的目的是借由控制器的动作让系统稳定,也就是系统维持在设定值,而且不会在设定值附近晃动。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

动力系统技术

动态系统(dynamical system)是数学上的一个概念。动态系统是一种固定的规则,它描述一个给定空间(如某个物理系统的状态空间)中所有点随时间的变化情况。例如描述钟摆晃动、管道中水的流动,或者湖中每年春季鱼类的数量,凡此等等的数学模型都是动态系统。 在动态系统中有所谓状态的概念,状态是一组可以被确定下来的实数。状态的微小变动对应这组实数的微小变动。这组实数也是一种流形的几何空间坐标。动态系统的演化规则是一组函数的固定规则,它描述未来状态如何依赖于当前状态的。这种规则是确定性的,即对于给定的时间间隔内,从现在的状态只能演化出一个未来的状态。 若只是在一系列不连续的时间点考察系统的状态,则这个动态系统为离散动态系统;若时间连续,就得到一个连续动态系统。如果系统以一种连续可微的方式依赖于时间,我们就称它为一个光滑动态系统。

AlphaFold技术

DeepMind 提出的深度神经网络蛋白质形态预测方法。AlphaFold系统,是DeepMind在2017-2018年中一直在研究的项目,它建立在多年以前使用大量基因组数据来预测蛋白质结构的研究基础之上。 AlphaFold产生的蛋白质3D模型比以往任何一种都精确得多,在生物学的核心挑战之一上取得了重大进展。

序列到序列技术

遗传算法技术

遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择以及杂交等。 遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解可抽象表示为染色体,使种群向更好的解进化。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

暂无评论
暂无评论~