Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现

图片

编辑 | ScienceAI

人们总是在寻找规律来解释宇宙,并预测未来。俗话说,「朝霞不出门,晚霞行千里」,人们常常用它来预测天气。

AI 非常擅长发现模式并进行预测。现在,微软研究人员正在尝试将「基础模型」应用于科学领域。

材料科学、气候科学、医疗保健和生命科学等科学学科有望通过 AI 取得进步。专家表示,针对这些学科量身定制的基础模型将加快科学发现的进程,使他们能够更快地创造出实用的东西,如药物、新材料或更准确的天气预报,同时也能更好地了解原子、人体或地球。

「AI 是你工具箱中可以为你提供支持的工具,」微软研究院 AI for Science 实验室的合伙人兼副主任 Bonnie Kruft 说。「我们的理念是,专注于科学特定的模型,而不是语言特定的模型。我们看到了这个绝佳的机会,可以超越传统的基于人类语言的大型模型,进入一个新的范式,利用数学和分子模拟创建一个更强大的模型,用于科学发现。」

图片

AI 的进步使得人们可以通过简单的对话提示来策划聚会或生成 PPT,或立即获得他们错过的会议的摘要。

现在,微软研究人员正在发现这些相同的 AI 架构和方法如何能够推动科学发现领域的进步。

传统上,科学发现涉及提出假设、进行测试、多次迭代以进行调整,直到找到解决方案或重新开始,这是一个淘汰无效方法的过程。相比之下,一些基础模型则颠倒了这一过程,它们不是消除而是构建。科学家可以向基础模型提供参数,例如他们想要的特性,而模型则可以预测,例如哪些分子组合可能有效。与其在稻草堆中寻找一根针,模型会直接建议如何制造针。

在某些情况下,这些基础模型也被设计为能够理解自然语言,这使得科学家们编写提示变得十分容易。例如,为了寻找一种新的材料,科学家们可能会指定他们想要一种稳定的分子(不会分解),不具有磁性,不导电,也不稀有或昂贵。

LLMs 是基于文本(单词)进行训练的,但微软研究人员一直在开发的旨在推进发现的基础模型主要基于科学语言进行训练,而不仅仅是科学教科书和研究报告,还包括从解决物理或化学方程式中产生的大量数据。

图片

基础模型的应用都很广泛,材料模型并不是试图发现一种材料,而是多种材料,大气模型不仅仅是预测降雨,还包括污染等其他现象。这种多面性是将 AI 模型定义为基础模型的关键。目标是最终将多个模型融合在一起,从而创建更广泛的模型,因为在其他领域,更广泛、更多样化的模型比更狭窄的模型表现更好。

用于新材料发现的 MatterGen

发现新材料似乎是一个狭窄的领域,但事实上,它是研发的一大重点,因为材料种类繁多——合金、陶瓷、聚合物、复合材料、半导体,而且原子可能组合成新分子的数量达数十亿。新材料对于减少碳排放的影响以及找到危害环境或健康的材料的安全替代品至关重要。

微软研究院的 MatterGen 基础模型「实际上可以直接生成满足你的设计条件的材料」,英国剑桥微软研究院首席研究员 Tian Xie 说。科学家不仅可以告诉 MatterGen 他们想要创造的材料类型,还可以规定机械、电气、磁性和其他特性。

「它为材料科学家提供了一种方法,让他们可以针对他们想要设计的材料类型提出更好的假设。」Tian Xie 说。

图片

图示:使用 MatterGen 进行无机材料设计。

论文链接:https://arxiv.org/abs/2312.03687

Tian Xie 说,这比过去的方法更先进,因为 AI 在生成材料方面的效率比筛选数百万种潜在组合以找到符合科学家标准的组合高出三到五个数量级。MatterGen 从科学家的标准开始构建解决方案,而不是从每一种可能性开始,一遍又一遍地筛选,直到剩下少数符合科学家标准的潜在组合。Tian Xie 说,这比在实验室里通过反复试验创造新材料要高效得多,也更经济,尽管合成新材料候选物的实验室工作是必要的。

MatterGen 是一种扩散模型,是一种已用于图像创建工具的 AI 架构。MatterGen 不是生成图片,而是生成新材料的分子。数十年甚至数百年实验积累的所有数据都太少,不足以训练基础模型。但由于物理和化学等科学领域遵循完善的数学方程,因此多次计算这些方程会产生必要数量的高质量训练数据。该团队使用一种称为密度泛函理论的量子力学公式在高性能计算上运行,为 MatterGen 创建了训练数据,生成了大约 600,000 个结构。

微软的 MatterGen 研究团队正在与合作伙伴合作,验证其生成的一些材料。未来的领域包括回收聚合物的方法,以及创建可用于碳捕获的金属有机框架。「到目前为止,我们专注于无机材料,但在未来,我们希望将其扩展到更复杂的材料。」Tian Xie 说。

MatterSim 用于预测新材料将如何发挥作用

即使借助人工智能,创造新材料也不是一个简单的过程。MatterSim 是 MatterGen 的配套产品,可以模拟或预测新材料分子的行为方式。如果结果不是科学家想要的,他们可以使用 MatterGen 进行迭代循环,像调整 Microsoft Copilot 提示一样调整输入,直到结果满足科学家的要求。然而,与 MatterGen 不同的是,MatterSim 不是生成性 AI,而是一个确定分子在不同温度和压力下如何表现的模拟器。

图片

图示:MatterSim 是一种深度学习原子模型,用于预测材料在化学元素、温度和压力方面的特性,具有很高的预测精度,具有广泛的适用性和功能性。

论文链接:https://arxiv.org/abs/2405.04967

MatterSim 使用 Graphormer 架构,该架构基于 Transformer 的基本思想 - 类似于 LLM,它将单词或句子分解以学习预测句子中的下一个单词 - 但由微软研究院针对材料的行为和属性而创建。

「它经过训练,可以掌握原子的语言。」上海微软人工智能研究院首席研究员陆子恒说,「预测材料的行为对化学家来说至关重要。更重要的是,模型掌握原子的语言——从整个元素周期表中学习。分子在嵌入空间中是什么样子的?如何将分子结构转换成机器可以理解的向量?这是 MatterSim 除了预测材料特性的能力之外最重要的事情。」

该模型采用主动学习,类似于学生备考的方式。当模型获得新的数据时,它会判断是否不确定。如果不确定,这些数据就会进入模拟,重新训练模型,就像学生学习他们还不了解的科目部分,而不是他们已经学过的部分一样。

关于分子行为的数据非常少,因此该团队使用量子力学计算来创建合成数据,类似于 MatterGen 的示例。

该结果比任何以前的模型都准确十倍,「因为我们能够生成涵盖前所未有的材料空间的数据。」陆子恒说,「这使得模型非常准确。」

目前,MatterSim 专注于无机材料,但以后可能会添加其他种类的材料。「MatterSim 是一个特定领域的基础模型。AI for Science 的研究人员正在朝着一个统一的大型基础模型迈进,该模型能够理解整个科学语言,如分子、生物分子、DNA、材料、蛋白质——所有这些以后都可能统一,但对于 MatterSim 来说,目前我们统一的是整个元素周期表。」陆子恒说。

Aurora 用于大气预报

计算机长期以来对于天气预报一直发挥着至关重要的作用,它通过计算物理或流体动力学方程中的数字来模拟大气系统。

「现在,人工智能和基础模型带来了完全不同的新机遇,」微软阿姆斯特丹研究院人工智能首席研究员 Paris Perdikaris 表示,「让我们走出去观察世界,收集尽可能多的数据。然后,让我们训练一个可以处理这些数据、从这些数据中提取模式并预测天气等的人工智能系统。」

图片

图示:可用于高分辨率预报天气和大气过程的基础模型 Aurora。

论文链接:https://arxiv.org/abs/2405.13063

人工智能的一大优势在于,一旦训练完成,就不需要很大的计算能力。

Perdikaris 说,目前,使用全天候运行的超级计算机生成 10 天的天气预报大约需要两个小时。

图片

图示:右侧地球仪显示的是 Aurora 的天气预报,而左侧地球仪显示的是实际测量的天气状况。

Aurora 是微软的大气科学基础模型,它使用配备 GPU 的普通台式计算机,在几秒钟内就能完成这项工作。「人工智能方法带来的主要不同在于计算效率和降低获取这些预测的成本。」他说。

Aurora 的准确性也得到了提高,因为它不仅使用基于物理的模型数据,还使用来自卫星、气象站和其他来源的真实数据,「这些数据更真实地反映了现实情况。」他说,「由于可以接触到所有这些不同的信息源,Aurora 有机会将它们融合在一起,并产生比我们现有的传统模拟工具更准确的预测。」

Aurora 是一个视觉 Transformer,它基于 1.2 PB 的数据进行训练,这大约是互联网上所有文本内容体量的十倍。「这仍然是描述地球系统的一小部分数据。」Perdikaris 说。

三个典型的天气问题——未来十分钟这里会下雨吗?未来十天全球各地的天气会如何?未来几个月甚至几年的天气变化会如何?到目前为止,都是由不同的预测模型处理的。Aurora 及其未来的扩展将能够使用同一模型回答所有这些问题。

Aurora 是基于天气数据进行训练的,但通过利用大气化学数据进行微调,该模型也可以预测大气污染情况。

「我们最初的假设之一是,我们可以利用模型从天气中学到的知识,并尝试将其应用于受不同物理现象(如大气化学)控制的新任务,然后看看效果如何。」Perdikaris 说,「令我们惊讶的是,它确实有效,并给出了一些非常有希望的初步结果。」

人工智能对污染预测的好处更加明显,要知道,目前污染预测的成本比天气预测高十倍。

让科学发现更加容易

陆子恒指出,这些模型可以让科学对学生更有吸引力。当他攻读学位时,他必须写出方程式,「但现在有了这些模拟,我们实际上可以使用计算机或笔记本电脑进行统计。你可以在屏幕上实时看到反应、分子和材料的行为。它让你非常清楚地了解实际发生的情况,而不仅仅是看纸上的方程式。」

基础模型有潜力改变日常生活并革新行业。通过加速科学发现,它们不仅有望推动医学和材料等领域的快速进步,而且还能为原子、分子和蛋白质等复杂系统提供更深入的见解,Kruft 说,这反过来又为各个行业开辟了巨大的商业可能性。

相关内容:https://news.microsoft.com/source/features/ai/from-forecasting-storms-to-designing-molecules-how-new-ai-foundation-models-can-speed-up-scientific-discovery/

理论AI for Science预测人工智能
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

量子力学技术

量子力学(Quantum Mechanics),为物理学理论,是研究物质世界微观粒子运动规律的物理学分支,主要研究原子、分子、凝聚态物质,以及原子核和基本粒子的结构、性质的基础理论。

推荐文章
暂无评论
暂无评论~