Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

DARWIN 1.5 来啦!材料设计通用大语言模型,刷新多项实验性质预测记录

图片

编辑丨Science AI

材料发现和设计的核心目标是寻找理想的成分和结构,但传统方法,如高通量模拟和机器学习,通常依赖于复杂描述符,过于固定且难以通用,并且无法准确反映真实材料特性,因而限制了实际应用。

GreenDynamic 与来自澳大利亚新南威尔士大学(UNSW),上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。

图片

不同于传统机器学习方法,DARWIN 基于语言接口微调框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 万科学问答和 22 个材料科学任务,为材料属性预测和发现提供了灵活统一的预训练模型,并且成功精准预测了上万种材料的性质数值。

相比基础 LLaMA-7B 和 GPT-4,DARWIN 1.5 最高提升了 60%,并在超过半数材料属性预测任务(如带隙和屈服强度预测)中,优于传统机器学习方法。在 MatBench bandgap 实验性质预测等多个任务中击败了所有机器学习模型,创造了新的最高记录(SOTA)。

图片

图示:DARWIN 登顶劳伦斯伯克利国家实验室 MatBench 材料带隙实验性质的预测的最高记录。


两阶段训练策略


在该研究中,团队设计了一个两阶段训练策略,即 QA(question-answering)微调和多任务学习,以赋予 DARWIN 熟练执行这些任务的能力。


  1. 第一阶段的 QA 数据集来自高引用的科学文献,这不仅有助于将关键的“专业”知识(know-how knowledge)注入 LLM,而且可以更好地模拟人类化学家或材料科学家执行任务的范式——通过分析和解释文献,而不是完全依赖复杂的计算模拟,例如涉及 CIF 文件的运算。与为每个任务微调单独的 LLM 不同,
  2. 第二阶段采用多任务学习机制,同时执行不同的任务,其中包括 5 个分类和 17 个回归任务。这些任务与分子和材料的共同属性密切相关,涉及不同的系统。这种机制能够有效利用任务间的协同作用,缓解数据分布不平衡,有效实现基础表征的共享学习和跨任务的知识转移。

该策略不仅共享底层表示,还有效缓解了数据分布不均的问题。研究表明,这种训练方法显著提升了模型在实验和理论数据中的性能,使其适用于广泛的材料设计任务。

使用SciQAG-24D数据集和多任务学习策略

目前,机器学习在材料和化学领域的应用通常依赖复杂的专用描述符作为输入。这些描述符虽有效,但设计难度高、任务间的通用性有限,并且理论描述符与实验数据可能存在差异。

相比之下,该团队提出的方法以自然语言作为统一输入格式,不仅简化了任务整合,还能无缝引入「专业信息」,增强其在实验场景中的适用性。

图片

图 1:DARWIN 模型示意图。

为提升 LLM 的性能,研究人员使用 SciQAG-24D 数据集进行训练。该数据集包含从科学论文中提取的 33000 个开放式问答对,保留了科学文本中的核心知识,降低了单纯依赖 LLM 生成内容时的崩溃风险。

研究还引入了多任务学习(MTL),从 21 个数据集中提取了 5 个分类任务和 17 个回归任务,涵盖无机物到复合物的多种材料系统,描述其物理、化学和电化学属性。这些数据集包括多种材料表示形式(如成分、材料名称、SMILES符号和结构图案)。研究人员将原始数据转化为自然语言指令格式,例如『给定成分的带隙是多少?输入「CdCu2SnS4」,输出「1.37」』。

QA 微调和多任务学习显著提升模型性能

为优化 DARWIN 大模型在材料科学任务中的表现,研究人员设计并评估了四种微调策略,旨在找到最优的训练方法。这些策略基于 LLaMA 系列模型进行实验,以探索 DARWIN 的最佳微调方式:

  1. 单任务(Base-ST):针对每个任务独立微调模型,评估单任务适应能力并建立基准。
  2. 多任务(Base-MT):将 22 个任务的数据混合微调一个模型以执行所有任务。
  3. QA单任务(QA-ST, 2-stage):先在 QA 数据(Base-QA)上微调,再针对每个任务进一步微调。
  4. QA多任务(QA-MT, 2-stage):在 QA 微调后的模型(Base-QA)上用 22 个任务数据混合微调。

结果:

  1. 在分类任务中:QA微调平均提升 1.55%,多任务微调提升 2.65%,两阶段微调(QA-MT)平均提升 3.38%。特定任务中,分类任务C1在Base-MT中提升了 6%-8%,而在 QA-ST 中的提升较小,仅约 1%。

在回归任务中,QA 微调的平均提升为 2.3%,多任务微调的平均提升为 10.77%,两阶段(2-stage)微调的表现最佳,提升达 11.79%。

图片

图 2:不同微调策略对任务性能的影响对比。

图 2 中,以 Base-ST 为基准,柱状图显示了不同模型在特定任务上的差异。虚线表示平均改进。

图 2 表明,不同微调策略能够有效注入「专业」知识并利用任务间协同效应,从而显著提升性能,但各任务与微调策略的兼容性存在差异,表现在某些任务更适合特定策略。

图片

图 3:模型性能与 QA-MT 在各项任务中的比较。

图3比较了 QA-MT 在各任务中的性能,结果显示其在大多数任务上优于传统机器学习基准方法和 GPT 系列微调模型。尤其是在处理材料科学应用时,QA-MT 始终优于GPT-3.5,GPT-4 等模型,表明其在灵活性和实现难度方面具有显著优势。

总体来看,这些结果证实了 QA 微调和多任务学习策略的有效性,当两者结合时,能够进一步提升模型性能。在后续部分中,将详细分析两阶段微调中驱动性能提升的关键因素。

预训练为 DARWIN 模型奠定基础

为优化 DARWIN 模型在材料科学任务中的应用,研究人员通过对比未训练与预训练模型,评估预训练阶段的通用语言能力对后续 QA 微调和多任务微调的影响。

方法

  1. 模型对比:研究人员对未训练的 LLaMA-7B 模型(随机初始化参数)和预训练模型进行了对照实验。
  2. 微调策略:分别对两种模型进行单任务微调(Random-ST/Base-ST)和多任务微调(Random-MT/Base-MT)。

结果

  1. 预训练的重要性

    1. 在单任务微调中,预训练模型(Base-ST)显著优于未训练模型(Random-ST),分类任务平均提升 11.04%,回归任务提升 33.57%。
    2. 多任务微调对未训练模型的性能提升更为显著,在回归任务中最高提升 24.08%。
  2. 任务类别的影响

    1. 预训练模型对“通用任务”(如材料名称、成分)的提升几乎是“专业任务”(如 SMILES、MOFs)的两倍。
    2. 未训练模型在多任务微调后,通用任务的表现提升更为明显。

结合效果:当预训练和多任务微调结合时,这种类别差异减小,显示预训练阶段为通用语言能力打下基础,而多任务微调有效整合了不同材料表征间的协同作用。

结论

预训练为 DARWIN 模型的设计提供了关键支持:

  1. 显著提升分类和回归任务性能,特别是在通用任务中表现突出。
  2. 为多任务微调提供了统一的领域知识基础,扩展了材料科学任务的适用性。

这一研究验证了预训练阶段的重要作用,并为 DARWIN 模型在自然科学中的广泛应用奠定了坚实基础。

图片

图 4:单任务和多任务微调策略下预训练和非预训练模型的性能对比。

图片

图 5:一般和专业材料表示任务中预训练和微调的比较收益。

多任务微调:显著增强知识迁移与回归任务表现

研究发现,模型的性能提升不仅靠输入的数据种类多样化来增强执行能力,还依赖于对真实世界知识的深入理解和吸收。特别是,辅助数据对模型表现的提升起到了关键作用,这也进一步证明了预训练阶段为不同知识框架间的连接搭建了桥梁。

为了探索多任务微调在提升模型回归任务表现中的具体机制,研究团队对两个基准数据集(matbench exp bandgap 和 matbench steel)进行了实验。

他们设计了一种消融研究(Ablation study)的方法,测试真实数据和合成数据在模型性能提升中的作用。实验结果显示,真实数据对性能提升尤为重要,例如在 matbench steel 数据集中,引入真实数据后,模型的误差(MAE)从 194.9 降至 109.9,性能提升了 44%。这表明基于成分的统一表示在知识迁移中起到了显著作用。

他们还进一步测试了合成数据的效果。例如:

  1. 如果保留材料的真实成分,但随机生成属性值(+Syn 1),会引入错误的知识,导致模型性能下降。
  2. 如果保留真实的属性值,但随机化成分(+Syn 3),模型仍能通过统计模式实现一定程度的性能提升。

尽管合成数据在某些方面对模型有帮助,实验结果显示,引入真实的领域知识(如 matbench 数据集)是性能显著提升的关键。

总结:

  1. 多任务微调不仅让模型更好地适应不同类型的任务,还增强了它对领域知识的理解能力。
  2. 预训练阶段则为不同材料表征之间的协作和学习提供了坚实的基础。这种结合是模型性能提升的核心原因之一。

图片

图 6:通过消融研究(Ablation Study)来了解多任务微调改进背后的机制。

为了研究多任务微调为何能够提升性能,团队使用精心构建的辅助数据集进行了消融研究。图 6 显示了这些数据集旨在隔离指令格式、真实知识和材料表示类型的影响。

带隙预测突破:QA-MT 模型以低门槛高速度显著超越传统方法

带隙(bandgap)是衡量材料基本电子特性的关键参数,决定了材料的电学和光学性能。研究将带隙预测作为衡量人工智能模型在材料科学中表现的重要基准,对多种传统预测方法和最新的 QA-MT(DARWIN 1.5)模型进行了详细对比:

  1. 传统方法如 PBE 虽然计算速度快,但精度偏低; 
  2. HSE 和 GW 的精度较高,但计算复杂且成本昂贵;
  3. AFLOW 是基于 PBE 训练的机器学习模型,更注重效率和扩展性。

在这些方法中,QA-MT 在 MAD(0.51)和 RMSE(0.69)的优异表现,与 HSE 接近,显著优于 PBE 和 AFLOW。

表 1:使用 QA-MT(DARWIN)进行带隙预测的模拟方法比较。

图片

QA-MT的显著优势在于:

  1. 低输入门槛:仅需提供材料的化学成分(如「GaN」或「CdTe」),无需详细的结构信息。
  2. 高预测速度:几乎即时生成结果,相比传统方法需要数小时甚至数天,大幅提升效率。
  3. 广泛适用性:在数据不完整或缺乏结构信息的情况下,依然能提供可靠的预测。

这一特点使 QA-MT 在材料的高通量筛选中具有极大潜力,能够帮助研究者快速探索大范围的化学空间,其高效性和多样性标志着带隙预测迈入了新阶段。

总体来看,QA-MT 为材料科学提供了一种高效、精准且低门槛的替代方案,推动了人工智能在科学研究中的应用前沿。

DARWIN 1.5:开创材料科学与 AI 融合的新纪元

DARWIN 1.5 的核心创新体现在三个方面:

  1. 通过自然语言驱动的通用性摒弃了传统任务特定描述符,材料模型设计不再需要固定输入空间,加速新材料发现。
  2. 模型采用多模态多任务学习,整合了来自 22 个材料科学任务的跨模态知识,显著提升了任务间知识迁移能力。
  3. 在性能上超越传统方法,相较于基座 LLaMA-7B 模型,其预测准确率提高了 60%,在多项任务中轻松超过传统机器学习 SOTA 模型。

DARWIN 1.5 展现了卓越的实证成果:

  1. 在分类任务中,平衡宏观 F1 评分平均提升 3.38%;在回归任务中,平均绝对误差(MAE)减少了 11.79%;
  2. 在跨领域基准测试中,模型表现优于多种最先进的机器学习方法,尤其是在关键任务如带隙预测中,与传统模拟方法相比,其推断速度显著提升。

DARWIN 1.5 的意义超越了材料科学,它展示了大语言模型在解决科学问题上的普适性潜力,体现大语言模型在材料设计与发现中是更出色的通用学习者(Adapted Learner)。随着进一步的优化和跨领域应用,这一技术有望在能源、医药和环境等领域发挥更大作用,推动全球研究人员共同见证大语言模型如何重塑材料科学的未来。

项目源码:https://github.com/MasterAI-EAM/Darwin

论文地址:https://arxiv.org/abs/2412.11970

产业
暂无评论
暂无评论~