Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

首个自然科学领域大模型DARWIN:超过GPT-4,能自我设计新材料首个自然科学领域大模型DARWIN:超过GPT-4,能自我设计新材料


图片

作者 | UNSW AI Institute 和澳大利亚国家超算中心以及 GreenDynamics
编辑 | ScienceAI

随着技术的不断进步,自然科学领域正在发生一场引人注目的变革。传统依赖人工和资源密集型的方法正在发生重大转变,其中人工智能驱动的自动化方法正得到越来越广泛的使用。

最近,来自 UNSW AI Institute 和澳大利亚国家超算中心以及 GreenDynamics 推出了 DARWIN,它是一系列为物理、化学和材料科学应用而精心设计的专业化大语言模型(LLM),这一系列模型以开源的 LLaMA-7B 为基础,在多个科学任务中取得了最先进的结果,旨在通过人工智能驱动的自动化来增强和加快探索发现的过程。

该研究以「DARWIN Series: Domain Specific Large Language Models for Natural Science」为题,发布在 arXiv 预印平台上。

图片

论文地址:https://arxiv.org/pdf/2308.13565.pdf
Github 链接:https://github.com/MasterAI-EAM/Darwin

借助现有的开源大语言模型,DARWIN的研究人员利用开源科学FAIR数据集和科学文献,提取并整合结构化和非结构化的科学知识。研究人员使用 100,000 多个指令数据点(instruction data points)对模型进行了微调(finetuning),生成了多样化的指令数据,确保模型输出内容的事实准确性。

在微调过程中,研究人员引入了科学指令生成(SIG)模型,这是一个从科学文本自动生成指令文本内容的系统。实现了基于科学文本的指令自动生成。这样一来,不仅高效地将科学知识注入模型,也减少了对门槛高,耗时耗力的人工指令构建,和领域知识图谱的需求。此外,研究人员还探索了多任务训练(multi-task training)策略,揭示了科学任务之间的相互联系。

在测试环节,与科学领域的现有基准相比,DARWIN 系列表现出了卓越的性能(见图 1),这表明它有可能对科学发现产生变革性的影响。同时,DARWIN的推广会显著减少研究者对闭源人工智能模型的依赖。使用 DARWIN 的总体目标包括缓解当前模型的局限性、改进领域模型训练的方法以及促进科学界人工智能的发展。

研究人员提出了:

(1)名为 DARWIN 的新型系列大语言模型(LLM Series)。DARWIN标志着科学领域基准测试的性能得到了提高,也显示着研究人员在利用 LLM 进行科学探索的集体努力中取得了重大进展,进一步确认了 LLM 在加速科学发现中的潜在作用。

(2)一种经济高效的科学指令生成(SIG)模型。这是建立在高质量内容的基础上。将学术论文(而不是模型产出的文本)纳入训练过程之后,训练数据集的可靠性显著提高。此外,研究人员还对冗长的文本输入采用了 「待续」(to be continued)标记(token)绑定,从而规避了 LLaMA 固有的输入标记限制。

(3)一种科学领域训练模型的开源模式。使用开源基础模型进行训练,并使用公共科学基准(benchmark)进行评估,从而确保了该模型的可比较性以及长期使用性。这种开源模式使得模型和代码更易访问,大大降低了经济门槛,能够促进人工智能在整个科学界的发展。

图片

图 1:自然科学任务中 DARWIN 与 GPT-4 的对比分析。可以发现,DARWIN在物理、化学、材料科学特殊任务中的表现要优于GPT-4。

自然科学领域缺少开源、专业的大语言模型

DARWIN诞生之前,以InstructGPT 为代表的指令微调大语言模型(Instruction-tuned Large Language Models, LLMs)在理解指令和生成类似人类对话的响应方面表现出色,因而备受关注。但基于GPT的微调模型的核心问题在于,它们仍然无法作为开源方案使用。因此,每个用户都局限在 OpenAI 的服务器上单独对模型进行微调,耗时耗力,经济成本居高不下,在精度上亦不尽如人意。这一缺陷不容小觑,并有可能会阻碍 LLM 推动科学发现的势头。

市面上现有的开源替代方案,如 LLaMA,则需要进一步的在指令数据集上微调。然而,当前指令数据集的构造方案大多是基于 GPT-3.5 或 GPT-4 自学习(Self-instruct),这会拉低预测准确率,甚至导致模型崩溃。这个缺陷在自然科学课题的语境下尤为显著,因为上述模型并不是明确针对材料科学和化学等科学领域设计的。虽然医学领域也有利用知识图谱生成指令数据的例子,但这在自然科学领域并不常见(并非所有子领域都有相应的知识图谱)。而另一种替代方案是使用 GPT-3.5 或 GPT-4对相关论文进行多轮一问一答训练,但成本高昂。

具体研究:数据集、SIG方法与模型构建

为了使DARWIN适用自然科学领域,研究人员在微调过程中使用了各种与科学相关的数据集。这些数据集包括:

(1)科学考试答题数据集:SciQ 数据集是一个大型众包科学问答(QA)数据集,包含 13679 道科学考试题,涵盖物理、化学和生物等学科,可提供广泛而简单的科学知识。

(2)从科学论文中生成的问题和相应答案:利用Web of Science和网络抓取工具 SciCrawler,研究人员从Elsevier, Springer Nature, American Chemical Society, and Royal Society of Chemistry等出版商收集了 600 万篇英语学术论文,并通过科学指令生成(SIG)模型从论文中生成问题和相应答案构成基于专业科学知识的数据集。

图片

图 2:科学论文数据集的构成。

(3)FAIR 数据集:数据集 FAIR 是 「可查找、可访问、可互操作、可重用」(Findable, Accessible, Interoperable, and Reusable,是一套提高数据价值和可访问性的原则)的缩写。研究人员收集了 16 个开放获取的 FAIR 数据集(见图3),涉及物理、化学和材料科学的多学科主题,包括但不限于物理结构、性能、合成甚至材料设计。

图片

图 3:FAIR 数据集的构成。

研究人员基于以上数据集进行建模。对于DARWIN,研究人员利用不同的LLM(LLaMA-7B 和 Vicuna-7B 模型)开发了一个综合训练流水线,以平衡性能和成本。整个训练路径涉及DARWIN-SIG,DARWIN-BASE 和 DARWIN-MDP三个 LLM。

首先是DARWIN-SIG(科学指令生成模型),研究人员提出了一种生成训练数据的实用方法——使用开源模型将完整的科学论文转化为问答对(question-answer pairs),并作为训练指令(instruction)。研究人员利用的是基于知识生成的数据,这比LLM自生成的训练数据更加可信,也规避了模型崩溃的风险。

SIG的流程如下:

(1)提示的设计(Prompt Design):研究人员通过迭代人工检查以及征求领域专家的意见,为LLM设计出了有效的提示(prompt),让 LLM 根据从科学论文中提取的详细信息生成问答对。

(2)种子问答生成(Seed QA generation):研究人员从科学论文数据集中选取种子论文,其余为训练论文。种子论文作为输入,通过对GPT-4进行提示(使用步骤 1 中设计的提示)生成种子问答对。

(3)DARWIN-SIG:SIG 模型的开发首先是通过使用种子论文及其相应的问答对,从而针对LLM 进行微调进行开发而完成的。给定一个提示 p 和输入文本 x,SIG 生成一组指令 I,每条指令都是与 x 相关的一对问题和相应的答案(q(i), a(i)),也就是SIG(p, x) = I。初始提示(prompt)被转换成指令(instruction),而种子文件则输入模型。

(4)问答生成训练(Training QA generation):基于经过训练的 DARWIN-SIG,大量的训练论文随即可用作输入,并以较低的成本自动生成问答对。这些问答对可直接转换为指令数据。

基础模型的选择中,考虑到 GPT-3.5/4 可能带来的推理成本,研究人员转而使用开源模型作为训练生成器。经过人工评估,研究人员选择了 Vicuna-7B 模型作为基础模型,而不是 LLaMA 或 Alpaca。

第二个考量是长度限制。论文的长度通常超过 2048 个标记符的上限,对于这些较长的论文,研究人员对文本进行了分割,并使用「[TBC]」标记符(见图4)作为连接器连续输入,保证模型输出问答对与论文内容的一致性。

图片

图 4:DARWIN-SIG的长文本输入方法。

研究人员将SIG方法与已有的QA生成方法比较后发现SIG生成的问题信息量更大,而且与输入论文的内容更相关,更复杂,涵盖面更广,包括但不限于与应用相关的属性、策略的影响、结构差异等。相应地,DARWIN-SIG给出的回答细节丰富具体,会引用原始科学论文中的精确化学元素和数值。高质量的问答生成确保了在冗长的科学论文中保留知识要点。

对于DARWIN-BASE的建模,研究人员基于SciQ 数据集为 DARWIN 生成了基于知识的指令数据,并生成了问答对。SciQ 数据集中的答案包括正确选项,提供了强有力的支持,可用作背景知识输入或推理过程的解释。

由此,研究人员生成了一组混合式的指令数据,按难度递增排列,其模式为:

(1)单轮问答,即模型根据问题和提供的背景知识选择答案;

(2)单轮问答,即模型根据问题选择答案,同时为所选答案提供解释;

(3)多轮对话,即模型根据问题选择答案,并针对用户的后续问题为所选答案提供解释。

在没有任何输入的情况下,每个问题为一条指令,其对应的答案为输出。研究人员使用SciQ和SIG生成的基于知识的指令数据对 LLaMA-7B 模型进行了微调,共计超过 20,000 个实例。从而开发出 DARWIN-BASE,一个能够进行科学问题解答的模型,在SciQ测试集上达到96.9%的准确率。

最后是DARWIN-MDP建模。除了可以执行科学问答任务的 DARWIN 之外,研究人员还使用了 16 个 FAIR 数据集来生成其他指令,以进一步微调 DARWIN-BASE,使其可以执行材料与设备预测任务(Material & Device Predictions tasks, MDP),如分类、回归和设计等,形成DARWIN-MDP。

分类(classification):科学语言模型的分类任务包括将科学文本数据归类或标记为预定义的类别。例如,DARWIN-MDP 可以根据化合物的特性(如溶解性、毒性或稳定性)进行分类训练。这有助于药物发现、材料科学或化学工程应用。

图片

图 5:分类实例。

回归(regression):比分类要求更高的任务是开发能够预测连续属性值的回归模型,虽然 LLM 无法在回归任务中预测高精度的实数,但通过在训练过程中采用四舍五入值,它们仍能产生可接受精度的预测结果。对于设备性能数据,小数点后两位数的精度已经足够。

图片

图 6:回归实例。

逆向设计(inverse design):在材料科学领域,逆向设计指的是一种计算方法,旨在通过从所需特性或功能逆向设计新材料或优化现有材料——从一组所需的特性或性能目标开始,设法确定能展现这些特性的材料结构或成分。通过利用逆向设计技术,研究人员有可能发现具有量身定制特性的新型材料,而传统的实验方法难以发现这些新特性或耗时较长。逆向设计在材料科学的各个领域都大有可为,包括光伏、催化剂、电池、热电材料等。

图片

图 7:逆向设计实例。

DARWIN的性能与专业机器学习模型相媲美

为了证明 DARWIN 在不同任务中的性能,研究人员将 DARWIN 与两个基准模型(baseline models)进行了比较。

(1)LLaMA 是 Meta AI 发布的 LLM,有 70 亿到 650 亿个参数的不同模型大小。由于 LLaMA-7B 易于训练,研究人员将其作为基础模型。

(2)GPT-3 是 OpenAI 创建的第三代语言模型,拥有 1750 亿个参数。

除了上述两个基准模型外,研究人员还参考了几个SOTA的专业机器学习模型的结果,如 MODNet (v0.1.1)、MolCLR 和 AMMExpress v2020。这些结果来自 matbench。值得注意的是,上述每个机器学习模型都是在特定的 FAIR 数据集上单独训练的。

表 1:回归任务中 DARWIN 和 SOTA 模型的比较评估(MAE)。

图片
表 2:分类任务中 DARWIN 和 SOTA 模型的比较评估(F1 分数)。
图片

表 1 和表 2 列出了 DARWIN-MDP 模型在各种回归和分类任务中的性能指标。值得注意的是,在大多数回归任务中,DARWIN-MDP 的平均绝对误差(MAE)最低,而在大多数分类任务中,DARWIN-MDP 的 F1 分数最高。

通过比较 LLaMA-single 和 LLaMA-all,研究人员发现对多个MDP任务一起进行微调(LLaMA-all)比对单个MDP任务分别进行微调(LLaMA-single)性能更优。这凸显了多任务学习在增强模型整体能力方面的有效性。

此外,在将 LLaMA-all (在LLaMA上多个MDP任务一起进行微调)与 DARWIN-MDP 进行比较时,研究人员发现对科学知识的初始阶段微调促进了性能的进一步提高,凸显了特定领域知识训练的重要性。

最后,研究人员发现DARWIN-MDP 的性能可与特定任务的专用机器学习模型相媲美,这提供了一种新颖的材料设计方法,只需简单提示(prompt),一个模型就能完成多项科学任务。

综上,研究结果显示DARWIN 系列表现出了卓越的性能,验证了特定领域微调和多任务学习的有效性,展现了大语言模型在科学任务中的潜力。

DARWIN在自然科学研究中极富潜力

该研究将现有的知识库有效地融入了大语言模型,提出了 DARWIN 系列大语言模型,该系列在多个科学任务中取得了 SOTA 结果。研究人员采用科学领域的开源数据构建训练数据,还引入了 SIG 模型自动提取来自大型论文语料库的知识。此外,研究人员还探索了不同的多任务训练策略,发现首先对基于知识的问题和答案进行训练可以提高在 FAIR 数据集上的预测性能,而且将多个任务结合起来证明比单独训练更有效,从而凸显了看似独立的任务之间的内在联系。研究人员正在探索更好的知识质量评估方法,并不断地使用科学论文扩充知识数据集,进一步提高模型性能。

DARWIN这一开源范式在数据集构建,任务构建和大模型训练策略上提供了新的思路,为科学研究与大语言模型的互动提供了指导。该研究为大语言模型在自然科学领域的进一步应用铺平道路,促进 AI for Science的整体繁荣。

GreenDynamics 官网:https://www.greendynamics.com.au/greendynamics

产业
暂无评论
暂无评论~