编辑 | ScienceAI
随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估 LLMs 科学知识的高级基准非常缺乏。
近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的科学智能,共包含化学和生物领域 50,000 个不同层次的科学评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。
其中,拥有千亿至万亿参数的通用大语言模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 表现出色,整体性能大幅优于中小型开源模型,如 Qwen1.5 和 Llama3 等。
相关研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》为题,发布在预印平台 arXiv 上。
一般来说,同一系列的模型的大小与其性能成正相关,例如,Galactica-30B 的表现就明显优于 Galactica-6.7B。
作者还评测了一系列科学专业领域大模型,如上海交通大学、苏州实验室和思必驰联合研发的 ChemDFM-13B,以及上海人工智能实验室开发的 ChemLLM 系列等。
此类领域大模型大都在开源模型基础上,利用科学领域语料进一步预训练,并进行经过精巧设计的微调所得。
在专业领域知识测试中,此类领域大模型整体表现优秀,特别是百亿参数的ChemDFM-13B,不仅全面领先其他开源模型,其化学水平也整体逼近 GPT-4o、Gemini1.5-Pro 等千亿甚至万亿参数的通用大模型,显示出垂域科学大模型的优势。
表 1:化学领域中 LLMs 五个级别的零样本表现
从评测结果还可以发现,L1-L4 的性能与 L5 的性能排名有时相差较大。在化学领域最高级的 L5 级任务中,ChemDFM-13B 甚至全面超越了通用大模型。
为了探究这个现象出现的原因,进一步观察各个维度任务的组成情况,可以发现 L1-L4 任务大都是论文新构建的以选择题出现的新任务;而 L5 中的分子描述生成和分子生成两个任务是较为典型的化学人工智能模型任务。
由此可以认为,对于这些模型来说,L5 评测的是在已训练任务上的能力,而 L1-L4 则更多的评测 LLM 的通用能力(指令遵循和任务泛化的能力等)。
总而言之,基座大模型的 SFT 不一定能提升模型的性能,SFT 任务的选择和处理至关重要。
SFT 过程中的任务选择、组合和处理对大语言模型在科学领域的专业化起到了举足轻重的影响;而在构造 SFT 数据集的过程中,应该不仅仅考虑对科学领域相关能力的增强,也应尽量维持甚至提高模型的通用语言能力;从而确保模型拥有足够的指令遵循和任务泛化能力,在更广泛的科学任务上取得更优异的表现。
附:
在 SciKnowEval 框架中,研究者通过五个递进的科学知识层次来评估 LLMs 的科学知识,包括广泛学习、认真探询、深入思考、准确判断和实际应用。每个层次都旨在评估 LLMs 在不同方面的科学知识和应用能力。
L1: 广泛学习(即知识覆盖)。主要评估大型语言模型对不同科学领域知识的广泛掌握,主要考查模型的记忆和理解多种科学概念的能力。
L2: 认真探究(即知识探询和探索)。关注大型语言模型在科学环境中进行深入探究和探索的能力,包括分析科学文献、识别核心概念及提出相关问题。
L3: 深入思考(即知识反思和推理)。评估模型在批判性思维、逻辑推理、进行数值计算、预测功能以及通过反思性推理解决问题的能力。
L4: 准确判断(即知识辨识和安全评估)。涉及大型语言模型基于科学知识做出正确、安全及符合道德的决策能力,包括对信息的危害性和毒性进行评估,以及理解科学活动相关的伦理和安全问题。
L5: 实际应用(即知识实践和应用)。评价大型语言模型将科学知识有效应用于现实世界情境的能力,如解决复杂的科学问题和开发创新解决方案。。
表 2:在化学领域 L1-L5 的评测任务
表 3:生物学和化学领域中 LLMs 五个级别的零样本表现