2024/10/05 06:38

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

编辑｜ ScienceAI

近日，认知智能全国重点实验室、中国科学技术大学陈恩红教授团队，科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models》，介绍了新研发的一个面向化学领域大模型能力的多层次多维度评估框架 ChemEval。

论文链接: https://arxiv.org/pdf/2409.13989

项目链接: https://github.com/USTC-StarTeam/ChemEval

研究动机

在自然语言处理（NLP）的领域中，大语言模型（LLMs）已经成为推动语言理解与生成能力不断进步的强大引擎。随着这些模型在多样化垂直领域应用的兴起，探索如何将它们应用于科学研究，已成为研究的热点。

对于化学领域，化学是一门深奥的学科，涉及复杂的分子结构、物质性质、反应机制等，这些特点使得 LLMs 在化学领域的应用充满挑战和机遇。

尽管 LLMs 在处理文本数据方面取得了令人瞩目的成就，但它们在化学领域的应用却面临着一系列独特的挑战。

化学领域的专业术语众多，分子间相互作用复杂，且需要对高等化学领域知识有深刻理解。这些挑战凸显了对 LLMs 进行系统评估的必要性，以便准确衡量它们在化学领域的实际能力，并识别出潜在的应用领域。

目前尽管已经存在一些基准测试，如 MMLU 涵盖了包括化学在内的多个领域共 57 项测评任务，但这些测试大部分仅仅面向基础概念的问答，缺乏对化学领域更深层次能力的评估。

此外，尽管如 ChemLLMbench 等基准在化学任务上相比 MMLU 更为专业，但是该基准仍然缺少对大模型高阶能力的评估，如分子理解、化学知识推演等。

针对这一现状，这篇文章构建了 ChemEval ——一个专门为化学领域设计的多维度能力评估体系。

ChemEval 的开发基于一个核心理念：需要一个能够全面评估 LLMs 在化学领域能力的基准测试，它不仅能考察大模型对化学基础知识的掌握，还能评估在高级化学概念方面的理解和应用。

ChemEval 通过一系列精心构建的多级任务，旨在全面评估 LLMs 在化学领域的能力。这些任务设计覆盖了从化学研究领域的基础问题到高级挑战，如分子结构理解、化学反应预测和科学知识推断等。

ChemEval 不仅能够为化学领域中的 LLMs 应用提供宝贵的评估和见解，还能为未来模型的优化和应用开辟新的道路。

图 1：Overview of ChemEval。

基准的介绍和构建

在这项研究中建立了一个名为 ChemEval 的基准，专门用于评估化学领域内的大语言模型能力，以填补当前化学领域缺乏多层级、多维度任务体系测评基准的空白。

该基准框架包括化学领域能力的四个级别，每个级别涉及多个化学测评维度，确保对 LLM 的全面评估。ChemEval 通过一系列精心设计的任务来衡量大模型理解和推断化学知识的能力。

高等知识问答

「高等知识问答」维度旨在评估模型对核心化学概念和原理的理解能力。包括客观问答和主观问答两个维度，共 5 个不同的任务，评估模型在化学术语、定量分析等领域的洞察力。

其中，客观问答通过多项选择、填空题等任务评估模型的基本知识掌握程度。此外，主观问答要求模型提供详细的解决方案或理由，反映其对化学原理的理解和应用能力。

文献理解

「文献理解」维度用于评估模型从科学文献中提取关键信息和归纳总结的能力，包括信息抽取和归纳生成两个维度，共 15 项任务。

信息提取任务涉及识别化学实体、反应底物和催化类型等，确保模型能够定位和抽取文本中的化学信息。归纳生成任务要求模型根据现有数据和知识生成总结性的内容，如文献摘要和反应类型识别归纳等。

分子理解

「分子理解」维度考察模型在分子水平上的理解和生成能力。包括分子名称生成、分子名称翻译、分子性质预测和分子描述四个维度，共 9 项任务。

分子名称生成任务评估模型生成有效化学结构表示的能力。分子名称翻译任务通过模型在不同格式之间转换分子名称，评估模型理解各种格式的分子名称以及互译的能力。分子特性预测任务关注分子的物理、化学等属性的知识掌握能力。分子描述任务则评估模型从分子结构中预测物理化学性质的能力。

科学知识推演

「科学知识推演」维度重点评估模型在化学研究中的推理和创新能力，包括逆合成分析、反应条件推荐、反应结果预测和反应机制分析四个关键维度，共13项任务。逆合成分析任务评估模型合成路径的分析规划能力。

反应条件推荐任务用于评估特定化学反应条件推荐的准确性。反应结果预测任务旨在评估模型预测化学反应结果的能力。反应机制分析任务考察模型从反应物转化为产物的步骤分析能力。

综上所述，ChemEval 通过精心设计的任务和数据集，覆盖了化学研究的多个层面。如图 1 所示，ChemEval 包含化学领域的 4 个关键层级，评估了 12 个维度的 LLMs 能力，涵盖了 42 个独特的化学任务。

这些任务由开源数据和化学专家精心设计的数据构成，确保了任务的实用价值，并能有效评估 LLMs 的能力。

图 2：任务层级及任务类型。

数据集构建过程

这项研究对大模型进行了全面的评估工作，其中数据来源主要包括开源数据和领域专家数据。开源数据通过关键词检索并下载相关的开源数据集，从中筛选化学评估方向的下游任务，并下载这些任务的官方数据集。

同时，领域专家从科学文献、专业教材以及化学实验数据中手动构建了部分任务类型对应的问答对。

在数据处理阶段，需要对化学领域原始数据进行了仔细筛选和过滤，以适应多样的任务需求。

对于高级知识问答，主要从本科和研究生教材及教辅材料中编制了广泛的问答对，涵盖有机化学、无机化学、材料化学等七个类别，确保化学概念和原理的多样性。

对于文献理解，从科学文献中提取相关片段和问题，结合任务特定答案创建测试集。分子理解和科学知识推演则结合开放数据集与实验室专有数据，设计测试集以满足下游任务的评估需求。

实验结果

在 ChemEval 的基准测试中，一共评估了 12 个主流的 LLMs，包括 8 个通用模型和 4 个化学领域模型。

实验结果表明，尽管像 GPT-4 和 Claude-3.5 这样的通用 LLMs 在文献理解和指令遵循方面表现出色，但它们在需要高级化学知识的任务上表现不佳。

相反，化学的领域 LLMs 表现出更强的化学能力，但它们的文献理解能力有所下降。

图 3：主要实验结果。

此外，还有以下相关结论：

化学领域模型在需要深层化学知识的任务上优于通用模型。
大语言模型也难以在没有严格格式化约束的情况下一致地生成准确的化学公式。
化学领域模型在遵循指令方面的能力明显低于通用模型。

‍‍更多详细的任务的设计、评估指标以及各个子任务的实验结果，欢迎查看 ChemEval 原文。这项工作不仅为化学研究中 LLMs 的应用提供了宝贵的见解，还为未来 LLMs 在化学领域的优化和应用提供了指导。

团队介绍

认知智能全国重点实验室（主页：https://cogskl.iflytek.com/）是由科大讯飞股份有限公司和中国科学技术大学联合共建的国家级科研平台，2022 年 5 月，成为科技部遴选的首批 20 家全国重点实验室之一。开展包括大模型在内的认知智能共性基础问题研究和前沿技术攻关。

科大讯飞研究院，成立于 2005 年，是科大讯飞旗下专注于人工智能核心技术研究的机构。研究院在智能语音、计算机视觉、自然语言处理等领域积累了丰富的研究成果，并在业界保持领先地位。

理论