Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼

图片

编辑 | ScienceAI

随着大型语言模型(LLMs)在科学研究领域的广泛应用,评估这些模型在理解和应用科学知识方面的能力变得尤为重要,但是科学领域全面评估 LLMs 科学知识的高级基准非常缺乏。

近日,来自浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,定义了 L1 到 L5 不同层级的科学智能,共包含化学和生物领域 50,000 个不同层次的科学评测题目,并利用该数据集用于对 20 个开源和闭源 LLMs 进行基准测试。

其中,拥有千亿至万亿参数的通用大语言模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 表现出色,整体性能大幅优于中小型开源模型,如 Qwen1.5 和 Llama3 等。

相关研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》为题,发布在预印平台 arXiv 上。

图片

论文链接:https://arxiv.org/abs/2406.09098

一般来说,同一系列的模型的大小与其性能成正相关,例如,Galactica-30B 的表现就明显优于 Galactica-6.7B。

作者还评测了一系列科学专业领域大模型,如上海交通大学、苏州实验室和思必驰联合研发的 ChemDFM-13B,以及上海人工智能实验室开发的 ChemLLM 系列等。

此类领域大模型大都在开源模型基础上,利用科学领域语料进一步预训练,并进行经过精巧设计的微调所得。

在专业领域知识测试中,此类领域大模型整体表现优秀,特别是百亿参数的ChemDFM-13B,不仅全面领先其他开源模型,其化学水平也整体逼近 GPT-4o、Gemini1.5-Pro 等千亿甚至万亿参数的通用大模型,显示出垂域科学大模型的优势。

表 1:化学领域中 LLMs 五个级别的零样本表现

图片

从评测结果还可以发现,L1-L4 的性能与 L5 的性能排名有时相差较大。在化学领域最高级的 L5 级任务中,ChemDFM-13B 甚至全面超越了通用大模型。

为了探究这个现象出现的原因,进一步观察各个维度任务的组成情况,可以发现 L1-L4 任务大都是论文新构建的以选择题出现的新任务;而 L5 中的分子描述生成和分子生成两个任务是较为典型的化学人工智能模型任务。

由此可以认为,对于这些模型来说,L5 评测的是在已训练任务上的能力,而 L1-L4 则更多的评测 LLM 的通用能力(指令遵循和任务泛化的能力等)。

总而言之,基座大模型的 SFT 不一定能提升模型的性能,SFT 任务的选择和处理至关重要。

SFT 过程中的任务选择、组合和处理对大语言模型在科学领域的专业化起到了举足轻重的影响;而在构造 SFT 数据集的过程中,应该不仅仅考虑对科学领域相关能力的增强,也应尽量维持甚至提高模型的通用语言能力;从而确保模型拥有足够的指令遵循和任务泛化能力,在更广泛的科学任务上取得更优异的表现。

附:

在 SciKnowEval 框架中,研究者通过五个递进的科学知识层次来评估 LLMs 的科学知识,包括广泛学习、认真探询、深入思考、准确判断和实际应用。每个层次都旨在评估 LLMs 在不同方面的科学知识和应用能力。

图片

图 1:SciKnowEval 框架设计思路

L1: 广泛学习(即知识覆盖)。主要评估大型语言模型对不同科学领域知识的广泛掌握,主要考查模型的记忆和理解多种科学概念的能力。

L2: 认真探究(即知识探询和探索)。关注大型语言模型在科学环境中进行深入探究和探索的能力,包括分析科学文献、识别核心概念及提出相关问题。

L3: 深入思考(即知识反思和推理)。评估模型在批判性思维、逻辑推理、进行数值计算、预测功能以及通过反思性推理解决问题的能力。

L4: 准确判断(即知识辨识和安全评估)。涉及大型语言模型基于科学知识做出正确、安全及符合道德的决策能力,包括对信息的危害性和毒性进行评估,以及理解科学活动相关的伦理和安全问题。

L5: 实际应用(即知识实践和应用)。评价大型语言模型将科学知识有效应用于现实世界情境的能力,如解决复杂的科学问题和开发创新解决方案。。

表 2:在化学领域 L1-L5 的评测任务

图片

表 3:生物学和化学领域中 LLMs 五个级别的零样本表现

图片
*数值较小表示排名较高。表中粗体字标示的是所有模型中的最佳表现,带下划线的是次优表现,蓝色标示的是开源模型中的最佳表现

工程
相关数据
思必驰机构

思必驰是国内领先的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代的人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。 思必驰拥有上千项知识产权,是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一;与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作;旗下人工智能产业基金累计投资20+家生态企业。

http://www.aispeech.com/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~