概览
医疗领域的大型模型已经进行广泛地研究。然而,这些进展主要依赖于英语的基座模型(如LLaMA 2),并受制于缺乏多语言医疗专业数据的限制,导致当前的医疗大模型在处理非英语问题时效果不佳。为了克服这一挑战,我们提出了三项贡献:我们创建了一个包含25.5Billion tokens的多语言医疗语料库MMedC。
我们开发了一个全新的多语言医疗问答评测标准MMedBench, 覆盖了6种语言,21种医学子课题。
我们推出了一款名为MMedLM 2的全新基座模型,以7B的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。
大规模多语医疗语料(MMedC)构建
在构建数据集方面,我们收集了一份多语言医疗语料库,命名为MMedC。改数据集包含255亿个tokens,其内容来自于四个来源:通过启发式算法,从广泛的多语言语料库中(例如CommonCrawl)筛选相关内容。
搜集全球各地的医疗教科书电子版,并使用光学字符识别(OCR)技术转化为文本数据。
从多个国家的许可的医疗相关网站抓取数据。
整合已有的小型医疗语料库,以丰富和完善我们的数据集。
全面多语言医学能力测试基准(MMedBench)构建
为了评估医学领域多语言模型的发展,我们设计了一项全新的多语言选择题问答评测标准,命名为MMedBench。此基准测试的所有问题均直接源自各国的医学考试题库,而非简单地通过翻译获得,避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。此外,我们为每个题目提供了正确答案的详细解释。在评测过程中,要求模型不仅要选出正确答案,还需提供合理的解答理由。这样的设计不仅评测了模型在选择正确答案的能力,也测试其理解和解释复杂医疗信息的能力,从而更全面地评估其性能。模型测评
我们对主流医疗语言模型在MMedBench基准上采用三种测试策略进行了评估Zero-shot:适用于没有开源的模型,我们通过提供Prompt,导模型回答选择题并解释其答案选择的原因。
PEFT Finetuning:适用于已开源的模型,我们首先利用LoRA技术对模型在MMedBench训练集上进行局部微调,然后在测试集上评估其性能。
Full model Finetuning:适用于已开源的模型,首先在MMedBench的训练集上进行全量微调,随后再在MMedBench的测试集上进行测试。
数据测消融实验
在上面的主要结果中可以看到,我们最新的模型,MMedLM 2,在多项测试中都维持着领先的水平。MMedLM2是基于InternLM 2的开发的,进一步通过在多语言医疗语料库上进行自回归训练而优化。我们通过消融实验证实了,使用多语言语料进行进一步训练,对模型的性能带来了显著提升。研究与临床价值
在本项工作中,我们首次引入了医疗领域的多语言大型模型,这对研究和临床实践都有着重要的影响。在研究方面,我们的工作促进了以下研究的发展:通用医疗人工智能(GMAI):GMAI是指能够广泛应用于不同医疗场景下的多模态人工智能模型,其中大型语言模型常作为人机交互的纽带。采用多语言的医疗模型,替代以往以英语为中心的模型,能够充分利用全球多种语言的数据资源,从而扩展可用的多模态训练数据,提升对其它模态信息表征的质量。
增强检索的生成任务:在当前的大型语言模型中,"幻觉"问题被认为是一个主要挑战,尤其是在医疗领域。一种有效的解决策略是开发具有检索功能的架构,其核心思想是通过从额外的知识库中检索事实信息,并将这些信息输入到大型语言模型中,来增强其输出的准确性。然而,迄今为止,大部分的研究都集中在英语上,这极大地限制了检索增强方法对其他语言知识库的利用。通过开发多语言的医疗模型,能够极大地提高检索过程对不同语言知识库的利用。
语言障碍。在众多医疗保健系统中,语言障碍是患者与医疗服务提供者之间有效沟通的一个主要障碍。这种障碍可能导致误解、误诊,最终使得高质量的医疗资源对大多数人而言变得难以触及。通过提供实时翻译服务,多语言医疗级大型语言模型使患者能够清晰表达自己的症状,并准确理解其诊断与治疗方案。
深入理解文化与法律的异同。多语言医疗大型语言模型能够通过进一步的指令微调,以识别并应对不同国家在医疗诊断过程中的文化和法律差异及敏感性问题。这种对各国文化背景和法律框架的深入理解,不仅可以显著增强用户对医疗大语言模型的信任,还能促进更高质量的医疗服务体验,确保医疗服务的全球化和个性化。