Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

上交大、复旦中山团队开发糖尿病专用大语言模型,助力个性化糖尿病管理

图片

编辑 | ScienceAI

随着全球糖尿病患病率的逐年攀升,糖尿病已成为全球范围内极具挑战的公共健康问题。据统计,全球约有 10% 的人口受到糖尿病的影响。到 2045 年,全球糖尿病患者人数预计将攀升至惊人的 7.83 亿。

然而,由于糖尿病医生短缺、医疗资源分布不均以及患者自我管理能力的不足,糖尿病的管理和治疗仍面临重重困难。如何高效、智能化地管理糖尿病,已成为当前医学界和科技界共同关注的重要课题。

为应对这一挑战,上海交通大学清源研究院 MIFA 实验室与复旦大学附属中山医院内分泌科组成的研究团队,联手开发出一款名为 Diabetica 的糖尿病专用大模型。

Diabetica 能够为糖尿病患者提供个性化的医疗支持,并为医生提供更加高效的医学教育和临床辅助工具。

糖尿病管理的挑战与机遇

糖尿病作为一种需要长期管理的慢性疾病,其复杂性不仅体现在患者需要持续控制血糖水平,还需要长期面对并发症的风险。此外,糖尿病的有效管理还需要患者、医疗团队、公共健康部门等多方的协同合作。然而,现有的医疗系统面临着诸多挑战:

1. 专业医师短缺:全球范围内,糖尿病专科医生数量远远不能满足日益增长的患者需求,医学教育和人才培养任重道远。

2. 医疗资源分配不均:优质医疗资源往往集中在大城市和发达地区,导致许多患者无法获得及时、有效的诊断和治疗。

3. 患者自我管理能力不足:由于缺乏专业知识和持续的指导,许多患者难以有效地进行自我管理,导致血糖控制效果不佳。

面对这些挑战,人工智能技术的快速发展为解决问题带来了新的可能。近年来,AI在医疗领域的应用日益广泛,涵盖了诊断辅助、药物推荐、医学教育等多个方面,正在逐步成为医疗体系的重要补充。

然而,现有的AI工具多为单一任务导向,缺乏对自然语言的深入理解,难以在复杂的医疗环境中实现广泛应用。

语言模型的出现,特别是专门针对特定疾病领域优化的模型,有望改变这一现状。

Diabetica 的诞生,正是为了应对糖尿病管理的复杂挑战,通过结合大模型的强大语言处理能力与糖尿病领域的专业知识,为医生、患者以及医疗教育提供全方位的智能支持。

Diabetica:为糖尿病管理量身打造的大模型

Diabetica 是一个专为糖尿病领域设计的大语言模型。研究团队通过对大量的医疗数据集进行预处理、优化和增强,最终构造了高质量的糖尿病数据集用于训练得到 Diabetica。

该模型不仅能够理解复杂的医学术语,还可以为不同层次的用户(包括患者、医务人员等)提供个性化的建议和帮助,展现出了出色的糖尿病任务处理能力。

图片

论文地址:https://arxiv.org/pdf/2409.13191

图片

开发 Diabetica 的过程中,研究团队面临的首要挑战是如何构建高质量的糖尿病专业数据集。为此,团队建立了一个完整的数据处理流程,包括如上图所示的几个关键步骤:

数据收集

团队从多个来源收集数据,包括公共数据源(如考试题库、开源医学对话数据集)和内部数据源(如糖尿病指南、教科书、药品说明书以及真实医疗对话)。       

数据过滤

团队对收集到的原始数据进行关键词筛选,以确保只选择真正与糖尿病相关的数据。除此之外,为了避免重复数据对模型训练的影响,团队使用了「SemDeDup」中的去重方法,该方法利用预训练词向量模型生成的词向量进行聚类,在每个类里面识别并排除语义重复的数据点。

数据增强

为了构造指令对话数据,团队首先对糖尿病指南和教科书等数据集中的长文本,根据知识点进行分段,然后使用 GPT-4 生成基于每个段落的对话数据。

对于考试题库的数据,团队利用 GPT-4 生成问题的链式推理过程和解答作为训练样本,保证了模型能够学到解题思路和答案背后的医学逻辑

数据优化

为了提升数据质量和训练稳定性,团队还使用了一种自蒸馏方法实现数据优化。

如下图所示,该方法分为两个步骤:待训练的模型首先根据训练数据集中的每个指令生成一个初始回答。这个初始回答包含了模型原有的知识,与模型内部分布一致。

之后,模型基于原始数据集中的指令和标准回答来修正它的初始回答,从而获得蒸馏后的回答。这个蒸馏步骤让模型生成一个与自己内部分布更加一致并且准确的答案。

最终,模型自蒸馏后的回答取代原始回答,用于该模型的微调阶段。该方法能够减少模型内部知识与新数据之间的分布差异,使模型在训练过程中更加稳定。

图片

图:模型训练的技术路线。(来源:论文)

通过这一系列严格而精细的数据处理步骤,研究团队成功构建了一个高质量的糖尿病领域数据集。

在模型开发方面,团队采用了开源大模型 Qwen2-7B-Instruct 进行微调。为了全面评估 Diabetica 的性能,研究团队设计并构造了多个针对糖尿病领域的评估基准,包括多项选择题测试、填空题测试和开放式问答测试。

对于开放式问答,团队中的医学对每道题事先制定了详细的回答准则,如准确性、完整性、同理心等。之后团队参考 LLM-as-Judge,使用 GPT-4 和 Claude-3.5 作为评审,给出不同模型回答的评分。

通过这些基准测试,团队详细比较了 Diabetica 与其他模型(包括开源和闭源模型)的表现。

下图的实验结果表明,Diabetica 不仅在所有任务中超越了其他开源模型,甚至在某些任务上表现超过了 GPT-4o、Claude-3.5-sonnet 等闭源商业模型,展示了其在糖尿病任务中的领先表现。

图片


图片

图:Diabetica 和其他模型在糖尿病测试基准的对比。(来源:论文)

通过引入自蒸馏技术,团队还有效缓解了模型在微调过程中可能出现的「灾难性遗忘」问题,即模型在学习新任务时可能会遗忘之前学到的知识。

如下图所示,团队的实验结果发现,与训练之前相比,Diabetica 在 GSM8K 的分数仅下降 0.27 分,在 MMLU 和 C-Eval 上甚至还有所提升。这种自蒸馏的训练方法使得 Diabetica 不仅加深了对糖尿病专业知识的理解,也极大程度地保留了基础模型的通用语言理解能力。

图片

Diabetica 的全方位临床应用

研究团队对 Diabetica 的能力进行了广泛的临床评估,验证了其在多种实际任务中的有效性。

医疗咨询

Diabetica 在医学咨询任务中展现出强大的自然语言理解和生成能力。研究团队选取了 20 个真实的在线糖尿病患者咨询案例,让专家评审组对 Diabetica 和人类医生回答进行评估。

结果显示,Diabetica 的回答在可读性、相关性、准确性、完整性、安全性和同理心等多个维度的表现均超过了人类医生的回答。

值得一提的是,在同理心维度上,Diabetica 获得了专家评审组的一致好评,甚至达到了满分。这一结果显示了大模型在情感交流方面的巨大潜力。

图片

医学教育

在医学教育领域,Diabetica 展现出了超越人类的潜力。研究团队设计了一系列多项选择题测试,内容涵盖糖尿病的诊断、治疗和管理等方面。测试对象包括医学学生、初级医生、高级医生以及 Diabetica 模型。

结果显示,Diabetica 在这些测试中的准确率达到了 84.4%,不仅超过了医学生和初级医生,甚至略高于高级医生 83.5% 的正确率。这一结果充分证明了 Diabetica 在糖尿病专业知识掌握方面的卓越能力。

同时,Diabetica 不仅能够给出正确答案,还能为每道题目提供详细的解释。研究团队将模型生成的解释与标准教科书的解释进行比较,发现 Diabetica 的解释在可读性和帮助性方面与教科书相当。

图片

临床记录总结

在繁忙的临床工作中,医生们常常需要花费大量时间整理和总结病历。Diabetica 在这一领域展现出了出色的应用价值。

研究团队设计了一项AI辅助的交叉研究,比较了使用 Diabetica 辅助和不使用 AI 辅助两种情况下医生撰写病历的效率和质量。

研究团队发现,使用 Diabetica 协助撰写病历的医生,完成病历的时间平均缩短了约 23%。同时,在病历的完整性评分上,使用 Diabetica 辅助的病历显著高于未使用模型的情况。

Diabetica 能够快速分析患者的详细病史,并将其整理为结构化的摘要,包括病程、症状、体征、血糖水平、并发症以及既往治疗信息等关键内容。这不仅大大提高了医生的工作效率,还确保了病历的全面性和准确性。

图片

Diabetica 家族

除了 7B 的大模型之外,Diabetica 家族还包括一个小模型版本,即 Diabetica-1.5B,适用于计算资源有限的场景。

例如,Diabetica-1.5B 可以在配置较低的笔记本电脑上运行,而 Diabetica-7B 则适合更高性能的 GPU 设备。

同时,Diabetica-1.5B 在多个糖尿病评估数据集上也超越了 Llama3-8B 等大模型。

研究团队已经将代码和模型开源。

代码:https://github.com/waltonfuture/Diabetica
模型:
https://huggingface.co/WaltonFuture/Diabetica-7B
https://huggingface.co/WaltonFuture/Diabetica-1.5B
理论大模型AI智慧医疗
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~