Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

科学家构建多模态LLM框架,进行3D脑CT放射学报告生成

图片

编辑 | 烂菜叶

多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。

虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。

在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

该团队还提出了面向特征的放射学任务评估 (FORTE),这是一种捕捉生成报告的临床本质的评估方案。

测试表明 BrainGPT 的平均 FORTE F1 得分为 0.71(degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779),并且在类图灵测试中,74% 的 BrainGPT 生成的报告与人类书写的基本事实无法区分。

该研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」为题,于 2025 年 3 月 6 日发布在《Nature Communications》。

图片

现代医疗保健中的人工智能 (AI) 实施彻底改变了医院在患者诊断、疾病干预和临床研究方面的日常实践。虽然卷积神经网络 (CNN) 已经攻克了图像分类和特征分割方面的一些主要任务,但 CNN 输出相对受上下文限制,并且不如完整的书面诊断报告那么令人担忧。

鉴于这一临床差距,已建立了用于胸部 X 光 (CXR) 解释的早期报告生成模型。其中,基于 LLM 的 CXR 报告生成的成功激发了跨学科领域科学家对人机界面的探索兴趣,其中多模态大型语言模型 (MLLM) 可以作为医疗专家的助手。

为了评估 MLLM 在放射学报告生成 (RRG) 中的准备情况,台北荣民总医院的研究人员调查了相关工作并确定了迄今为止 MLLM 放射学应用中的三个客观限制:

(1)研究最多的 CXR 模式缺乏足够的病变多样性来反映现实世界的诊断挑战,(2)在解释体积扫描时尚未充分测试最大模型容量,(3)没有可用于衡量 MLLM 报告信息密度和保真度的通用评估指标。

新方案

这些未解决的问题共同阻碍了具有影响力的医学 MLLM 的发展。在最新的研究中,该团队在通过解决以下问题来提高 MLLM 在放射学中的适应性:

(1)他们整理了一个大规模 3D 脑 CT 数据集(18,885 个文本扫描对),其中包含丰富的病变细节,包括神经元和血管 CT 特征的程度、空间标志和诊断印象。

(2)研究人员提出了临床视觉指令调整 (CVIT) 概念,以增强开源 Otter 基础模型的医学领域知识。在这种情况下,CVIT 增强型 BrainGPT 模型展示了多图像字幕(Image Captioning)功能,并对体积脑 CT 扫描进行了临床合理的解释。BrainGPT 模型的诊断准确性和语言风格在 CQ500 数据集上进行了外部验证,并包括 11 名医生评估员进行类似图灵测试的语言风格评估。

(3)团队提出了一种面向特征的放射学任务评估 (FORTE) 评估结构,来评估 MLLM 生成字幕的应用前景。FORTE 的变量包括诊断放射学句子中的四个基本关键字组成部分(程度、标志、特征和印象)。通过进一步检查生成的内容和评估分数之间的相关性,他们建议使用句子配对和否定消除对 MLLM 输出进行预处理可以增强对齐并过滤掉不相关的图像描述。

图片

图示:使用 MLLM 从 3D 脑部 CT 扫描生成放射学报告的示意图概述。(来源:论文)

性能评估与讨论

之前,Hamamci 团队研究表明,生成模型能够以最先进的 (SOTA) 水平生成 3D 胸部 CT 报告(BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9)。

然而,他们的定制 Transformer 模型需要在单个 NVIDIA A100 GPU 上进行 7 天的训练,而这里开发的 BrainGPT 模型只需要在两个 NVIDIA A100 GPU 上进行 12 小时的微调。

此外,Google AI 的 Med-Gemini-3D 可以生成 3D CT 报告,但只有 53% 的报告在人体评估中被认为具有临床有效性。使用大规模 Google TPUv4 加速器舱的高计算成本使得这种方法不适用于资源有限的一般研究。

相比之下,BrainGPT 使用端到端开源 Otter 框架(CLIP ViT-L/14 视觉编码器和 LlaMA-7B),允许进行实验复制和检查点共享。此外,BrainGPT 的训练成本降低,可以实现高效的视觉指令调整,提高模型性能并根据专业或风格要求定制响应。

图片

图示:采用临床视觉指令调整 (CVIT) 从基线 Otter 模型对 BrainGPT 进行微调。(来源:论文)

虽然该团队没有修改 Otter 模型结构,但他们将 SOTA 级性能归因于 RVIT 和 CVIT 的综合作用。

之前,Singhal 团队首先探索了医学领域中特定于任务的 RVIT,并报告说,聊天机器人的性能随着医学 QA 上下文示例启动而得到改善。同样,Med-PaLM M 使用图像提示(CXR 和病理幻灯片)以及临床指导来指导 MLLM 完成多模态医疗任务。

与这些研究相呼应,这里的 CVIT 模型(BrainGPT 模板、BrainGPT 关键字)在脑 CT 字幕制作方面的表现优于 RVIT 模型。这表明,精细的专家级指导设计可能会优化临床字幕制作任务的模型结果。

图示:通过医生参与的图灵测试评估 BrainGPT 报告的语言准备情况。(来源:论文)

研究人员还强调,传统指标不适合评估临床字幕任务。医学图像报告有助于鉴别诊断,因此具有复杂的释义、高标记数(>100)和大量负面描述的特点,这与常见的指标评估背景相冲突。

他们还观察到一种「解读狂欢」行为,其中 BrainGPT 从多对象脑 CT 上下文中提供脱靶(但不是幻觉)诊断叙述。这种行为是有害的,因为 (1) 脱靶效应可能会排除原发疾病焦点(例如中风或脑肿瘤),以及 (2) 扩大叙述可能会稀释传统指标,导致无效评估。

为此,FORTE 作为一个评估框架,由句子配对、否定删除和 4 类关键词提取组成,它可以连贯地限制模型幻觉、增强解释收敛性,并为医疗保健提供者提供即时放射学印象。

研究人员对不同的评估指标进行了皮尔逊相关性分析,并报告称 FORTE 方法比相对单一的传统指标涵盖了更广泛的医学语义维度。它与人类专家评估和 DocLens 评分的相关性都达到中等到高度,进一步证明了这一点。

此外,FORTE 框架是可定制的,可以在各种医疗任务之间转移,没有任何焦点限制,该团队的 GitHub 页面上提供了可互换的分类关键字库作为关键字 JSON 文件,并针对胸部 X 光、低剂量计算机断层扫描 (LDCT)、腹部 CT 和脑部 CT 任务展示了一些示例。

在 FORTE 框架内,BrainGPT 取得了令人称赞的表现,F1 得分达到 0.589,与一般医学疾病识别中最先进的 (SOTA) 性能相当,在先前的基准研究中报告的准确率为 59.2%。

自然语言处理实验中的人类专家评估是在不同的实验设计下进行的,并且服务于不同的研究目的。因此,在不同情况下,得到的观点往往不一致且不可比。因此,相关研究采用定量(完整性、正确性、简洁性)和定性(内容、语言、结构)测量来剖析区分合成临床报告和人工报告的引人注目的特征。

通过采用具有客观语言标准的类似设计,研究人员发现审阅者成功率和答案交替原因(「可疑措辞」和「都没有提到关键特征」)都与写作风格(「熟悉度和语气」和「细节的具体性或模糊性」)有关,而不是与句子级的写作质量和连贯性有关。一项独立的提示研究也强调了医学报告写作风格的重要性。

有趣的是,他们观察到输入案例不平衡会影响字幕写作风格,这可能与一般模型训练期间观察到的过度拟合有关。

局限性与结语

该研究同样存在几个局限性,或许在未来的工作中加以解决。

首先,这是一项试点体积脑 CT 字幕研究,没有对应的 MLLM 模块进行基准测试,因此研究人员无法证明 SOTA 级别的有效性;但是,他们应用了外部验证来确保脑 CT 模块中的字幕有效性。

其次,BrainGPT 是在退化导向数据上进行训练的,因此无法捕捉 CQ500 中的恶性肿瘤和急性创伤特征。这一现象反映出训练材料可能会为最终模块的灵活性打下基础。因此,团队建议纳入不同的疾病病因,以进行鉴别诊断,从而提高 MLLM 对边界脑 CT 特征的概括。

最后,该团队进行了 CVIT 并发明了面向临床的评估(句子配对、否定消除和 FORTE),但他们没有试验改变模型主干是否有利于脑 CT 标记。未来的研究途径可能是比较多模型结果并微调 CT 的视觉编码器和语言模型

论文链接:https://www.nature.com/articles/s41467-025-57426-0

理论
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~