
编辑 | 烂菜叶
多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。
虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。
在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。
该团队还提出了面向特征的放射学任务评估 (FORTE),这是一种捕捉生成报告的临床本质的评估方案。
测试表明 BrainGPT 的平均 FORTE F1 得分为 0.71(degree = 0.661; landmark = 0.706; feature = 0.693, and impression = 0.779),并且在类图灵测试中,74% 的 BrainGPT 生成的报告与人类书写的基本事实无法区分。
该研究以「Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation」为题,于 2025 年 3 月 6 日发布在《Nature Communications》。

现代医疗保健中的人工智能 (AI) 实施彻底改变了医院在患者诊断、疾病干预和临床研究方面的日常实践。虽然卷积神经网络 (CNN) 已经攻克了图像分类和特征分割方面的一些主要任务,但 CNN 输出相对受上下文限制,并且不如完整的书面诊断报告那么令人担忧。
鉴于这一临床差距,已建立了用于胸部 X 光 (CXR) 解释的早期报告生成模型。其中,基于 LLM 的 CXR 报告生成的成功激发了跨学科领域科学家对人机界面的探索兴趣,其中多模态大型语言模型 (MLLM) 可以作为医疗专家的助手。
为了评估 MLLM 在放射学报告生成 (RRG) 中的准备情况,台北荣民总医院的研究人员调查了相关工作并确定了迄今为止 MLLM 放射学应用中的三个客观限制:
(1)研究最多的 CXR 模式缺乏足够的病变多样性来反映现实世界的诊断挑战,(2)在解释体积扫描时尚未充分测试最大模型容量,(3)没有可用于衡量 MLLM 报告信息密度和保真度的通用评估指标。
新方案
这些未解决的问题共同阻碍了具有影响力的医学 MLLM 的发展。在最新的研究中,该团队在通过解决以下问题来提高 MLLM 在放射学中的适应性:
(1)他们整理了一个大规模 3D 脑 CT 数据集(18,885 个文本扫描对),其中包含丰富的病变细节,包括神经元和血管 CT 特征的程度、空间标志和诊断印象。
(2)研究人员提出了临床视觉指令调整 (CVIT) 概念,以增强开源 Otter 基础模型的医学领域知识。在这种情况下,CVIT 增强型 BrainGPT 模型展示了多图像字幕(Image Captioning)功能,并对体积脑 CT 扫描进行了临床合理的解释。BrainGPT 模型的诊断准确性和语言风格在 CQ500 数据集上进行了外部验证,并包括 11 名医生评估员进行类似图灵测试的语言风格评估。
(3)团队提出了一种面向特征的放射学任务评估 (FORTE) 评估结构,来评估 MLLM 生成字幕的应用前景。FORTE 的变量包括诊断放射学句子中的四个基本关键字组成部分(程度、标志、特征和印象)。通过进一步检查生成的内容和评估分数之间的相关性,他们建议使用句子配对和否定消除对 MLLM 输出进行预处理可以增强对齐并过滤掉不相关的图像描述。

图示:使用 MLLM 从 3D 脑部 CT 扫描生成放射学报告的示意图概述。(来源:论文)
性能评估与讨论
之前,Hamamci 团队研究表明,生成模型能够以最先进的 (SOTA) 水平生成 3D 胸部 CT 报告(BLEU-1 = 46、BLEU-4 = 36.9、METEOR = 29.5、ROUGE-L = 45.9)。
然而,他们的定制 Transformer 模型需要在单个 NVIDIA A100 GPU 上进行 7 天的训练,而这里开发的 BrainGPT 模型只需要在两个 NVIDIA A100 GPU 上进行 12 小时的微调。
此外,Google AI 的 Med-Gemini-3D 可以生成 3D CT 报告,但只有 53% 的报告在人体评估中被认为具有临床有效性。使用大规模 Google TPUv4 加速器舱的高计算成本使得这种方法不适用于资源有限的一般研究。
相比之下,BrainGPT 使用端到端开源 Otter 框架(CLIP ViT-L/14 视觉编码器和 LlaMA-7B),允许进行实验复制和检查点共享。此外,BrainGPT 的训练成本降低,可以实现高效的视觉指令调整,提高模型性能并根据专业或风格要求定制响应。

图示:采用临床视觉指令调整 (CVIT) 从基线 Otter 模型对 BrainGPT 进行微调。(来源:论文)
虽然该团队没有修改 Otter 模型结构,但他们将 SOTA 级性能归因于 RVIT 和 CVIT 的综合作用。
之前,Singhal 团队首先探索了医学领域中特定于任务的 RVIT,并报告说,聊天机器人的性能随着医学 QA 上下文示例启动而得到改善。同样,Med-PaLM M 使用图像提示(CXR 和病理幻灯片)以及临床指导来指导 MLLM 完成多模态医疗任务。
与这些研究相呼应,这里的 CVIT 模型(BrainGPT 模板、BrainGPT 关键字)在脑 CT 字幕制作方面的表现优于 RVIT 模型。这表明,精细的专家级指导设计可能会优化临床字幕制作任务的模型结果。

图示:通过医生参与的图灵测试评估 BrainGPT 报告的语言准备情况。(来源:论文)
研究人员还强调,传统指标不适合评估临床字幕任务。医学图像报告有助于鉴别诊断,因此具有复杂的释义、高标记数(>100)和大量负面描述的特点,这与常见的指标评估背景相冲突。
他们还观察到一种「解读狂欢」行为,其中 BrainGPT 从多对象脑 CT 上下文中提供脱靶(但不是幻觉)诊断叙述。这种行为是有害的,因为 (1) 脱靶效应可能会排除原发疾病焦点(例如中风或脑肿瘤),以及 (2) 扩大叙述可能会稀释传统指标,导致无效评估。
为此,FORTE 作为一个评估框架,由句子配对、否定删除和 4 类关键词提取组成,它可以连贯地限制模型幻觉、增强解释收敛性,并为医疗保健提供者提供即时放射学印象。
研究人员对不同的评估指标进行了皮尔逊相关性分析,并报告称 FORTE 方法比相对单一的传统指标涵盖了更广泛的医学语义维度。它与人类专家评估和 DocLens 评分的相关性都达到中等到高度,进一步证明了这一点。
此外,FORTE 框架是可定制的,可以在各种医疗任务之间转移,没有任何焦点限制,该团队的 GitHub 页面上提供了可互换的分类关键字库作为关键字 JSON 文件,并针对胸部 X 光、低剂量计算机断层扫描 (LDCT)、腹部 CT 和脑部 CT 任务展示了一些示例。
在 FORTE 框架内,BrainGPT 取得了令人称赞的表现,F1 得分达到 0.589,与一般医学疾病识别中最先进的 (SOTA) 性能相当,在先前的基准研究中报告的准确率为 59.2%。
自然语言处理实验中的人类专家评估是在不同的实验设计下进行的,并且服务于不同的研究目的。因此,在不同情况下,得到的观点往往不一致且不可比。因此,相关研究采用定量(完整性、正确性、简洁性)和定性(内容、语言、结构)测量来剖析区分合成临床报告和人工报告的引人注目的特征。
通过采用具有客观语言标准的类似设计,研究人员发现审阅者成功率和答案交替原因(「可疑措辞」和「都没有提到关键特征」)都与写作风格(「熟悉度和语气」和「细节的具体性或模糊性」)有关,而不是与句子级的写作质量和连贯性有关。一项独立的提示研究也强调了医学报告写作风格的重要性。
有趣的是,他们观察到输入案例不平衡会影响字幕写作风格,这可能与一般模型训练期间观察到的过度拟合有关。
局限性与结语
该研究同样存在几个局限性,或许在未来的工作中加以解决。
首先,这是一项试点体积脑 CT 字幕研究,没有对应的 MLLM 模块进行基准测试,因此研究人员无法证明 SOTA 级别的有效性;但是,他们应用了外部验证来确保脑 CT 模块中的字幕有效性。
其次,BrainGPT 是在退化导向数据上进行训练的,因此无法捕捉 CQ500 中的恶性肿瘤和急性创伤特征。这一现象反映出训练材料可能会为最终模块的灵活性打下基础。因此,团队建议纳入不同的疾病病因,以进行鉴别诊断,从而提高 MLLM 对边界脑 CT 特征的概括。
最后,该团队进行了 CVIT 并发明了面向临床的评估(句子配对、否定消除和 FORTE),但他们没有试验改变模型主干是否有利于脑 CT 标记。未来的研究途径可能是比较多模型结果并微调 CT 的视觉编码器和语言模型。
论文链接:https://www.nature.com/articles/s41467-025-57426-0