Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

图片

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。此外,缺乏可访问的开源模型和可靠的事实正确性评估方法,特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型(SMM)——LLaVA-Rad,以及用于事实正确性自动评分的新指标 CheXprompt。

图片

论文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光(CXR)成像,旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含 697435 对放射学图像 - 报告,并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是,LLaVA-Rad 仅需单个 V100 GPU 进行推理,并使用 8 个 A100 集群在一天内完成训练。

图片

LLaVA-Rad 的架构代表了一种小型多模态模型(SMM)的全新方法,尽管其规模显著小于 Med-PaLM M 等模型,但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段:单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制,将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段:预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

图片

与类似规模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均为 70 亿参数)相比,LLaVA-Rad 表现出卓越的性能。并且,尽管规模显著较小,但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型,在放射学文本评估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。

图片

LLaVA-Rad 在多个数据集(包括 CheXpert 和 Open-I)上均保持了优异性能,即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

理论微软研究院微软开源项目轻量化AI for Science
相关数据
视觉问答技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

推荐文章
暂无评论
暂无评论~