上海交通大学与上海人工智能实验室联合团队的研究成果 ***PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents.*** 被国际医学顶级会议 **MICCAI**(International Conference on Medical Image Computing and Computer Assisted Intervention )接收,该研究聚焦医学人工智能,提出了迄今最大的医疗图文数据集,并训练了图文基础模型 PMC-CLIP。
文章作者为林玮雄(共一),赵子恒(共一),张小嫚,吴超逸,张娅教授,王延峰教授(通讯),谢伟迪教授(通讯)。
项目主页: https://weixionglin.github.io/PMC-CLIP/
论文链接:https://arxiv.org/pdf/2303.07240.pdf
代码链接:https://github.com/WeixiongLin/PMC-CLIP/
模型链接: https://huggingface.co/datasets/axiong/pmc_oa
研究背景
近年来,基于大数据预训练的多模态基础模型 (**Foundation Model**) 在自然语言理解和视觉感知方面展现出了前所未有的进展,在各领域中受到了广泛关注。基础模型往往需要大规模高质量的预训练数据集,而在医疗领域中,有两个关键的因素导致这样的多模态数据非常稀缺:
1. 医疗多模态数据标注需要很强的专业知识
2. 为保护病人隐私,大量医疗数据难以共享
因此,如何自动化地获取大规模高质量的医疗多模态数据,从而得到更普适的医疗多模态基础模型,是当前医学人工智能研究领域的难点和热点。
在此背景之下,我们探索了基于科学文献的医疗图文数据集构建,发布了包含1.6M图文对的生物医疗数据集,即 PMC-OA (源于 PubmedCentral OpenAccess Subset)。PMC-OA不仅在规模上达到了已有类似数据集的8倍,且涵盖了更加丰富的疾病、器官和影像模态。基于该数据,我们训练了类似 CLIP 的多模态医疗基础模型PMC-CLIP。该模型基于视觉-语言联合训练实现了涵盖多疾病、多器官、多影像模态的表征学习。在图文互搜,图像分类,视觉问答等下游任务上,PMC-CLIP预训练得到的视觉、语言编码器均能够显著提升性能。为开发人工智能辅助诊断的基础模型奠定了数据基础。
|
数据集介绍
PMC-CLIP 的核心是我们从科学文献中提取的图文数据集 PMC-OA。我们从2.5M的科学文献中收集了381K的医疗图文对。复合图像在科学文献中出现频率很高(在收集的图像中占比约80%),针对这一问题,我们设计了专门的步骤提取子图和子标题,并对齐两者得到更细粒度的图文对,如图1所示。基于我们提出的数据处理流程,PMC-OA除了在规模上达到之前工作的8倍,涵盖数据的丰富程度也超过以往。我们分别从3个角度进行观察:
- 诊断手段(Diagnostic Procedure):如图2.1 所示, 相比于之前的 ROCO, MedICaT 来说 PMC-OA 在样本丰富性和任一影像模态包含的样本数量上都有很大提升。
- 疾病(Disease and Findings):经过统计, PMC-OA 总共涵盖了 3255 种疾病. 如图2.2 所示, PMC-OA 涵盖了之前数据集中的常见疾病种类。
- 病人的年龄和性别(Patients' Age and Gender):如图2.3 所示, 数据集的样本涵盖了不同年龄段的病人,并且性别平衡
模型介绍
如图1(下) 所示,我们训练了一个 CLIP-style 的模型。分别用 视觉/文本编码器 对图文数据进行编码, 然后优化交叉熵损失从而使得两种模态的表征趋同。此外,将文本输入中的 Token 随机替换为掩码[MASK],并融合图文表征将掩码重建回本来的单词;从而 MLM(Masked Language Modeling)促进了图文模态之间的融合。模型初始化时,对视觉编码器进行随机初始化,而对于文本编码器用 PubmedBERT[5] 的权重进行初始化。
实验结果
我们将仅在 PMC-OA 上使用图像和文本预训练的 PMC-CLIP 模型,在多种下游任务、多个具有不同数据分布的公开数据集上进行了系统性评测,包括
- 图文检索: ROCO[1]
- 图像分类: MedMNIST[2]
- 视觉问答: VQA-RAD[3], SLAKE[4]
其中 ROCO 数据来自 PubMed;MedMNIST 数据包含不同器官、多种模态 (Colon Pathology, Chest X-ray, Abdominal CT, etc);VQA-RAD数据来源于 MedPix 中的教学示例。 SLAKE中的医学图像来自于公开数据集ChestX-8, CHAOS,并且由四川省人民医院的医师提供标注。
PMC-OA 数据集对于 Image-Text Retrieval 的提升显著
我们将用 PMC-OA 预训练的模型 PMC-CLIP 在 ROCO 上进行测试,并且在数据预处理中完全去除了 ROCO 与 PMC-OA 重合的部分。如表 1 所示,用PMC-OA进行预训练在 Image-to-Text 和 Text-to-Image 上均有显著提升。
特别地,PMC-OA Beta 表示使用未经过子图-子标题对齐的数据集,可以看出更细粒度的图文对齐可以有效提升表征学习的效果。
如表 2 所示, PMC-CLIP 和其他方法对比可以看出,相比于之前的各种模型,PMC-CLIP 对图文检索任务的提升显著。
Image Classification
如表 3,可以看出预训练之后模型在列举的3个子集的图像分类上均获得了显著提升。我们对于 MedMNIST 中的其他子集也进行了测试,证明 PMC-CLIP 对于不同疾病、模态都有增益。
Visual Question Answering
如表 4,PMC-CLIP 在 medical VQA Benchmark 上达到了和 SOTA 相当的性能。
总结
在医疗领域中,出于对用户隐私的考虑,通用基础模型的发展往往受到数据集稀缺的限制。我们提出了基于公开科学文献进行数据提取的方法,并且发布了大规模医疗图文数据集 PMC-OA。通过在该数据集上进行预训练,PMC-CLIP 模型在多种下游任务上获得了超过以往最优模型的效果。值得注意的是,我们提出的基于公开科学文献的数据流程不局限于当前的数据规模,随着医学领域各方面研究的进步,PMC-OA 会得到不断扩充。在提供更多训练样本的同时,其对应的医学专业知识也在不断更新,促进医疗基础模型在临床的应用和落地。
References
[1] Obioma Pelka, Sven Koitka, Johannes R¨uckert, Felix Nensa, and Christoph M Friedrich. Radiology objects in context (roco): a multimodal image dataset. In Intravascular Imaging and Computer Assisted Stenting and Large-Scale Annotation of Biomedical Data and Expert Label Synthesis: 7th Joint International Workshop, CVII-STENT 2018 and Third International Workshop, LABELS 2018, Held in Conjunction with MICCAI 2018, Granada, Spain, September 16, 2018, Proceedings 3, pages 180–189. Springer, 2018. 2, 4, 7
[2] Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, and Bingbing Ni. Medmnist v2-a large-scale lightweight benchmark for 2d and 3d biomedical image classification. Scientific Data, 10(1):41, 2023. 7
[3] Jason J Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific data, 5(1):1–10, 2018. 8
[4] Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. Slake: A semantically-labeled knowledge-enhanced dataset for medical visual question answering. In 2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI), pages 1650–1654. IEEE, 2021. 8
[5] Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare (HEALTH), 3(1):1–23, 2021. 8