编辑 | KX
多年来,计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。
然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」(Copilot)方面的研究却有限。
近日,哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手:PathChat。
研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择诊断问题上取得了最佳表现。此外,通过开放式问题和人类专家评估,PathChat 总体上对与病理学相关的各种查询给出了更准确、更受病理学家青睐的答案。
作为一种可以灵活处理视觉和自然语言输入的交互式通用视觉语言 AI Copilot,PathChat 可以在病理学教育、研究和人机交互临床决策方面找到有影响力的应用。
相关研究以「A Multimodal Generative AI Copilot for Human Pathology」为题,发布在《Nature》上。
论文链接:https://www.nature.com/articles/s41586-024-07618-3
近年来,计算病理学领域经历了显著的变革,这得益于数字切片扫描、AI、大型数据集以及大量高性能计算资源的融合发展。
然而,当前计算病理学的发展尚未反映出自然语言在病理学中的重要作用,自然语言是解锁丰富多样的人类医学知识积累来源的钥匙、模型开发的监督信号以及促进强大 AI 模型与最终用户之间直观交互的统一媒介。
在计算病理学领域,一些研究在选定的诊断和检索任务中表现出良好的零样本性能,而其他研究也尝试了专门用于生物医学视觉问答或字幕的模型。然而,对于病理学家、使用病理图像数据的研究人员或病理学受训者来说,这些模型尚未准备好充当交互式伴侣,无法遵循不同的指令,用自然语言连贯准确地回答复杂的开放式问题。
随着大型语言模型 (LLM) 的兴起,多模态大型语言模型 (MLLM) 和更广泛的生成式人工智能领域的快速发展有望为计算病理学开辟一个新的领域,除了强大的视觉处理能力外,它还强调自然语言和人机交互是 AI 模型设计和用户体验的关键组成部分。
人类病理学的多模态生成 AI Copilot
在此,研究人员开发了 PathChat,这是一种用于人类病理学的多模态生成式 AI Copilot,由自定义的、经过微调的 MLLM 提供支持。
为了构建一个可以对视觉和自然语言输入进行推理的 MLLM,从一款最先进的 (SOTA) 纯视觉编码器 UNI 开始,使用自监督学习对来自 10 万多张切片的超过 1 亿个组织学图像块进行了预训练。使用 118 万个病理图像字幕对对 UNI 编码器进行进一步的视觉语言预训练,以使其图像表示空间与病理文本的表示空间对齐。
随后,生成的视觉编码器通过多模态投影仪模块连接到具有 130 亿个参数的预训练 Llama 2 LLM,以形成完整的 MLLM 架构。MLLM 最终通过超过 45 万条指令(包括 999,202 个问答轮次)的精选数据集进行微调,以构建 PathChat,它可以理解病理图像和文本并响应复杂的病理相关查询。
图示:指令遵循数据集管理和 PathChat 概述。(来源:论文)
规模更小、成本更低
研究展示了 PathChat 在各种应用中的功能,包括分析来自不同器官部位和实践的病理病例。
研究人员创建了 PathQABench,这是一个高质量的专家策划的基准,旨在评估与解剖病理学实践相关的各种能力,包括组织学显微图像的形态学检查、根据组织学和临床背景进行诊断、评估肿瘤等级和分化、建议进一步进行 IHC/分子检测,以及了解潜在疾病的风险因素、预后和治疗。
图示:PathChat 的多项选择评估。(来源:论文)
通过多项选择式诊断问题以及开放式问题和人类专家评估的组合来评估这些技能。在这两种评估设置中,PathChat 与目前同类最佳的商业解决方案 GPT-4V(可能比 PathChat 规模更大、成本更高)相比毫不逊色,而且在诊断准确性和响应质量方面也大大优于公开测试的 MLLM。PathChat 规模明显更小且服务成本更低。
图示:开放式问题回答的表现。(来源:论文)
此外,还证明了对交互式多轮对话的支持可能使 PathChat 能够处理其他用例,例如复杂的诊断检查。
PathChat 可以分析和描述组织学图像中显著的形态细节,并回答需要病理学和一般生物医学背景知识的问题。
图示:探索 PathChat 的其他用例。(来源:论文)
未来进一步增强 PathChat 功能
研究人员希望随着技术的成熟,PathChat 能够在病理学教育、研究以及人机交互临床决策方面找到有影响力的应用。
未来的研究可能会通过增加对输入整个千兆像素 WSI 或多个 WSI 的支持,来进一步增强 PathChat 和基于 MLLM 的 AI 助手的功能。
此外,由于这些模型是在回顾性收集的大规模数据集上进行训练的,这些数据集不可避免地包含过时的信息,因此它们可能反映的是「过去的科学共识」,而不是今天的科学共识。
最后,为了让这些工具对病理学家和研究人员更有用,可以将类似 PathChat 的 AI 助手与数字切片查看器或电子健康记录等工具集成。
注:封面来自网络