编辑 | ScienceAI
近期,生成式人工智能革命为准确感知、分析病理学图片中的海量信息提供了强有力的解决方案。与此同时,多模态生成式人工智能技术的突破更将助力从时空多尺度理解数字病理学图片并与其他生物医学模态相融合,从而更好刻画患者疾病演变、发展过程,协助医生进行临床诊断和治疗。
然而,由于数字病理学图片的大规模、高像素、特征复杂等特点,从计算角度高效处理和理解其中的复杂模式十分具有挑战性。每张全切片数字化转型之后将包含数十亿像素,其面积达到自然图像的十几万倍,应用现有的计算机视觉模型难度较大。传统的视觉模型,如Vision Transformer,其计算复杂度随着输入图片的大小的增加快速上升。同时,临床医学数据具有跨尺度、多模态和高噪声等特点,而现有的病理学模型大多基于标准公开数据集,依然同现实世界的应用具有不小的距离。
为此,来自微软研究院、美国Providence的医疗网络和华盛顿大学的研究人员,共同提出了首个全切片尺度的数字病理学模型GigaPath。
GigaPath模型采取两阶段的级联结构,和微软研究院近期开发的LongNet架构,高效解决了十亿像素级别图像的处理和理解问题。Providence的研究人员收集到旗下28家美国医院的3万病人授权的17万张全切片数字病理学图片,共计13亿张病理学图块。微软、华盛顿大学和Providence的研究人员合作将GigaPath在这些真实世界数据上进行了大规模预训练。
实验结果表明,GigaPath在26个任务,包含9个癌症分型和17项病理组学任务,在其中25项任务取得领先效果,在18项任务中显著高于现有方法。
研究人员相信,该研究展示了全切片尺度层面的建模和大规模真实世界数据的预训练极其重要,同时,GigaPath也将为更加先进的癌症护理和临床发现提供全新可能。
值得一提的是,GigaPath的模型和代码已经开源,研究人员欢迎世界各地的研究者一道探索和使用GigaPath。
相关研究以《A whole-slide foundation model for digital pathology from real-world data》为题,于 5 月 22 日发布在《Nature》上。
方法
GigaPath采用两阶段课程学习,包括使用DINOv2的图块级预训练和使用带有 LongNet 的掩码自动编码器的全切片级预训练(见图1)。DINOv2是一种标准的自监督方法,在训练教师和学生Vision Transformer时结合了对比损失和掩码重建损失。然而,由于自注意力自身带来的计算挑战,其应用仅限于小图像,例如256 × 256图块。
对于全切片级建模,我们将扩张注意力(Dilated Attention)从LongNet (https://arxiv.org/abs/2307.02486) 应用于数字病理学(见图2)。
为了处理整张全切片的长图像图块序列,我们引入了一系列递增的尺寸,用于将图块序列细分为给定尺寸的片段。对于较大的片段,LongNet引入稀疏注意力,稀疏性与片段长度成正比,从而抵消平方增长。最大的尺寸片段将覆盖整个全切片。这能够以系统的方式捕获远程依赖关系,同时保持计算的易处理性(上下文长度呈线性)。
主要实验结果
在癌症分型诊断方面,任务目标定位于根据病理切片对细粒度亚型进行分类。例如,对于卵巢癌,模型需要区分六种亚型:透明细胞卵巢癌、子宫内膜样卵巢癌、高级别浆液性卵巢癌、低级别浆液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。
GigaPath在所有九项癌症分型任务中均获得领先效果,在其中六项癌症类别分型中准确率提升具有显著性。对于六种癌症(乳腺癌、肾癌、肝癌、脑癌、卵巢癌、中枢神经系统癌),GigaPath的AUROC达到90%或更高。这对于癌症诊断和预后等精准健康领域的下游应用来说是个好的开始。
在病理组学任务中,任务目标定位于仅根据全切片图像预测肿瘤是否表现出特定的临床相关基因突变。该预测任务有助于揭示组织形态和遗传途径之间难以被人类察觉的丰富联系。除了一些已知特定癌症类型和基因突变对之外,全切片图像中存在多少基因突变信号仍是一个尚无答案的问题。此外,在一些实验中,研究人员考虑了泛癌场景,即在所有癌症类型和非常多样化的肿瘤形态中识别基因突变的通用信号。
在如此具有挑战性的场景中,GigaPath在17项任务中的16项中再次达到了领先性能,并在其中12项任务中显著优于第二名。Gigapath可以在整个全切片水平上提取遗传相关的泛癌和亚型特异性形态特征,为真实世界场景下的复杂未来研究方向打开了大门。
此外,研究者通过引入病理报告进一步证明了GigaPath在多模态视觉语言任务上的潜力。此前,关于病理视觉语言预训练的工作往往集中在图块级别的小图像上。
相反,GigaPath探索全切片级别的视觉语言预训练。通过继续对病理学报告对进行预训练,利用报告语义来对齐病理学图像的隐空间表征。这比传统的视觉语言预训练更具挑战性,在不利用任何单个图像图块和文本片段之间的细粒度对齐信息的情况下,GigaPath在标准视觉语言任务中显著优于三种最先进的病理学视觉语言模型。
总结
通过丰富全面的实验,研究人员证明了GigaPath的相关研究工作是全切片层面预训练和多模态视觉语言建模层面的良好实践。
值得一提的是,尽管GigaPath在多任务上取得了领先效果,在某些特定任务层面依然具有较大的进步空间。同时,尽管研究人员探索了视觉语言多模态任务,但在朝向搭建病理学层面的多模态对话助手的道路上,依然有很多具体问题需要探索。
作者信息
GigaPath是横跨微软研究院、Providence医疗系统和华盛顿大学保罗艾伦计算机学院的合作项目。其中,来自微软研究院和华盛顿大学的二年级博士生许涵文和来自微软研究院的首席研究员Naoto Usuyama为论文共同第一作者。来自微软研究院Health Futures团队的General Manager Dr. Hoifung Poon (潘海峰), 华盛顿大学的王晟教授,以及Providence的Dr. Carlo Bifulco为论文的共同通讯作者。
许涵文:华盛顿大学二年级在读博士生。研究方向为AI和医学交叉。科研成果发表于Nature, Nature Communications, Nature Machine Intelligence, AAAI等。曾担任Nature Communications, Nature Computational Science等子刊审稿人。
王晟:华盛顿大学计算机系助理教授,研究方向专注于AI和医学交叉。科研成果发表于Nature, Science, Nature Biotechnology, Nature Machine Intelligence and The Lancet Oncology, 研究转化成果被Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine,Providence等多个医疗机构使用。
潘海峰:微软研究院Health Futures General Manager,研究方向为生成式AI基础研究以及精准医疗应用。在多个AI顶会获最佳论文奖,在HuggingFace上发布的开源生物医学大模型总下载量达数千万次,部分研究成果开始在合作的医疗机构和制药公司中转化为应用。