Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

多中心医学图像分析模型,VFMGL框架破解数据孤岛难题,93.4% Dice系数的卓越表现

图片

编辑丨&

在众多中下游任务中,收到广泛而多样的数据集训练的基础模型表现出的强大性能,在医疗领域表现却不甚得人心。受到到数据量、异质性和隐私问题等问题的严重阻碍,基础模型得不到更进一步的发展。

桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight(VFMGL)框架,以促进各种医疗任务的专家临床模型的去中心化构建。

通过对一系列医疗任务和场景的广泛实验和分析,VFMGL 被证明在医学图像分类和分割任务中都取得了卓越的性能,有效地应对了数据异构性带来的挑战。

该研究以「General lightweight framework for vision foundation model supporting multi-task and multi-center medical image analysis」为题,于 2025 年 3 月 1 日刊登于《Nature Communications》。

图片

VFMGL

近年来,在自然语言处理领域,大规模语言模型使用了自我监督学习方法从大规模文本语料库中学习语言的内在结构,使大规模语言模型能够在多个自然语言处理任务中有着良好表现。

计算机视觉领域,视觉模型(VFM)基于自监督方法在具有不同质量和自然图像多样性的大型未标记数据集上进行训练,可以产生各类通用特征。而在医学领域,有效的通用知识可以缓解个体患者差异对模型性能的干扰。

但当上述 VFM 直接应用到医学图像分析时,由于自然图像与医学成像存在的差异,可能会导致各类干扰。因此,医疗领域迫切需要一种技术来从 VFM 中获取通用知识,使模型能够在确保准确性的同时降低训练和部署复杂性。

全新的 VFMGL 框架可以自适应地从 VFM 获取与医疗任务相关的常识,实现 VFM 的轻量化;同时可以维护数据隐私,促进跨多个医疗机构合作。它适用于各种分类与分割中的医疗任务,在特征和模型级别提供可解释性。

图片

图 1:VFMGL 框架概述。(图源:论文)

研究表明,神经网络非常有能力捕获特定于特定数据集的特征模式,以提高模型性能。VFMGL 利用联邦学习(FL)技术,支持在每个中心内严格保存医疗数据传输本地模型参数,跨多个中心聚合共享模型,保证本地数据的隐私性和安全性。

基于对因样本缺乏而导致共享模型缺少足够的知识进行预测的考虑,团队提出了我们提出了 DDBL 方法,该方法基于共享模型知识从每个中心选择低异质性数据。

与由模型逻辑层输出驱动的 KD 方法相结合,DDBL 使局部模型能够学习多个中心所拥有的常识,抑制它们学习特定特征模式的倾向,同时使用冗余参数进一步增强跨中心泛化能力。

VFMGL 在不同任务中的表现

乳腺癌是美国女性中最常见的癌症,大约 12% 的女性在其一生中被诊断出患有乳腺癌。而在整体的治疗过程中,识别淋巴结中的转移对乳腺癌患者具有重要意义。

在识别乳腺癌转移的组织图像鉴定中,VFMGL 鉴定率高达 97.15%,对非转移性乳腺组织图像的鉴定率高达 99.4%。有助于对全玻片图像进行准确的定性评估,以了解患者乳腺癌细胞转移的状态。

图片

图 2:五个中心的 5 个模型的雷达图比较。(图源:论文)

相对乳腺癌,前列腺疾病则是男性的常见疾病。从磁共振成像 (MRI) 扫描中精确描绘前列腺对于诊断和制定这些疾病的治疗策略至关重要。由于成像方案差异、线圈使用不同,AI 分割的准确性受到极大影响。

在此用例中,VFMGL 表现出正确识别非前列腺区域的出色能力。它减少了因为中心异质性带来的可能会导致目标区域的过度分割或远处区域的错误分割。

图片

图 3:六个中心的雷达图。(图源:论文)

细胞核的分割提供了基本的视觉信息和形态特征,例如大小、形状或颜色。这些信息和特征不仅有助于进一步处理病理图像,还可以帮助病理学家诊断和分析病情的进展。

VFMGL 解决了病理图像背景复杂、细胞核分布分散导致的细胞分割难的问题,在每个中心都表现出优异的性能。与其他方法相比,VFMGL 更有效地区分相邻的细胞核区域并减少错误分割的情况。

VFMGL 在各种场景和任务中保持了出色的稳健性,即使面临数据分布的不同变化也是如此。它对数据分布的变化表现出很强的抵抗力,预测性能仅有轻微的波动。

框架的总结

VFM 强大的特征提取能力和一般表示能力使其在预测未知目标时具有稳健性。团队提出的轻量化技术也使得模型参数大小可以压缩到其原始大小的八分之一,理论计算工作量可以减少到其原始值的十二分之一。

对本地模型在此阶段学习的特征的进一步探索揭示了它们与其他中心区分开来的独特特征,来自 VFM 的一般知识帮助局部模型在本地数据上实现稳健的特征表达。与现有的 FL 算法相比,开发的 VFMGL 表现出卓越的性能,证明了其在医学分类和分割方面的有效性。

VFMGL 处理各种医疗任务的能力已在一个私有数据集和三个公共数据集上得到验证。这个全新的模型还在医学图像分类与分割方面展示了自己的潜力。

考虑到 VFMGL 未来潜在的实际应用,实验团队分析了来自独立中心的数据特征与实验集的相似性。结果表明数据特征相似度越高则该中心的局部模型的预测性能越好。

团队最后提出,自适应特征和常见特征对模型稳健性和泛化的贡献仍需要进一步探索,这有助于发现进一步提高模型性能的方法。

论文链接:https://www.nature.com/articles/s41467-025-57427-z

代码链接:https://github.com/baofengguat/VFMGL/tree/main

入门医疗诊断精准医疗医疗AI for Science
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

细胞分割技术

细胞分割指从医学影像中分割出细胞图像,是细胞特征提取和细胞识别的基础。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~