Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了

编辑 | ScienceAI

随着人工智能在医学影像领域的广泛应用,文本到图像扩散模型(如 Stable Diffusion)正逐步渗透到医学数据合成、医学教育和数据共享中。然而,尽管生成质量整体较高,模型在不同人口统计属性(性别、种族、族裔)上却存在明显差异。例如,实验表明,Stable Diffusion 在生成女性、白人及非西班牙裔样本时图像细节和临床特征更为突出,而在男性、亚洲人及西班牙裔样本上则表现欠佳。这种不均衡现象直接影响了后续临床特征检测、病情预测及诊断准确性,进而可能加剧医疗资源分配的不公平问题。

最近,来自哈佛大学和纽约大学等机构的研究者首次探讨了医学影像生成中的公平性问题,研究论文以《FairDiffusion: Enhancing Equity in Latent Diffusion Models via Fair Bayesian Perturbation》为题发表在《Science Advances》上。

图片

图片

研究团队认为医学影像生成存在以下挑战:

  • 噪声建模与分布不匹配问题

扩散模型的噪声去除假设数据服从统一分布,但真实医学数据在不同群体间存在分布偏移,导致单一全局损失难以平衡各群体的生成质量。

  • 公平性指标缺乏

传统指标(如 FID、IS)只关注总体质量,无法揭示不同群体间的性能差异。因此,该研究提出了 ES-FID、ES-IS 和公平 AUC(ES-AUC)等新指标,用于量化群体间的公平性。

  • 公平调控机制设计难题

如何在保证整体生成质量的同时,自适应地调节各群体的损失权重,是当前技术的一大难点。为此,该研究引入了公平贝叶斯扰动机制,通过针对不同群体施加自适应高斯扰动,缩小群体间的误差差距。

数据集与公平性问题探讨

图片

公平性研究需要高质量且具备多维敏感属性标注的数据。为此,该研究构建了 FairGenMed 数据集,其主要特点如下:

  • 数据来源与采集

FairGenMed 基于真实临床 SLO 眼底图像,数据采自一家大型学术眼科医院,覆盖 2015 至 2022 年期间的患者数据,并附带详细的临床指标(如青光眼风险、杯盘比、视野缺损程度等)。

  • 多维敏感属性标注

数据集中详细标注了性别、种族、族裔、首选语言、婚姻状况等敏感属性,允许针对不同群体单独分析,揭示模型在弱势群体上存在的性能不足问题。

  • 公平性问题的实际背景

在医学影像领域,不同群体由于生理差异和疾病风险的不同,在病理表现上可能存在细微区别。如果生成模型不能平衡学习这些差异,可能导致弱势群体的影像质量不达标,增加误诊风险,进而引发伦理和社会公平问题。

  • 数据集意义

FairGenMed 不仅为生成模型提供了充足且多样化的训练样本,同时也为公平性指标(如 ES-FID、ES-IS、ES-AUC)的设计提供了坚实的数据基础,有助于推动医学生成模型在公平性与实用性上的双重提升。

方法与技术细节

在上述背景与数据集支持下,该研究提出了 FairDiffusion 方法,其核心技术细节包括:

基础扩散模型损失:标准 LDM 的去噪损失定义为:

图片

公平贝叶斯扰动机制:为自适应调节各群体损失贡献,该研究在损失中引入扰动因子:

图片

群体间损失差异量化为衡量批次内各群体误差的不均衡,该研究定义了平均损失差异这一指标用于指导贝叶斯优化过程中扰动参数的更新。

图片

贝叶斯优化与参数更新:该研究将扰动参数的最优求解转化为贝叶斯优化问题:

图片

采用上置信界(UCB)作为采集函数,并用以下规则更新参数

图片

这一过程实现了探索与利用的平衡,逐步缩小群体间的性能差异。

公平评价指标:除了传统的 FID 和 IS 指标,该研究设计了公平扩展指标:

图片

以及公平 AUC(ES-AUC)指标,用于评估生成图像与文本提示间的语义一致性。

结果

  • 图像视觉效果对比

在新增的定性可视化图(图 2)中,该研究展示了真实 SLO 眼底图像、Stable Diffusion 生成的图像与 FairDiffusion 生成图像的对比。可以明显看出,FairDiffusion 生成的图像不仅结构更为清晰,而且在纹理和细节上更接近真实图像,尤其是在原本容易出现模糊和细节缺失的弱势群体样本上,优势更为明显。

图片

  • 整体生成性能提升

如下面几张图所示,该研究在 SLO 眼底图像上对比了 FairDiffusion 与 Baseline 模型(例如 Stable Diffusion 和 Debiased Diffusion)的 FID 和 IS 指标。FairDiffusion 取得了显著更低的 FID 值和更高的 IS 值,证明了其在整体图像生成质量上的优势。此外,通过 ES-FID 和 ES-IS 指标,可以看到各敏感群体(性别、种族、族裔)之间的性能差距明显缩小。例如,在白人、亚洲人和黑人群体中,FairDiffusion 减少了最大误差差距(最大 - 最小 FID 值)的幅度,确保生成图像在各群体间更为一致。

图片

非眼科数据集结果

在 HAM10000 皮肤病图像(图 6,8)和 CheXpert 胸部 X 光影像(图 6,8)上,该研究同样验证了 FairDiffusion 的有效性。对于 HAM10000 数据集,下图展示了 FairDiffusion 在不同年龄和性别组上的 ES-FID 和 ES-IS 指标均有大幅提升;而在 CheXpert 数据集中,无论是针对性别还是种族的细分指标,FairDiffusion 均实现了 FID 降低和 IS 提升的目标。这表明该研究的公平贝叶斯扰动机制在跨模态任务中均能稳定发挥作用,提升各群体的生成质量和公平性。

图片

语义一致性与临床相关性

该研究还设计了分类任务,对生成图像与文本提示之间的语义相关性进行评估。通过公平 AUC(ES-AUC)指标(图 7),可以观察到 FairDiffusion 生成的图像与临床特征描述具有更高的一致性,特别是在青光眼和杯盘比的分类任务中,弱势群体的 AUC 值均有明显提升。这一结果进一步证明了方法在提升医学语义相关性方面的有效性。

图片

图片

总结与展望

本论文首次探讨了医学影像生成中的公平性问题,并提出了基于公平贝叶斯扰动的 FairDiffusion 方法,并构建了具备多维敏感属性标注的 FairGenMed 数据集。通过对比实验,该研究证明了该方法在整体图像质量和各群体间公平性(通过 ES-FID、ES-IS 和 ES-AUC 指标)的双重提升效果。未来,研究团队将进一步扩充数据集规模、丰富敏感属性维度,并探索更多应用场景下的公平生成策略,以推动医学生成模型在全球医疗影像领域实现更为普惠、公正的应用。

理论医学影像
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

特征检测技术

特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

批次技术

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~