图 1:CounterAnimal 测试示例,这张北极熊图像展示了从常见的雪地背景 97.62% 的零样本准确率下降到少见的草地背景 70.91%。
引言
大型视觉语言模型,如 CLIP,在广泛的多模态任务中展示了令人印象深刻的性能优势,在分布外泛化上超越了在如 ImageNet 这类数据集上训练的单模态模型[1]。然而,现有的测试数据集主要是基于 ImageNet 训练模型通常遇到的假相关性来构建的。这些数据集可能无法充分反映 CLIP 模型在如 LAION 这样的数据集上训练时所面临的独特假相关性。这种不匹配引发了对 CLIP 模型与以 ImageNet 为导向的假相关性基准测试的有效性的担忧,因为它们可能未能全面捕捉 CLIP 模型在处理真实的假相关性时所面临的挑战[3,4,5,6,7,8]。
接下来我们向大家分享在 NeurIPS 2024 上发表的研究成果。这项工作探讨了如何可靠地评估并提高大规模视觉语言模型在面对真实分布外数据的鲁棒性,特别是通过新构建的 CounterAnimal 数据集评估 CLIP 模型在分布外场景下的表现。该数据集特别设计用来测试 CLIP 模型对于环境背景变化的鲁邦度,从而揭示在不同背景下,CLIP 模型性能的变化,为理解和改进模型在实际应用中的泛化能力提供了可靠的依据。
我们提出了一个名为 CounterAnimal 的新数据集。这个数据集旨在特别揭示 CLIP 模型对其训练环境中真实存在的假相关性的依赖性。CounterAnimal 将动物图像根据背景分组,为每个类别设立对于 CLIP 来讲的“简单”和“困难”两个子类别。这种设置使我们能够直接评估 CLIP 模型对比通常在 ImageNet 中发现的假相关性集合更多样化和真实的假相关性。
我们的评估表明,CounterAnimal 捕获的假相关性通常会被使用不同模型和训练数据集的 CLIP 模型学习。我们不仅从实验层面挑战了先前对 CLIP 鲁棒性的认知局限,还提供了对应的理论分析,以解释为何 CLIP 的训练目标无法提供额外的鲁棒性。此外,我们还探索了如增加模型参数,数据规模,以及使用高质量数据等策略对 CLIP 模型鲁棒性的影响。尽管我们发现了一些有益的策略,但它们并不足以完全消解假相关性带来的影响。这表明我们在未来还需要进一步改进训练策略,以更好地应对 CLIP 模型在真实世界的广泛应用。
CounterAnimal 数据集:CLIP 鲁棒性的新基准
人工智能应用需要频繁面临开放世界中广泛且不可预测的环境,因此 CLIP 模型不仅需要展现总体较高的准确率,还必须保持对常被传统基准忽视的假相关性的鲁棒性。为此,我们引入了专门构建的 CounterAnimal 数据集,用以评估 CLIP 模型对可能在传统数据集如 ImageNet 中未能充分代表的假相关性的鲁棒性。CounterAnimal 数据集包含 45 个动物类别,共计 7,174 张“简单”照片和 5,926 张“困难”照片。
数据集创建过程
我们使用了来自 iNaturalist 的图像,并根据背景对其进行分类。例如,北极熊的图片通常呈现雪地背景。然而,我们的数据集额外包含一组反例,例如北极熊出现在草地环境的图片,这对 CLIP 模型学习到的关联性构成了一定的挑战。
1.数据收集:我们从 ImageNet-1K 数据集中选择一批具有代表性的动物种类,然后从 iNaturalist 检索相应的图像。
2.数据策划:每张图像都经过严格的筛选,我们手动移除了包含歧义或质量低下的图像,确保数据集只包含清晰、明确的图像。
3.背景标记:我们对每张图像进行了的背景标注,选择反映每个物种的环境标注。这一精确的标记对于设置我们的实验至关重要。
4.发现假相关性:最后一步涉及根据背景将图像分类为“简单”和“困难”两组。这种分类基于预训练的 CLIP 模型在不同背景下的表现。
该数据集主要使用 CLIP-LAION400M-ViT-B/32 模型来发现假相关性。
可视化 CounterAnimal 数据集的结构和布局
我们在图 3 中展示了 CounterAnimal 数据集的分布,并在附图中展示了其目录结构。图 3 显示了每个动物类别的图像数量,分为“简单”和“困难”的背景组。目录结构图说明了数据是如何被组织的,背景则被分类为“简单”或“困难”组。
图 3:各种动物类别的数据布局。水平轴表示类别 ID,垂直轴表示简单和困难组的照片数量。
图4:CounterAnimal 数据集的目录结构。
CounterAnimal 的基本性质
图 5展示了在比较“简单”和“困难”背景设置下 CLIP 模型的零样本分类准确率的变化。该图表明 CLIP 模型在常见环境中虽然表现出较强的零样本泛化性能,但面对分布外或“困难”背景时性能会显著下降。
此可视化展示了模型对背景信息的依赖。在背景与训练数据匹配的场景中(“简单”),模型表现良好。然而,当引入非典型背景时(“困难”),准确率会显著受到影响,展示了 CLIP 模型分布外泛化能力的差距。这一现象表明了 CLIP 模型对环境信息的依赖,很大程度上限制了这些模型在真实世界应用中的有效性。
图5:使用 CLIP-LAION400M-ViT-B/32 的性能下降(%)。水平轴表示类别 ID,垂直轴表示下降的百分点。
## 研究发现和详细观察
### 详细的性能分析
表 1 展示了使用 CLIP-LAION400M-ViT-B/32 模型在 CounterAnimal 数据集上的零样本性能结果。这种设置测试了模型识别动物类别的能力,突出显示了它在常见(“简单”)分布外(“困难”)背景下的泛化能力。这个表格显示了每个动物类别在两种背景类型下的准确率,并计算了模型在遇到分布外背景时性能下降的百分比。这量化了 CLIP 模型对背景环境的依赖以及性能变化。
动物标签 | 简单背景 | 准确率(简单) | 困难背景 | 准确率(困难) | 下降(%) |
北极熊 | 雪 | 97.62% | 草地 | 70.91% | 26.71% |
黑天鹅 | 水 | 93.63% | 土地 | 68.87% | 24.76% |
火烈鸟 | 水 | 79.70% | 天空 | 55.45% | 24.25% |
秃鹫 | 天空 | 87.76% | 树 | 41.84% | 45.92% |
屎壳郎 | 地面 | 56.92% | 手 | 17.02% | 39.90% |
实验结果
图 6提供了在不同评估设置下,不同模型在 CounterAnimal 数据集上的表现比较。这个图突出了模型面对简单和困难分类场景时的性能变化。
图 6:在两种评估设置下的性能比较,展示了 CLIP 模型对 CounterAnimal 数据集中假相关性的鲁棒性。较大的数据集和模型大小由标记的大小和颜色深浅表示。
图 6中的分析可以引申到如下结论:
-普遍的假相关性:CLIP 模型在从“简单”组过渡到“困难”组时表现出显著的性能下降,表明 CounterAnimal 数据集确实包含了各种 CLIP 模型配置中普遍存在的假相关性。
- ImageNet 模型的鲁棒性:ImageNet 模型(红色标记)显示出比 CLIP 变体更强的鲁棒性,挑战了先前关于 CLIP 强鲁棒性和强泛化能力的片面认识。
-模型和数据规模的影响:较大的模型显示出更强的性能,表明增加模型容量可以提高鲁棒性。相反,仅扩大数据集大小(颜色较深的标记)并未带来类似的改善,表明扩大数据规模对性能的提升是有限的。
- 高质量数据和模型鲁棒性:在高质量数据上预训练的 CLIP 模型(CLIP-DC 和 CLIP-DFN)显示出更强的鲁棒性,强调了数据质量对于模型性能的重要性。
这些观察对于理解 CLIP 及其他大型视觉语言模型在现实世界多样性条件下的行为至关重要,并强调了实现真正鲁棒的多模态人工智能系统面临的持续挑战。
实验分析
我们的研究通过使用精心构建的 CounterAnimal 数据集,专注于评估在不同数据以及模型条件下 CLIP 模型对假相关的鲁棒性。
假相关的普遍性
在这一部分,我们评估 CounterAnimal 数据集捕获的假相关性在不同 CLIP 模型设定中的普遍性。我们分析不同预训练数据集和模型如何影响 CLIP 的鲁棒性。结果显示,在测试“简单”和“困难”组时,不同模型和预训练数据集的性能都出现了显著下降,表明由 CounterAnimal 标识的假相关性确实在不同的 CLIP 训练范式中普遍存在。
图 7:不同 CLIP 设定的结果。
规模扩大可以提升鲁棒性
我们的分析还扩展到扩大规模和质量对于 CLIP 鲁棒性的影响。我们发现,较大的模型和高质量的数据通常显示出更强的鲁棒性。然而,单纯增加数据规模并不足以缓解模型受到假相关的影响。
表 2:提高预训练数据和模型规模的结果。
评估其他学习范式
最后,我们扩展了对其他学习范式的评估,以了解它们如何与 CLIP 在处理假相关性方面的比较。这部分分析涉及评估在不同条件下训练的模型,包括那些在 ImageNet 上有监督训练的和更先进的语言视觉模型。结果表明,各类视觉语言模型仍然易受假特征的影响,凸显了视觉语言预训练所面临的持续挑战。
表 3:ImageNet 模型和 CLIP 模型的性能比较。
理解 CLIP 依赖假特征的原因
进一步而言,我们介绍了一个理论框架以系统性地分析 CLIP 对假特征的依赖性。我们将定义两种类型的特征:不变特征,对任务有用,以及假特征,对任务没有帮助。我们发现,这些假特征可能主导 CLIP 模型的学习过程,导致模型在训练中表现良好但在分布外的环境中表现不佳。
假相关性的关键定理
如下,我们提出了一个形式化地描述假特征对模型性能影响的定理。
定理 1:展示假特征对 CLIP 模型的影响。
该定理表明,当 CLIP 模型在假特征与输出标签强相关的数据上训练时,只要这些相关性存在,它就能达到高准确率。然而,在这些相关性不存在的分布外设置中,模型的准确率会显著下降。这和我们在 CounterAnimal 上的真实实验观察是一致的。
实际影响和未来方向
对于未来人工智能发展,尤其是对于使用大规模多模态数据集训练的模型意味着什么?我们的发现强调了设计更好的训练策略的必要性,这些策略可以减少对这些误导特征的依赖。这对于开发真正鲁棒和可靠的 AI 系统至关重要,这些系统可以跨不同环境运行。
有关我们实验以及理论的详细讨论,请参考我们在https://counteranimal.github.io/上的完整研究论文的补充材料。
参考文献
1. Jingyi Zhang, Jiaxing Huang, Sheng Jin, and Shijian Lu. Vision-language models for vision tasks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.
2. Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion5b: An open large-scale dataset for training next generation image-text models. In NeurIPS, 2022.
3. Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. Invariant risk minimization. arXiv preprint arXiv:1907.02893, 2019.
4. Xiao Zhou, Yong Lin, Weizhong Zhang, and Tong Zhang. Sparse invariant risk minimization. In ICML, 2022.
5. Yong Lin, Hanze Dong, Hao Wang, and Tong Zhang. Bayesian invariant risk minimization. In CVPR, 2022.
6. Xiao Zhou, Yong Lin, Renjie Pi, Weizhong Zhang, Renzhe Xu, Peng Cui, and Tong Zhang. Model agnostic sample reweighting for out-of-distribution learning. In ICML, 2022.
7. Yong Lin, Fan Zhou, Lu Tan, Lintao Ma, Jiameng Liu, Yansu He, Yuan Yuan, Yu Liu, James Zhang, and Yujiu Yang. Continuous invariance learning. In ICLR, 2024.
8. Yong Lin, Lu Tan, Yifan Hao, Honam Wong, Hanze Dong, Weizhong Zhang, Yujiu Yang, and Tong Zhang. Spurious feature diversification improves out-of-distribution generalization. In ICLR, 2024.
9. Xiaoyu Tan, Lin Yong, Shengyu Zhu, Chao Qu, Xihe Qiu, Xu Yinghui, Peng Cui, and Yuan Qi. Provably invariant learning without domain information. In ICML, 2023.
10. Yongqiang Chen, Kaiwen Zhou, Yatao Bian, Binghui Xie, Bingzhe Wu, Yonggang Zhang, MA KAILI, Han Yang, Peilin Zhao, Bo Han, and James Cheng. Pareto invariant risk minimization: Towards mitigating the optimization dilemma in out-of-distribution generalization. In ICLR, 2023.
11. Yongqiang Chen, Wei Huang, Kaiwen Zhou, Yatao Bian, Bo Han, and James Cheng. Understanding and improving feature learning for out-of-distribution generalization. In NeurIPS, 2023.
12. Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, and Dawn Song. Natural adversarial examples. In CVPR, 2021.
13. Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, and Vaishaal Shankar. Do imagenet classifiers generalize to imagenet? In ICML, 2019.