论文题目:Do Generated Data Always Help Contrastive Learning? 论文地址:https://arxiv.org/abs/2403.12448 代码地址:https://github.com/PKU-ML/adainf
真实数据和生成数据的比例。从人的角度来看,生成数据似乎以假乱真,但对于模型训练而言并非如此。他们发现,真实数据与生成数据的混合比例在 10:1 附近时达到最优,也就是说,1 个真实数据的「训练价值」约等于 10 个生成数据。这侧面说明了二者的差异。 训练策略的设计。他们发现,在使用生成数据进行训练时,如果维持原有的训练参数,则模型几乎没有提升。相反,如果随着数据集的扩充,而相应降低模型训练所使用的数据增广的强度,则可以获得显著提升。






数据扩充:不会改变标签错误 ,但可以提升图的连通性(
增大)(下图 5 (a))。
数据增广:数据增广强度增加,会使得 labeling error 增大(图 5 (b)),但同时使不同样本之间的交叠部分增加,即增广图的连通性增强(
增大)(图 5 (c))。

