谷歌新研究:过滤器响应归一化层:在深度神经网络的训练中消除批次依赖性
近日,来自谷歌研究所的团队发表了一篇名为「过滤器响应归一化层:在深度神经网络的训练中消除批次依赖性」的研究。该研究在机器学习社群受到了广泛的关注,以下是该研究的完整摘要分享:批次标准化(BN)是一种非常成功且广泛使用的批次相关训练方法。它使用小批量统计数据对激活进行归一化会引入样本之间的依赖性,如果小批量大小太小或样本相互关联,则可能会损害训练。为了解决这些问题,研究领域已经提出了几种替代方法,例如批量重新归一化和组归一化(GN)。但是,它们要么与大批量的 BN 的性能不匹配,要么对于小批量的 BN 仍表现出性能下降,或者对模型体系结构引入了人为的约束。研究人员提出了滤波器响应归一化(FRN)层,它是归一化和激活函数的一种新颖组合,可以用作其他归一化和激活的直接替代。该方法独立地对每个批次样品的每个激活图进行操作,从而消除了对其他批次样品或同一样品通道的依赖性。在所有批次大小的各种设置中,该方法都优于 BN 和所有替代方法。在 InceptionV3 和 ResnetV2-50 架构的 Imagenet 分类中,FRN 层在 top-1 验证精度上的性能要比 BN 大迷你批处理的性能高出约 0.7-1.0%。此外,在小批量生产中,在相同问题上,其性能比 GN 好 >1%。对于 COCO 数据集上的对象检测问题,在所有批次大小方案中,FRN 层的性能均优于所有其他方法至少 0.3-0.5%。