410倍加速,1.5分钟实现ImageNet训练
扩展深度神经网络(DNN)训练以减少模型训练时间非常重要。高通信开销是跨多个GPU进行分布式DNN培训的主要性能瓶颈之一。论文《Optimizing Network Performance for Distributed DNN Training on GPU Clusters: ImageNet/AlexNet Training in 1.5 Minutes》表明,流行的开源DNN系统只能通过56 Gbps网络连接的64个GPU实现2.5的加速比。为解决此问题,作者提出了一个名为GradientFlow的通信后端,用于分布式DNN培训,并采用一组网络优化技术。首先,作者将基于环的allreduce、混合精度训练和计算/通信重叠集成到GradientFlow中。其次,作者提出延迟allreduce通过将多个通信操作融合到单个通信操作来提高网络吞吐量,并设计粗粒度稀疏通信以通过仅传输重要的梯度块来减少网络流量。在512 GPU上训练ImageNet / AlexNet时,该方法可实现410.2倍加速比,并在1.5分钟内完成95次训练周期,优于现有方法。