74.7秒在ImageNet上训练ResNet-50
人们对于能够快速执行机器学习的算法有着强烈的需求,而深度学习的速度仅在过去两年就加快了30倍。使用大规模小批量的分布式深度学习是解决这个需求的关键技术,也是一项巨大的挑战,因为在不影响准确率的情况下,很难在大型集群上达到很高的可扩展性。在本论文《Yet Another Accelerated SGD: ResNet-50 Training on ImageNet in 74.7 seconds》中,研究者引入优化方法来应对这个挑战。他们应用这些方法在ABCI 集群上使用2,048个GPU实现了74.7秒的训练时。训练吞吐量为173万图像/秒,top-1验证准确率为75.08%。