二阶优化!训练ImageNet仅需35个Epoch
近日,东京工业大学的研究者发表论文《Second-order Optimization Method for Large Mini-batch: Training ResNet-50 on ImageNet in 35 Epochs》,提出了一种二阶方法,实现了和优化 SGD 类似的准确率和效率。在 35 个 epoch 内,该方法把低于 16,384 的 mini-batch 收敛到了 75% 的 Top-1 验证准确率,而即使是 mini-batch 大小为 131,072 时,研究者花费 100 个 epoch 也只能取得 75% 的准确率。