Reddit 热帖:优化器 AdaBound 兼备 Adam 和 SGD 特性
最近一个新研发的优化器在Reddit上引起热议。博主称,他们开发了一种名为 AdaBound 的新优化器,希望能够在无法看到的数据上实现更快的训练速度和更好的性能。其论文—具有动态学习率的自适应梯度方法—已被 ICLR 2019 接受以下是网站:https://www.luolc.com/publications/adabound/GitHub:https://github.com/Luolc/AdaBound公开评论:https://openreview.net/forum?id = Bkg3g2R9FX以下是论文摘要:已经提出了诸如 AdaGrad,RMSprop 和 Adam 之类的自适应优化方法来实现快速训练过程,其具有关于学习速率的元素缩放项。尽管普遍存在,但与 SGD 相比,它们的概括性较差,甚至由于不稳定和极端的学习率而未能收敛。最近的工作提出了一些算法,如 AMSGrad,以解决这个问题,但他们未能取得相对于现有方法的显着改进。在我们的论文中,我们证明极端学习率会导致表现不佳。我们提供了 Adam 和 AMSGrad 的新变体,分别称为 AdaBound 和 AMSBound,它们利用学习速率的动态界限来实现从自适应方法到 SGD 的渐进和平滑过渡,并给出收敛的理论证明。我们进一步对各种流行的任务和模型进行实验,这在以前的工作中往往是不够的。实验结果表明,新变种可以消除自适应方法与 SGD 之间的泛化差距,同时在训练早期保持较高的学习速度。此外,它们可以对原型进行重大改进,尤其是在复杂的深度网络上。该算法的实现可以在 https://github.com/Luolc/AdaBound 找到。