论文标题:Adam-mini: Use Fewer Learning Rates To Gain More 论文地址:https://arxiv.org/pdf/2406.16793 实现代码:https://github.com/zyushun/Adam-mini
如图 4 (a) 和 (b) 所示,Adam 的表现优于最优的单学习率方法。这符合预期。 如图 4 (c) 和 (d) 所示,这里研究了其 Hessian 是 (a) 的一个密集子块的新问题。该团队探究了针对这个问题的最优单学习率方法,结果发现其表现优于 Adam,即使 Adam 分配的学习率要多得多。(a) 的所有三个子块都有类似的现象。 如果收集 (2) 中的那些最优学习率,并将其用于梯度下降的一个「逐块」版本,那么其在原始问题上的速度会比 Adam 快,见图 4(b) 中的绿线。
对于 Adam:
对于 Adam-mini:假设分片方式为 (1, 2, 3) 和 (4, 5),则