BACKPACK,一种扩展反向传播算法的高效框架
来自图宾根大学与马克斯·普朗克智能系统研究所的研究团队发表了一篇名为「BACKPACK: PACKING MORE INTO BACKPROP」,以下是该研究的完整摘要分享:自动区分框架仅针对一件事进行了优化:计算平均小批量梯度。但是,从理论上讲,可以高效地计算其他量,例如小批量梯度的方差或与 Hessian 的许多近似值。尽管这些数量对于研究人员和从业人员非常感兴趣,但当前的深度学习软件不支持其自动计算。如果手动实现它们是繁琐且效率低下的,并且很少共享结果代码。这阻碍了深度学习的进展,并且不必要地缩小了研究的范围,而只专注于梯度下降及其变体。它还使复制研究和需要这些数量的新开发方法之间的比较变得复杂,以至于不可能。为了解决这个问题,研究团队引入 BACKPACK,这是一种基于 PYTORCH 的高效框架,该框架扩展了反向传播算法,可以从一阶和二阶导数中提取其他信息。通过在深度神经网络上计算更多数量的基准报告以及通过测试几种最近的曲率逼近进行优化的示例应用程序来说明其功能。GitHub 传送门:bit.ly/2tOZFJa