部分搅乱训练数据从而改进语言模型
尽管SGD需要在epoch之间搅乱训练数据,现在没有词级的语言建模系统这么做。在训练数据中朴素地搅乱所有语句无法让模型模型语句间的依存关系。在此论文《Partially Shuffling the Training Data to Improve Language Models》中,作者提出了一种方法,能够部分搅乱epoch之间的训练数据。这种方法随机产生每个batch,同时保证大部分语句顺序完整。该方法在Penn Treebank和WikiText-2数据集上取得了全新的SOTA结果。