一种考虑缓和KL消失的简单VAE训练方法
变分自编码器(Variational Auto-Ecnoders, VAEs)在自然语言处理的很多任务中都有应用。当 VAEs 用到自然语言处理时,它的解码器 decoder 通常由一个自回归模型(auto-regressive model)实现。然而这样往往会导致训练过程中出现一个糟心的难题:KL 正则项会消失趋近 0。在实践中,这意味着学习到的特征将不再能够表达观测到的数据。论文《Cyclical Annealing Schedule: A Simple Approach to Mitigating KL Vanishing》的目的是希望能够找到一种策略去解决 KL 消失问题。该论文提出一种只需要在训练过程中动态调节 beta 就能缓和 KL 消失的策略:Cyclical Annealing Schedule。