一种新颖的重复标准化、对抗性奖励的标题生成
虽然强化学习可以有效地改进语言生成模型,但它常常会产生不连贯和重复的短语。 在论文《A novel repetition normalized adversarial reward for headline generation》中,研究者提出了一种新的重复归一化对抗奖励来缓解这些问题。论文中的重复惩罚奖励可以大大降低重复率,而对抗训练可以减少产生不连贯的短语。研究者使用的模型在ROUGE-1 (+ 3.24),ROUGE-L (+ 2.25)和重复率降低(-4.98 %)方面明显优于基线模型。