基于自我批评策略的文本迁移学习
深度神经网络需要大量的数据,因此当只有小文本数据集训练模型时就会遇到困难。迁移学习是解决这类问题的一种常用方法,但在文本领域迁移学习并不如在图像领域表现地那么好。在论文《Deep Transfer Reinforcement Learning for Text Summarization》中,作者研究了文本摘要的迁移学习问题,并讨论了为什么现有的模型无法在其他数据集无法很好地生成。作者提出了一种基于自我批评策略梯度方法的强化学习框架,该方法在各种数据集上实现了良好的泛化和最优的结果。