近日,来自 OpenAI 的研究者利用人类反馈优化了文本摘要生成模型,该模型生成的摘要质量显著提升,并且可以迁移至 CNN/DM 的文章生成新闻摘要。
研究表明,在英文摘要生成上,基于人类反馈的训练显著优于强大的基准训练;
人类反馈模型相较于监督模型能够更好地泛化到新的领域;
对其策略和奖励模型进行了扩展实验分析。
基于现有策略中收集样本,并将比较结果发送给人类;
从人类比较中学习奖励模型;
针对奖励模型优化策略。
控制摘要长度
策略如何在基准上实现提升?
优化奖励模型
奖励模型如何随着模型和数据量的增加进行扩展?