CMU、谷歌提出Transformer-XL:学习超长上下文关系
近日,卡耐基梅隆大学联合谷歌大脑、谷歌 AI 发表了一篇论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》,参与此项研究的人员包括杨值麟、Quoc Le、Ruslan Salakhutdinov 等。Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。在此论文中,研究人员提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。