Facebook AI 新研究:如何让 Transformer 网络更加简单有效
Transformer 网络为包括机器翻译,文本理解以及语音和图像处理在内的许多深度学习的领域带来了很大的突破。这种网络非常强大,但同时也需要大量计算资源来满足训练以及推理。这限制了他们的大规模使用,特别是针对具有长期依赖性的序列的大规模使用。Facebook AI 正在研究如何使 Transformer 模型更简单,更高效。研究人员提出了两种新方法:第一种方法是通过适应性注意力跨度能够让 Transformer 网络对更长句子更有效。通过这种方法,研究人员能够在不显着增加计算时间或内存占用的情况下,将 Transformer 的注意力范围增加到超过 8,000 个令牌。第二种方法是通过全关注层来简化 Transformer 网络模型架构。即使采用更简单的架构,全方位关注网络也与 Transformer 网络的最先进性能相匹配。