Transformer 近年来已成为视觉领域的新晋霸主,这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用?
重叠 patch 嵌入;
卷积前馈网络;
线性复杂度自注意力层。
小样本学习是指在样本数量极其有限的情况下对模型进行微调。小样本学习的目标通过将获得的预训练知识稍微适应特定任务来激励泛化。如果成功地预训练了大型模型,那么在对下游任务非常有限的理解(仅由几个示例提供)的情况下表现良好是有意义的。
模型大小可能会限制表征质量,前提是有足够的数据来提供它;
大型模型受益于额外的监督数据,甚至超过 1B 图像。
大模型的样本效率更高,以更少的可见图像达到相同的错误率水平。
为了节省内存,他们删除了类 token (cls)。相反,他们评估了全局平均池化和多头注意力池化,以聚合所有 patch token 的表征。
他们对头部和称为「主干」的其余层使用了不同的权重衰减。作者在下图中很好地证明了这一点。框值是小样本精度,而横轴和纵轴分别表示主干和头部的权重衰减。令人惊讶的是,头部的更强衰减会产生最好的结果。作者推测,头部的强烈权重衰减会导致表示具有更大的类之间的余量。
右图:缩小架构级别。所提出的方法将空间 Transformer 应用于投影图像 block,然后有另一个网络负责捕获时间相关性。这类似于基于视频处理的 CNN+LSTM 获胜策略。
左图:可以在自注意力级别实现的时空注意力,红框中是最佳组合。通过首先将图像帧视为 token 来在时域中顺序应用注意力。然后,在 MLP 投影之前应用两个空间维度的组合空间注意力。下面是该方法的 t-SNE 可视化:
「每个视频都可视化为一个点。属于同一动作类别的视频具有相同的颜色。具有分割时空注意力的 TimeSformer 比具有仅空间注意力或 ViT 的 TimeSformer 在语义上学习更多可分离的特征。」
「SegFormer 的编码器自然地产生局部注意力,类似于较低阶段的卷积,同时能够输出高度非局部注意力,有效地捕捉第 4 阶段的上下文。如放大补丁所示,MLP 头部(蓝色框)的 ERF 与 Stage-4(红色框)不同,除了非局部注意力之外,局部注意力明显更强。」