我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。
Torch.compile:PyTorch 模型编译器, PyTorch 2.0 加入了一个新的函数,叫做 torch.compile (),能够通过一行代码对已有的模型进行加速; GPU 量化:通过降低运算精度来加速模型; SDPA(Scaled Dot Product Attention ):内存高效的注意力实现方式; 半结构化 (2:4) 稀疏性:一种针对 GPU 优化的稀疏内存格式; Nested Tensor:Nested Tensor 把 {tensor, mask} 打包在一起,将非均匀大小的数据批处理到单个张量中,例如不同大小的图像; Triton 自定义操作:使用 Triton Python DSL 编写 GPU 操作,并通过自定义操作符注册轻松将其集成到 PyTorch 的各种组件中。
将 nn.LayerNorm 或 nn.GELU 等操作序列融合成一个单一的 GPU 内核; 融合紧跟在矩阵乘法内核之后的操作,以减少 GPU 内核调用的数量。