MegEngine

使用 MegEngine 训练 ResNet18/ResNet50，显存占用分别最高降低 23%/40%；在更大的 Bert 模型上，降幅更是高达 75%，而额外的计算开销几乎不变。