北京时间 6 月 30 日,MLCommons 社区发布了最新版 MLPerf 基准测评结果 (v2.0) 。在新榜单上,英伟达仍然占据主导地位,但其也正被竞争对手追上。
与此同时,AI 芯片领域的其他参与者——人工智能芯片制造商 Graphcore 和 Habana Labs(英特尔)及谷歌也展示了强劲表现。本期榜单成绩提交者的数量从去年 12 月的 14 家增加到 21 家。总体而言,新一轮的结果比上一轮性能提高了大约 1.8 倍。
作为业界最受人关注的 AI 基准测试,MLPerf 已有四年历史。最新一轮的榜单中,持续提交者包括 Azure、百度、戴尔、富士通、技嘉、谷歌、Graphcore、HPE、浪潮、Intel-Habana Labs、联想、Nettrix、英伟达、三星和 Supermicro。首次提交 MLPerf 成绩的有 ASUSTeK、CASIA、H3C、HazyResearch、Krai 和 MosaicML。
值得注意的缺席者是 Cerebras Systems,它一直对 MLPerf 表示不感兴趣。
「在新一轮测试中,有 21 家公司和机构提交了 MLPerf 基准测试成绩,总共超过 260 份提交。业界参与度正在显著增加,对于整个基准测试平台来说情况很好。21 名提交者使用了四种不同的加速器,从谷歌、Graphcore、Habana 到英伟达。我们很高兴看到在这一轮中 90% 的 MLPerf 提交都使用了英伟达 AI 平台,」英伟达加速计算产品管理总监 Shar Narasimhan 说道。
在本期榜单中,英伟达(谷歌)成绩最为亮眼:其在四个类别中表现最佳。
由于系统配置差异很大,且测试方法不同,因此在 Top500 超算列表中没有一个 MLPerf 的获胜者。由于缺乏拥有强大技术实力的竞争对手,我们可以看到英伟达的硬件横扫了基本每一个类别。不过参与 MLPerf 的机器学习加速器种类也在缓慢增长,与英伟达的硬件相比它们的性能已有所提高。
在上面来自英伟达的图表中显示了系统(或云实例)训练模型的绝对时间结果。Google TPUv4 在 BERT 和 ResNet-50 上的表现最好。直接从 MLPerf 电子表格中查看 ResNet-50 结果,两个 Google 实例(tpu-v4-8192 和 tpu-v4-6912)分别有 4096 和 3456 个 TPU 芯片,交付时间分别为 0.191 和 0.230 分钟。
具有 4216 个 NVIDIA A100-SXM-80GB GPU 的 Nvidia DGX 完成时间为 0.319 分钟。具有 256 个 Bow IPU 的 Graphcore 系统 (Bow-Pod256) 则耗时 2.672 分钟。
显然,不同的系统大小和加速器数量是影响训练时间的重要因素,各家使用的软件堆栈的不同通常也会让对比变得棘手。在最新一轮的训练中,英伟达尝试在每个芯片上标准化性能,并表示它在六项测试中具有最快的每芯片性能。
在新一轮测试中,MLPerf 添加了一个新的对象检测基准,用于在更大、更多样化的 OpenImages 数据集上训练新的 RetinaNet 参考模型。MLPerf 表示,新测试更准确地反映了最先进的机器学习训练,适用于自动驾驶和机器人的防撞以及零售分析等应用。
每组基准测试通常有两个部分:封闭部分旨在对硬件平台或软件框架进行一对一比较,并要求使用与参考实现相同的模型和优化器。开放部分旨在找到更快的模型和优化器,并允许任何能够达到目标质量的机器学习方法。
MLCommons 执行董事 David Kanter 表示:「如果我们将这一轮的最佳结果与之前的高水位线进行比较,性能大约提高了 1.8 倍。这是一个非常重要的进步。」
毫无疑问,在 Training v2.0 中提交的系统中,英伟达仍然是主导者,约占 90%。该公司未将其最近发布的 Hopper GPU 送入最新一轮测试,鉴于新的 Hopper Tensor Cores 能够应用混合的 FP8 和 FP16 精度数据类型,下一轮 MLPerf 上,英伟达的成绩将会继续提升。
Narasimhan 表示:「我们希望专注于商业上可用的产品,这就是我们提交 A100 成绩的原因。这是我们第四次提交 A100 Tensor Core GPU。两年前,我们在 2020 年 7 月的 MLPerf 0.7 训练中引入了它,现在我们正在同一个 GPU 上进行第四次提交。它仍然是提交每个基准测试的唯一加速器。谷歌提交了四个不同的基准,而 Graphcore 和 Habana 都只提交了两个基准。在这一轮中没有 CPU 提交。」
Narasimhan 同时认为规模非常重要:「尤其是来自 Nvidia 和 Google 的提交,我们在特定提交中使用了数千个加速器。这就是为什么你会看到一些谷歌提交的训练时间很短。其他参与者的规模较小,因此他们的时间要长得多。我们不能低估大规模提交的重要性,它使我们能够训练更新、更复杂的模型,尤其是一些新的大型语言模型。」