英伟达宣布全面支持ARM高性能计算，三周打造全球排名第22超算

ARM 架构服务器正在逐渐升温，这也少不了 AI 芯片巨头英伟达的参与。本周一，英伟达在德国宣布了与 ARM 全面合作的新计划：两家公司将合力推动构建超级计算机。而加速计算平台 CUDA 也将支持 ARM 架构，这一行动为深度学习、高性能计算打开了一条全新道路。

英伟达将于今年底前向 ARM 生态系统提供全堆栈的 AI 和 HPC 软件，这意味着它将为 ARM 的 600 多个 HPC 应用程序和所有 AI 框架提供加速，其中包括了所有 NVIDIA CUDA-X AI 和 HPC 库、GPU 加速的 AI 框架和软件开发工具，如支持 OpenACC 的 PGI 编译器和性能分析器。

相应支持上线之后，英伟达将为市面上所有主要 CPU 架构提供加速：覆盖 x86、POWER 和 ARM。

另一方面，英伟达也为自己在超算领域的实力秀了秀肌肉：宣布仅用三周时间就完成了一台全球排名达 22 位的超级计算机「DGX SuperPOD」，而且如果有需求，任何客户都可以复制这样的部署速度。

全力支持 ARM 架构

众所周知，ARM 目前是全球智能设备第一大主流芯片架构提供商，全球超过 90% 的智能设备采用了 ARM 的芯片架构，包括手机、平板、手表、电视、无人机等等。不过最近 ARM 正计划将自身架构的芯片用于数据中心和超级计算机上——而在高性能计算（HPC）领域，英特尔的芯片一直占据主导地位。

当然，ARM 与英特尔、IBM 也有所不同，前者只提供芯片设计的许可，用户可以在这一基础上自行制造所需的芯片。

「这种开放性……让 ARM 架构变得非常具有吸引力，」英伟达加速部门副总裁 Ian Buck 表示。「我们向 ARM 伸出橄榄枝的原因，是它能够为超级计算机提供开放的架构。」

在今年 3 月的 GTC 大会上，黄仁勋就曾表示英伟达正在和 ARM 共同开发人工智能专用芯片。而在 6 月 17 日德国法兰克福的国际超算大会上，英伟达终于宣布了全面支持 ARM CPU 的计划。

Ian Buck 表示，使用 ARM 制造超级计算机将会是一个「重要举措」。目前，来自欧洲和日本的研究人员已开始着手使用 ARM 技术开发超级计算机芯片。在英特尔 x86、IBM Power 之后，基于 ARM 架构的服务器正成为目前火热的方向。

去年 11 月，亚马逊率先发布了基于 ARM 架构的服务器芯片，并开始提供相应的云服务；2019 年 1 月，华为推出了基于 ARM 架构的服务器芯片鲲鹏 920，以及「TaiShan」服务器，引发了人们的广泛关注。通过使用 ARM 架构，各家公司或许可以基于自身业务的特性，打造更高效率的计算设备。

英伟达创始人、首席执行官黄仁勋对此表示：「超级计算机是促进科学发现的重要工具，建立百万兆级超级计算将能够极大地扩展人类知识的边界。随着传统计算规模扩展步伐的停止，功率也将成为所有超级计算机的限制因素。NVIDIA CUDA 加速的计算和 ARM 的高能效 CPU 架构的相结合，将助力 HPC 社区实现大幅提升，以达到百万兆级。」

「ARM 正在与生态系统合作，为基于 ARM 的 SoC 带来前所未有的计算性能提升，」ARM 首席执行官 Simon Segars 表示，「HPC 社区已经部署了 ARM 技术，以应对全球最复杂的研究挑战。通过与英伟达合作，将 CUDA 加速引入 ARM 架构，这一举措对于 HPC 社区来说，可谓是一大重要里程碑。」

根据 6 月 17 日发布的 Green500 排行榜，在全球最节能的 25 款超级计算机中，有 22 款都由英伟达帮助打造。

英伟达称，其中的关键因素在于：采用 NVIDIA GPU 的超级计算机能够将繁重的处理作业转化为更为节能的并行处理 CUDA 任务之上；英伟达与 Mellanox 合作优化整体超级计算集群的处理；以及英伟达推出的 SXM 3D 封装，以及可实现极密集型扩展节点的 NVIDIA NVLink 互连技术。

英伟达对基于 ARM 的 HPC 系统的支持建立在双方超过 10 年的合作基础之上。此前，英伟达的几款用于便携式游戏、自动驾驶汽车、机器人和嵌入式 AI 计算的系统级芯片产品都采用了 ARM 处理器。

超算中心、系统提供商以及系统级芯片制造商等在内的众多 HPC 行业及 ARM 生态系统中的全球领先企业，都表达了对于这些合作的支持。

三周打造超级计算机 DGX SuperPOD

英伟达昨天还公布了全球速度排名第 22 位的超级计算机「DGX SuperPOD」，为人工智能和高性能计算提供了一个全新范例。DGX SuperPOD 可以为满足企业的自动驾驶汽车部署项目提供所需的算力基础。

这台超级计算机系统的搭建，仅用时 3 个星期，其采用了 96 台 NVIDIA DGX-2H「超级计算机」与 Mellanox 互联技术。其处理能力高达 9.4 petaflops，能够用于训练安全自动驾驶汽车所需要的海量深度神经网络。

更吸引人的是，基于 DGX SuperPOD 的设计，客户可通过任意 DGX-2 合作伙伴购买整套超级计算机系统，或者其中的一部分。

自动驾驶汽车的人工智能训练可以说得上是密集型计算密的终极挑战。

一台数据收集车辆每小时能生成 1 TB 数据。整个车队经过数年行驶后，其数据量将会很快达到几 PB（千兆兆字节）的量级。这些数据会被用来根据道路规则对算法进行训练，并且还会被用来找出车辆内运行的深度神经网络的潜在故障，然后在连续的循环中再次训练。

NVIDIA 人工智能基础设施副总裁 Clement Farabet 表示：「若要保持人工智能领先地位，则需要在计算基础设施方面保持领先。很少有像训练自动驾驶汽车这样对人工智能又如此之高的需求，其需要对神经网络进行数万次的反复训练，以满足极高的精度需求。对于如此大规模处理能力而言，DGX SuperPOD 无可替代。」

DGX SuperPOD 内含 1,536 颗内含 Tensor Core 的 Tesla V100 GPU，由 NVIDIA NVSwitch 及 Mellanox 网络结构相联接，为其提供强力支持，使其能够以同等大小的超级计算机所无可匹敌的性能处理数据。

该套系统能够不间断运行，优化自动驾驶软件，并以前所未有的周转时间（turnaround time）反复训练神经网络。

例如，DGX SuperPOD 软硬件平台能够在不到 2 分钟的时间之内完成 ResNet-50 训练。在 2015 年，这种深度学习模型推出的时候，采用当时最快的单块 NVIDIA K80 GPU 需要 25 天才能完成训练任务。而 DGX SuperPOD 生成结果的速度较之加快了 18,000 倍。

英伟达称，其他具备同等性能的 TOP500 超级计算机系统都由数千台服务器构建而成，而 DGX SuperPOD 占地面积更少，其体积比这些同等系统小 400 倍左右。

英伟达发布 SuperPOD 并不仅仅是为了构建一台超级计算机，更希望以此为更多潜在客户提供一个范例：DGX SuperPOD 不仅能够快速运行深度学习模型，得益于其模块化和企业级设计，该系统还能够以极快的速度完成部署。在同等规模系统通常需要 6-9 个月完成部署的情况下，DGX SuperPOD 参考已验证范例仅需 3 个星期即可部署完毕。

通过构建像 DGX SuperPOD 这样的超级计算机，英伟达已经掌握了如何设计面向大规模人工智能任务的系统。这足以让高性能计算跨出学术界，为那些想要使用高性能计算加快其各种计划的交通运输公司及其他行业所用。

未来，英伟达还将与 ARM 共同打造适用于 IoT 设备的 AI 芯片专用 IP，并使这款机器学习 IP 集成到 Arm 的 Project Trillium 平台上，以实现端侧机器学习。

参考内容：

https://blogs.nvidia.com/blog/2019/06/17/dgx-superpod-top500-autonomous-vehicles/
https://www.reuters.com/article/us-nvidia-arm-inc/nvidia-to-work-with-arm-chips-deepening-push-into-supercomputers-idUSKCN1TI0M9

产业英伟达ARM架构