2017/02/06 13:22

工作站化身超级计算机，英伟达新一代GPU剑指深度学习和虚拟现实

英伟达今天发布了基于其最新的 Pascal 架构的新一代 Quadro 系列显卡。该公司宣称，新的芯片组可将桌面工作站转变成为具有突破性能力的超级计算机，为不同行业的专业任务提供保障。新的 Quadro 芯片组可以为设计、工程和有关虚拟现实以及深度学习的各种领域提供硬件支持。这些显卡可以构建企业级视觉计算平台，为用户简化设计和模拟工作流难度，与上一代产品相比，新的显卡速度最多可以提升两倍。

「开发者们的专业工作流已经充斥着人工智能、虚拟现实和照片级图像处理任务，这对计算设备硬件提出了新的挑战，」英伟达专业可视化副总裁 Bob Pette 说道。「我们的新一代 Quadro 系列提供了解决这些挑战所需的图形和计算性能，通过统一计算和设计，Quadro GP100 可以将普通桌面工作站转换成为超级计算机。」

Quadro Pascal 视觉计算平台特性

本次推出的新一代 Quadro GPU 型号包括 GP100、P4000、P2000、P1000、P600 和 P400。这些芯片具有以下特点：

统一化的模拟、HPC、渲染和设计：GP100 结合了前所未有的高精度性能与 16GB 高带宽内存（HBM2）。同时，用户可以通过 NVLink 技术将两个 GP100 并联，在单个工作站上实现庞大的视觉计算解决方案。
探索深度学习：GP100 提供超过 20 TFLOPS 的 16bit 浮点精度计算，使其成为在 Windows 和 Linux 环境中深度学习的理想开发平台。
VR 设计和模拟工作流：新产品线中的 Quadro GP100 与 P4000 被标记为「VR Ready」，具有构建精细，沉浸式虚拟视觉环境的能力，可以提供庞大、复杂的交互设计体验。
加快图像设计速度：基于 Pascal 的 Quadro GPU 能以 CPU18 倍的速度输出照片级的图像。
更加宽广的视觉体验：在高达四个 5K 显示器上以高分辨率和 HDR 颜色显示数据。
经济高效：通过组合 8 个 P4000 GPU 和两个 Quadro Sync II 卡，可通过单个机箱带动多达 32 个 4K 显示器。

最新的显卡完善了整个英伟达 Quadro Pascal 系列，该系列目前包括 2016 年 10 月发布的 P6000、P5000 以及移动 GPU。整个英伟达 Quadro Pascal 系统支持最新的 Nvidia CUDA 8 计算平台，为开发者获取开发工具中最新的 Pascal 特征、性能强化、包括 nvGraph 在内的新库提供便利。

这些新推出的显卡中，最引人注目的自然是其中性能最强的 Quadro GP100。

基于英伟达 GP102 GPU 完全版，Quadro P6000 是第一个 Pascal 系列的高端 Quadro 显卡。这是一个明显的改变，自从启用 Kepler 和 Maxwell 架构之后，英伟达 GPU 的产品战略已经发生了变化。英伟达最强大的 GPU 不再同时兼顾三方使用者：客户、工作站和服务器。相反，服务器（和更广阔的计算市场）已经大到将所有赌注都压在了以计算为中心的 GPU 上。所以出现了 Big Pascal——独特的 GP100，而英伟达的图形工具则仍基于更小更传统（但依然非常强大）的 GP102。

因为英伟达 GPU 这种设计上的分裂，目前还不清楚这一专注计算的新 GPU 会适应英伟达的哪条产品线。Tesla 仍然是服务器卡的骨干，所以它不可能会出现在消费级的 GeForce 产品中。那么 Quadro 的市场会如何？它的前几代产品迎合了包括图形和计算两个市场的高端用户（也可能因为之前几代 GPU 带有混合用途的性质）。答案不言而喻，Big Pascal 毕竟已在 Quadro 家族占有一席之位。最值得玩味的是英伟达自己也叫它 Quadro GP100。

Quadro GP100 是基于英伟达 GP100 GPU 的显卡，但公司没有给出一个简单的说明，这很大程度上是因为 GP100 在英伟达 Pascal GPU 家族中的独特地位。一方面，Quadro GP100 回归到英伟达 Quadro 的产品线中。它是灵活的万金油，能做所有事情——图形和计算——包括 Tesla 显卡无法提供的功能，这些之前都是由 Quadro K6000 这样的显卡完成。另一方面，它不一定是英伟达最强大的工作站显卡：理论上说，其 FP32 /图形性能低于 Quadro P6000。那么，Quadro GP100 将会以什么样的姿态融入英伟达的大家族？

虽然 Quadro GP100 和 Tesla/GP100 系列听起来很像，但前者具有更多的功能。虽然英伟达提供 PCIe 接口的 Tesla P100 显卡，但它们只能在服务器上使用，仅支持被动冷却；缺乏主动冷却意味着你不能把它们应用于常规工作站中。与之相反，Quadro GP100 是传统形式带有风扇和散热片的显卡，同时英伟达也将 Tesla 系列不具有的图形计算功能加入到了 GP100 中。这或许可以解释为什么英伟达没有使用专业显卡 P 系列的命名——转而将其放在 GPU 系列之下。

Quadro GP100 面向不同用户。对于那些需要一台适合 GP100 显卡工作站的计算机用户来说，Quadro GP100 就是他们的选择。它能提供所有 GP 100 的核心功能，包括 ECC 存储器，半速 FP64，倍速（打包）FP 16 指令集。另外一个杀手锏就是，Quadro GP100 为 PCIe 引入了一个新的 NVLink 连接器，能让一对 Quadro 在一种双向 NVLink 配置中连接起来，这样 PCIe 就有了低延迟数据传输的好处，也可以接入 NVLink 存储器。很显然，这是目前 Tesla PCIe 显卡所不具备的。

正如英伟达所言，这款产品会很受计算机用户欢迎，他们对此很有信心，理由也很充分。Tesla P100 已经成了神经网络程序员中的抢手货，现在，研究人员们又有了适合工作站的显卡。

与此同时，该产品的第二市场也是传统的高端 CAD/CAE 市场。对于那些需要快速 FP64 性能和 ECC 存储器的工作站显卡（为了实现最大的精确性和可靠性）的特别用户来说，Quadro GP100 是第一个自 K6000 后提供此种功能的 Quadro 显卡。可以说，这是一个利基市场，因为几乎所有的 CAD 用户都不需要那种可靠性，但是，对于那些从事复杂工程模拟之类工作的用户来说，这个产品非常具有吸引力（更别提这是英伟达的又一个利润市场了）。满足这一市场需求也让 Quadro GP100 显得与众不同，因为这是唯一的一款开启图形功能的 GP100 显卡。

不过，当涉及到图形工作载荷时，Quadro GP100 和 P 6000 之间的区别就变得很模糊了。Quadro P6000 能够达到 12Tflops 的 FP32，而 GP 100 的描述是「大于 10 Tflops」, 同样 Quadro GP100 的纹理吞度量大约能达到这个数字的 83%。当然，纸面性能并非全部，但是，在纯信号吞吐限制场景下，P6000 的速度会更快。这也是更加紧凑（以及可制造）GP102 较之庞大的 GP100 的优势所在。

这里，一个出其不意的设计是 HBM2 存储器以及相关的 ROPs。英伟达正在专门兜售 Quadro GP100，在合适的适用场景下，能提供最快的诠释性能。英伟达并没披露 Quadro GP100 的官方存储频率，不过，如果类似 Tesla 对应的产品，那么，每秒达 720G，Quadro P6000 仅达每秒 432G。加上 ROP 计数上的优势——英伟达仍然没有披露 GP100 的 ROP 计数，不过，根据我们对 GP102 架构的了解，128ROP 的猜测是靠谱的——而且，Quadro GP100 纯像素处理能力要比 P6000 强劲 60%。考虑到 CAD/CAE 任务非常依赖于像素处理能力，对于某些 Quadro 用户来说，这是一个摸得到的优点。

它的一个缺点是存储容量。虽然由于 GDDR5X 更好的实际容量 Quadro P6000 能提供 VRAM 24 GB，但和所有的 GP100 产品一样，Quadro GP 100 最多是 HBM2 16GB。

这意味着对大数据集用户而言，单个 Quadro GP100 是好的选择，只是比 P6000 能获得的容量更小一点。值得一提的是，英伟达正在兜售 NVLink 帮助解决容量问题，但或许这种问题根植于计算，而非图显中。

除了 GPU 底层，Quadro GP100 集成了 Quadro 系列硬件所有典型的特征。这包括 4 DisplayPort 的 1.4 端口、显示输出的单个 DVI 端口，英伟达也把它分类为 VR Ready 系列产品。同时，显卡后方是 Quadro Sync 和 Stereo 连接器（connectors) 分别进行同步更新与四倍缓冲立体（quad-buffered stereo）。

同今天发布的其他 Quadro 显卡一样，英伟达希望 Quadro GP100 能赶在今年三月份发货。目前价格尚未确定，但因为 Quadro GP100 是 GP100 显卡的公版，据悉它的价格将会比 Quadro P6000 稍微高一些。

入门硬件英伟达GPU深度学习产业高性能计算