英伟达在 NeurIPS 大会上发布最新款产品 Titan RTX,这是去年 Titan V 的「继承者」:价格更低,显存更大,性能更强,且使用图灵架构,因此具备强大的光线追踪能力。
今年英伟达发布了新一代 GPU 架构 Turing 和 Quadro RTX 系列,然后又发布了三款消费级 GeForce RTX 显卡,以及第一款 Turing Tesla T4。然而,英伟达的产品线中通常会有一款比较高端的显卡,这就是 Titan。Titan 不是旗舰卡也不算是消费级显卡,但它仍然是英伟达产品中非常有趣的存在,它是最快的显卡,其他卡无法企及,现在它成为英伟达主推的工作站计算显卡。
去年此时,英伟达在 NeurIPS 大会上发布了售价 3000 美元的 Titan V。今年英伟达再度选择在 NeurIPS 发布最新的 Titan 显卡——Titan RTX。Titan RTX 将于本月稍晚时候大批量上市,是英伟达为工作站计算和光线追踪提供的一款重量级产品,该显卡售价 2500 美元。
Titan RTX、Titan V、GeForce RTX 2080 Ti、Telsa V100 参数对比图。
从上图数字来看,Titan RTX 像是加强版的 GeForce RTX 2080 Ti。尽管它并非消费级显卡,但它与英伟达的消费级旗舰显卡 RTX 2080 Ti 一样,都基于 TU102 GPU,不过 RTX 2080 Ti 使用的是 GPU 的轻微缩小版,而 Titan RTX 使用的是完整芯片,类似于英伟达最好的 Quadro 芯片。此外,Titan RTX 的功能与 Quadro RTX 6000 非常相似。也就是说尽管 Titan RTX 并不是旗舰显卡,它也不属于第二梯队:其能力和速度与英伟达最好的 TU102 显卡相当,因此它属于顶级。
英伟达对其市场地位进行了观察,随着 Titan V 于去年上市,英伟达逐渐转向,不再将 Titan 定位为比 GeForce 具备更多内存和稍高性能的「专业消费级」显卡,而是更多地偏向于为非图形学任务服务的专业级工作站显卡。使用服务器级 GV100 GPU 缩小版的 Titan V 轻松实现了英伟达这一转向,但它仍受服务器级 GPU 的限制。现在英伟达重新使用更接近工作站级别的 GPU TU102,再次调整了其芯片之间的平衡。但是 Titan RTX 仍然是英伟达的工作站计算显卡,此外由于图灵架构追踪光线的能力,Titan RTX 也将是最适合内容创作者的光线追踪显卡。
深入来看,令 Titan RTX 与英伟达其他芯片都不一样的原因有三,尤其是 GeForce RTX 2080 Ti。原始性能是原因之一,我们能看到 Titan RTX 在着色、纹理生成和计算的性能提升了 15%,内存带宽和像素吞吐量增加了大约 9%。
但是,对英伟达真正市场——数据科学家和其他计算用户来说,重点是张量核心。英伟达修改了 GeForce 软件使用条款,禁止在数据中心运行深度学习等应用,这对专业市场影响很大。在图灵的最高精度 FP16 模式中,图灵能够不断进行 FP32 累积来获取更高的精度,然而在 GeForce 显卡上该操作被限制在半速吞吐量。而最新发布的 Titan RTX 移除了该限制,这款新型芯片可以在其张量核心上全速进行 FP32 累积。
鉴于英伟达的张量核有十几种模式,这似乎是 GeForce 和 Titan 之间存在的奇怪区别。然而对于数据科学家而言,这非常重要;FP32 累积对于神经网络训练来说通常是必需的(FP16 累积没有足够的精度),特别是在需要购买 Titan 和 Tesla 芯片的领域。所以这个微小的变化是对数据科学家用户的价值定位重要组成部分,因为英伟达没有提供更便宜的、具有 Titan RTX 可以达到的顶级 130 TFLOPS 张量性能的显卡。
最后一个因素是内存容量。GeForce RTX 2080 Ti 是一款 11GB 内存的显卡,Titan RTX 是一款 24GB 内存显卡。对于游戏玩家来说,11GB 都算大材小用了,但是再添加 13GB 显存可以打造或打破大型数据集。英伟达非常了解他们的市场。
除了市场定位之外,Titan RTX 的推出也意味着其余的张量性能优势最终将会出现在 Titan 级卡上。图灵架构引入了对低精度模式的支持,这有助于进一步将 Titan RTX 与去年的 Titan V 区分开来。总体而言,原本考虑 Titan V 的数据科学家们会注意到 Titan RTX 将显存容量提高了一倍,并将张量性能提高了 20%(精度较低时提升更多),以及图灵架构的所有其他改进。如果这还不够,英伟达此次还启用了 NVLink 功能(它在 Titan V 上被禁用),因此工作站用户也可以通过连接两张 Titan RTX 卡进行扩展,以获得更高的性能。
与此同时,英伟达也瞄准了这款显卡的内容创作者用户。数据科学家仍然是主要用户,但鉴于图灵架构对光线追踪进行了大量投入,英伟达似乎也应该在这里试验一下,看看哪个市场适合高端但非 Quadro 的光线追踪显卡。严格来说 Quadro 6000 在这里应该是优越的(如果仅仅看驱动程序和支持的话),但它价格高昂。因此,看看英伟达将为 2500 美元的光线追踪显卡 Titan RTX 开辟什么样的市场会很有趣。
虽然英伟达第一个注意到该卡并非真正用于游戏,但是自 Titan 使用 GeForce 驱动程序堆栈以来,即使 Titan V 也出售给一些游戏玩家,Titan RTX 的情况可能将大致相同。由于 Titan V 是唯一使用 GeForce 驱动程序的 Volta 架构卡,其在游戏支持方面很尴尬,而图灵架构则无处不在。所以 Titan RTX 应该表现得更像一个稍快的 2080 Ti,没有我们在 Titan V 上玩游戏时看到的那么多性能不一致。
在设计方面,与其前任一样,Titan RTX 也非常贴近 GeForce 系列的风格。值得注意的是,英伟达在这一代产品中使用了露天双风扇散热器,而不是传统的鼓风机,如 Titan V 或目前的 Quadro 卡。正如我们在 GeForce 卡上看到的那样,露天双风扇散热器可以最大限度地增大气流并降低温度。但是对于 Titan 而言,这是一个混合包,因为英伟达允许将 Titan RTX 与 NVLink 配对。露天冷却卡需要用户更多的关注,而鼓风机在工作站中基本上设置好后就可以忽略。然而,Titan RTX 显卡的 TDP 功率为 280W,这是图灵卡中功率最高的,比 Titan V 高 30W。人们据此可以看出为什么英伟达有兴趣将冷却性能最大化放到其他优先级之上。这也意味着理论上 Titan RTX 的平均时钟频率应该比 Quadro 略高,因为它具有更多的散热和 TDP 余量;所以至少现在为止,它可能是所有 TU102 卡中最快的。
Titan RTX 是一款非常典型的英伟达设计显卡。它具有与 Quadro 和 GeForce 显卡相同的端口配置,具有 3x DisplayPort 1.4 输出、HDMI 2.0b 端口和支持 DP alt 模式的 USB-C 端口,以及 VR 耳机的 VirtualLink 标准。Titan 的独特之处当然是它的金色配色方案,让它不会与 GeForce 混淆。英伟达为 Titan RTX 取的绰号是「霸王龙」(T-rex),这似乎是第一次有人提供 T-rex 黄金版。
无论如何,数据科学家和其他任何想要了解英伟达工作站「恐怖」之处的人,请准备好钱,准确地说是 2500 美元。对于英伟达来说,这个价格实际上比 3000 美元的 Titan V 还要低一些(TU102 制造成本更低,特别是没有 HBM2),但它仍然是一款昂贵的显卡。这款新显卡 Titan V 将在本月本月晚些时候出现在英伟达网站(http://www.nvidia.com/titan-rtx)。
活跃在 NeurIPS
英伟达把最高端的 Titan 显卡放在 NeurIPS 大会期间发布,这不是一个巧合:去年的 NIPS 大会上,黄仁勋正是在英伟达举办的晚宴上发布了 Titan V,还现场赠送了显卡。
今年,英伟达在 NeurIPS 上同样活跃,一篇「GAN 生成视频」的论文再次引来了人们的关注。其中人工智能技术与传统视频游戏引擎相结合,这种混合图形系统未来有望应用于游戏、电影和虚拟现实等领域。
英伟达放出的 Demo 视频是一个模拟驾驶环境,其中玩家可以在 AI 生成的城市中驾驶车辆——重要的是,这个演示视频仅需一块 GPU 即可实现(不过得是 Titan 级别的)。
真实图像与 AI 生成图像的对比。
英伟达的系统使用几个步骤来生成图形。首先,研究人员收集训练数据,这些数据来自用于自动驾驶研究的开源数据集。随后,计算机对这些图像进行分割处理——每一帧都被分成不同的类别:天空、汽车、树木、道路、建筑物等。然后,对分割后的数据训练生成对抗网络(GAN),以生成虚拟图像。
论文:Video-to-Video Synthesis
我们研究了视频到视频的合成问题,目标是学习从输入源视频(例如,一系列的语义分割掩码)到输出照片级视频的映射函数,输出视频精确地描绘了源视频的内容。与之对应的图像问题,即图像到图像合成问题是目前流行的研究课题,而视频到视频的合成问题则在文献中很少出现。在没有理解时间动力学的情况下,直接把已有的图像合成方法应用到输入视频通常会导致视觉效果差、时间不连贯的视频输出。
在本文中,我们提出了一种新型的生成对抗网络框架下的视频到视频合成方法。通过精心设计生成器和判别器架构,结合空间-时间对抗目标函数,我们在多种输入视频格式下生成了高分辨率、时间连贯的照片级视频,其中多种形式的输入包括分割掩码、草图和姿态图。
在多个基准上的实验结果表明,相对于强基线,我们的方法更具优越性。特别地,我们的模型可以合成长达 30 秒的 2K 分辨率街景视频,与当前最佳的视频合成方法相比具备显著的优势。最后,我们把该方法应用到未来视频预测中,结果超越了多个当前的最佳系统。
图 1:Cityscapes 结果。其中左上为输入图像、右上为 pix2pixHD 生成的图像、左下为 COVST 生成的图像、右下为本论文提出方法生成的图像。
参见:画个草图生成 2K 高清视频,这份效果惊艳研究值得你跑一跑
这一研究目前已经开源:
参考内容: