今年的 GTC 大会议题覆盖了 AI 框架、开发工具、数据科学、云计算、实时渲染、光线追踪、以及 5G 通信等等方面。垂直方向则包含了自动驾驶、智能机器、医疗与金融、设计、工程制造等领域。
在 GTC 上,英伟达还发布了全新的 TensorRT 7.0 版,通过全栈优化,延续超越摩尔定律的算力加速。在过去一年里,英伟达围绕 CUDA 等工具接连发布了 500 多个 SDK 和库,深度学习的训练能力在过去三年内提高了四倍,深度学习的推理在一年内提高了两倍。
最强自动驾驶芯片:性能提升 7 倍
作为英伟达的年度盛会,发布新处理器自然也是必不可少的环节。英伟达在今天的 GTC 上推出的下一代自动驾驶芯片 NVIDIA DRIVE AGX ORIN 成为了全场大会的焦点。
这款芯片提供的算力可以达到 200TOPS,是此前英伟达自家芯片 Drive Xaiver 的 7 倍,也超过了特斯拉今年推出的自动驾驶芯片 Autopilot Hardware 3.0(144TOPS)。
「ORIN 包含 170 亿个晶体管,8 个核心,性能相当于 Xavier 的 7 倍,」黄仁勋介绍道。「同时它拥有全新的安全特性,可以使 CPU 和 GPU 锁步运行。」
在英伟达的路线图中,Orin 系列可以覆盖从 L2 到 L5 的自动驾驶技术,它代表一种新的架构,与已有的 Xavier 兼容,通过与已有软硬件(包括 GPU)的结合,英伟达可以提供效率更高的自动驾驶解决方案。Orin 系列计划于 2022 年开始投产。
黄仁勋现场宣布,滴滴将在数据中心使用 GPU 训练机器学习算法,并采用 DRIVE 为其 L4 级自动驾驶汽车提供推理能力。
在采访环节,黄仁勋针对 Orin 在自动驾驶场景下的安全性进行了补充解释。他表示 Orin 并不是一颗简单的芯片,设计参考数据中心,支持虚拟化,采用应用隔离,足够快的加速引擎将实现所有内存涉及到的计算都进行加密,设置了四把密钥,让每一台车的计算都是独一的;同时加入防止篡改方案。
几年前人们认为,自动驾驶将在 2020 年迎来拐点,ORIN 的推出或许将会加速这一过程的发生。不过即使是在自动驾驶以外的领域,英伟达也希望通过自己的技术为造车带来改变。
「我们希望持续不断地提高汽车的自动驾驶和安全性。即使是在非自动驾驶汽车上,智能化技术的引入可以像安全气囊和 ABS 这样的功能一样提高安全性,这对于乘客的生命安全都会有益的。」英伟达汽车事业部高级总裁 Danny Shapiro 表示。
「我们的目标不是自动驾驶汽车,而是致力于为全球各家车企提供智能驾驶的算力设备。我们希望在未来,汽车、卡车、送货机器人都可以拥有完整的自动驾驶能力。」黄仁勋介绍到。
在硬件之外,英伟达还宣布在 NGC 上推出了 NVIDIA DRIVE 预训练模型。这一次,通过迁移学习,预训练模型可以经过调整适应 OEM 厂商的特定汽车、传感器和地区要求,更快地部署上路。
当然还有联邦学习。现在很多公司都希望落地这种方法解决数据隐私问题。英伟达提供的 Drive Federated Server Global Model 可以提供给每个 OEM 厂商使用,帮助他们提升自己的模型,又结合各自的数据,可以提供彼此的模型水平。
在现场,英伟达还展示了物体操纵机器人 LEONARDO,它可以通过人在现实世界的指导(交互)很快学会堆叠积木等技能。通过景深摄像头、GPU 以及虚拟环境 Issac Gym,机器人可以在仅需少量示例的情况下快速学习新技能。
携手腾讯将 PC 游戏带入云端
英伟达推出的光线追踪技术 RTX 今年正在逐渐被各家游戏厂商,以及专业软件公司所接受。在今天的 GTC 上,黄仁勋首先介绍的还是图形技术的最新应用。首先是国民游戏《我的世界》,支持 RTX 渲染的新版 Minecraft 将在 2020 年发布,RTX 将支持其实时的 GI(全局光照)和一般反射等灯光效果。
在发布会现场,黄仁勋宣布了 RTX 技术对于一系列国内游戏的支持,其中包括《Project X》、《轩辕剑 7》等等。此外还有更强大的案例,FYQD 工作室制作的《光明记忆:无限》,借助 RTX 技术,只需要一个人就可以构建出完美的 3D 全局光照效果。
在 GTC 上,英伟达宣布了与腾讯合作,推出 START 云游戏服务,将电脑游戏体验引入云端。业界领先的 GPU 将为全国百万玩家带来更好的游戏体验。率先支持的游戏将包括《流放之路》、《NBA(2K)》、《FIFA 4》、《炫舞时代》等。
据介绍,英伟达的 GPU 技术为腾讯游戏的 START 云游戏服务赋力,该服务已从今年初开始进入测试阶段。START 使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩 AAA 游戏。腾讯游戏计划将扩展其云游戏产品,为数百万玩家提供与本地游戏设备一致的游戏体验。
在专业领域,英伟达发布了很多新的软件产品。RTX Studio 面向内容工作者推出 40 余个产品,涵盖从配备 GeForce RTX 2060 的 Max-Q 笔记本一直到配备 4 路 SLI Quadro RTX 8000 的工作站和配备 8 路 RTX 8000 的服务器。
OMNIVERSE 利用 NVIDIA RTX RT 核心,CUDA 核心和支持 Tensor Core 的 AI,实时提供最高质量的照片级真实感图像。它支持 Pixar 的通用场景描述技术,用于在多个应用程序之间交换有关建模,着色,动画,灯光,视觉效果和渲染的信息。
目前,OMNIVERSE 可以实现多种行业标准图形开发程序,例如 Autodesk Maya,Adobe Photoshop 和 Epic Games 的虚幻引擎。
现场,英伟达方面展示了 OMNIVERSE AEC 开放式 3D 设计协作平台的强大功能,在配备了 8 路 RTX 8000 的 RTX 服务器上针对深圳华润大厦的实时渲染过程。
「The more you buy,more you save」黄仁勋说道,并推出由 RTX 提供强效助力的端云云渲染能力,尤其在性能比方面能力突出。相比 CPU 方面,RXT 方案速度快 12 倍,价格低 7 倍,原本需要花费 485 个小时渲染的场景现在只需不到 40 小时即可完成。
CUDA 开放 ARM 支持
在介绍完 RTX 技术的发展之后,黄仁勋介绍了英伟达高性能计算。
「在 2030 年,NASA 计划登陆火星,有 6 名宇航员将以每小时 12000km 的速度进入火星大气层,必须精确点火并在 6 分钟内减速并软着陆。」黄仁勋说道。NASA 在英伟达 GPU 上通过 FUN3D 流体力学软件运行了数十万次火星着陆场景的模拟,这些工作生成了 150TB 的数据。这是一项 HPC 的典型挑战,英伟达表示,这些工作是在 DGX-2 上运行的 Magnum IO GPU Direct Storage 技术完成的。
GPU 还可以进行全基因组测序,通过 CUDA 的帮助,华大基因的生命科学超级计算机目前已经可以实现每天 60 个基因组的吞吐量。完成这项工作的 BGI MGI-T7 超算体量并不大,只需一个节点。
英伟达推出 Parabricks 基因组分析工具包,基于 CUDA 加速,提供 DeepVariant 工具,利用深度学习进行基因组变异检测,可实现 30-50 倍的加速,用于发现变异并能产生与行业标准 GATK 最佳实践流程一致的结果。
CUDA 两个新应用,通过和爱立信的合作,CUDA 可以提高 5G RAN 的性能了。「通过实时运算,我们可以提升 5G 信号在复杂空间内的覆盖范围。」黄仁勋说道。「5G 的覆盖非常复杂,我们可以用 GPU 来解决 3D 物理空间内的信号优化问题。」
「几乎所有人都有一台 ARM 设备,很多科技巨头也在构建自己的 ARM 芯片,」黄仁勋说道。「首先它非常强大,其次人们也在构建 Hyper Scale 计算系统,而在这个过程中统一的架构效果是更好的。」英伟达今年已经开始拥抱 ARM 生态,并对相应架构提供了 CUDA 支持。
「如果说有一个在 HPC 上最重要的应用,那毫无疑问是 TensorFlow 了,」黄仁勋说道。2.0 版的 TensorFlow 现在已经获得了 ARM 架构的 CUDA 加速。
回看 2012 年,AlexNet 通过解决计算机视觉问题引发了深度学习的爆发。而在 2018 年,预训练 AI 模型 BERT 可以让计算机学习人类的只是编码,让计算机逐渐学会与人类进行自然对话,为我们阅读文章并总结其中的要点,进而更自然地与我们进行合作。
在这背后,是 GPU 提供的算力,在最近五年来,神经网络的训练速度提升了 300 倍——ResNet-50 网络的训练速度已经从 600 年降低到了仅需 2 小时。
今天,英伟达的 AI 已经覆盖了各行各业,影响了很多人。自 DGX 训练的神经网络,会在 HGX 服务的云端、EGX 服务的工业终端,以及 AGX 代表的消费端设备为人们带来自动化的便利。
GPU 不仅是软件开发者训练人工智能模型的重要工具,早已在各大科技公司成为了 AI 背后的算力来源。在 GTC 上,黄仁勋介绍了两家国内科技巨头百度和阿里巴巴对英伟达最新 GPU 的应用案例。
百度推荐系统将采用 英伟达 AI,其中 AIBox 推荐系统采用 Wide and Deep 结构。
百度庞大的用户潜在兴趣数据包含了千亿维稀疏离散特征和 10TB embedding 词表,100 多个推荐模型被使用在百度的众多应用中,这些模型每周都会更新,它们学习用户的潜在兴趣,新的条目和特征。「训练这些模型的 GPU 成本只有 CPU 的 1/10,并且支持更大规模的模型训练」。黄仁勋说道。
「双十一是全宇宙最神奇的节日,在这一天有 20 亿商品的销量,5 亿人次的销量,他们那天都不工作吗?」黄仁勋说道。通过英伟达 GPU 的帮助,阿里巴巴实现了每秒几十亿次的推荐请求。这个请求的数量,即使用手全球的所有 CPU 都无法实现。
TensorRT 7.0 加入 BERT 专属优化
英伟达的 TensorRT 是对 GPU 加速的高性能深度学习库,可对各种深度学习算法带来高速率、低延迟的优化,这款产品支持所有主流深度学习框架。
在 18 日的大会上,英伟达发布了 TensorRT 的最新一代 7.0 版,加入了对 BERT、RoBERTa、Tacotron 2 等大量新模型的加速支持。TRT 7 能够融合水平和垂直方向的运算,可以为开发者设计的大型 RNN 配置自动生成代码,逐点融合 LSTM 单元,甚至可以跨多个时间步长进行融合,并在这个过程中进行自动低精度推理。
总而言之,TensorRT 7 实现了 1000 多种不同的计算变换和优化。「这是一个巨大的飞跃。它可以最大程度地利用显存,提高效率,」黄仁勋说道。
最为直观的优化是什么呢?英伟达介绍了 TensorRT 7 可以带来实时的交互 AI 的体验:在支持交互是绘画 AI 上,一套端到端流程可能需要20-30种不同 AI 模型组成,其中包括很多不同的模型结构,从 CNN、RNN、transfomer、再到自编码器、MLP。通过新版的 TensorRT,我们可以对所有模型进行编译优化,在 ASR、NLU&TTS 上延迟小于 300ms,相比 CPU 速度提升 10 倍。
英伟达认为,从 AI 云到智能手机的智能化体系,今天已经触及各行各业,以及数十亿人。「现在是所有行业享受智能革命的时代了,」黄仁勋说道。
最后,在这次 GTC 上,英伟达没有对旗下 GPU 产品进行制程上的更新。对此黄仁勋向机器之心表示:「制程是很重要的,但是它不是最重要的。在最近两年里我们让 AI 的算力提升了四倍,仅仅依靠制程提升这是不可能做到的。在 GPU 的世界里,性能提升的方式和 CPU 思路不同。如 RTX 系列芯片和光线追踪技术,在 12nm 制程上达到了 AMD 7nm 制程 GPU 的性能。在加速计算的领域中,想要让芯片达到最高效率,算法、架构、软件应用需要共同合力。英伟达的架构不同于其他品牌架构。」
关于英伟达在深度学习领域最重要的产品 Tesla V100,黄仁勋表示非常满意,但没有透露其迭代或升级计划。他表示,「当你使用智能手机的过程中,一定能够和 V100 产生触点关系,无论是推荐计算还是机器人对话」。他透露,在过去一个季度里,Tesla V100 的销量超过了历史记录。