2019/12/19 14:37

李泽南、四月参与

7倍AI算力芯片，TensorRT重大更新，英伟达GTC新品全介绍

12 月 18 日，在苏州举行的英伟达 GTC CHINA 上，黄仁勋发布了自动驾驶芯片 ORIN。ORIN 被认为是一款「系统级芯片」，包含 170 亿个晶体管，这款产品或许将为英伟达在 AI 算力上重新占据领先位置。

今年的 GTC 大会议题覆盖了 AI 框架、开发工具、数据科学、云计算、实时渲染、光线追踪、以及 5G 通信等等方面。垂直方向则包含了自动驾驶、智能机器、医疗与金融、设计、工程制造等领域。

在 GTC 上，英伟达还发布了全新的 TensorRT 7.0 版，通过全栈优化，延续超越摩尔定律的算力加速。在过去一年里，英伟达围绕 CUDA 等工具接连发布了 500 多个 SDK 和库，深度学习的训练能力在过去三年内提高了四倍，深度学习的推理在一年内提高了两倍。

最强自动驾驶芯片：性能提升 7 倍

作为英伟达的年度盛会，发布新处理器自然也是必不可少的环节。英伟达在今天的 GTC 上推出的下一代自动驾驶芯片 NVIDIA DRIVE AGX ORIN 成为了全场大会的焦点。

这款芯片提供的算力可以达到 200TOPS，是此前英伟达自家芯片 Drive Xaiver 的 7 倍，也超过了特斯拉今年推出的自动驾驶芯片 Autopilot Hardware 3.0（144TOPS）。

「ORIN 包含 170 亿个晶体管，8 个核心，性能相当于 Xavier 的 7 倍，」黄仁勋介绍道。「同时它拥有全新的安全特性，可以使 CPU 和 GPU 锁步运行。」

在英伟达的路线图中，Orin 系列可以覆盖从 L2 到 L5 的自动驾驶技术，它代表一种新的架构，与已有的 Xavier 兼容，通过与已有软硬件（包括 GPU）的结合，英伟达可以提供效率更高的自动驾驶解决方案。Orin 系列计划于 2022 年开始投产。

黄仁勋现场宣布，滴滴将在数据中心使用 GPU 训练机器学习算法，并采用 DRIVE 为其 L4 级自动驾驶汽车提供推理能力。

在采访环节，黄仁勋针对 Orin 在自动驾驶场景下的安全性进行了补充解释。他表示 Orin 并不是一颗简单的芯片，设计参考数据中心，支持虚拟化，采用应用隔离，足够快的加速引擎将实现所有内存涉及到的计算都进行加密，设置了四把密钥，让每一台车的计算都是独一的；同时加入防止篡改方案。

几年前人们认为，自动驾驶将在 2020 年迎来拐点，ORIN 的推出或许将会加速这一过程的发生。不过即使是在自动驾驶以外的领域，英伟达也希望通过自己的技术为造车带来改变。

「我们希望持续不断地提高汽车的自动驾驶和安全性。即使是在非自动驾驶汽车上，智能化技术的引入可以像安全气囊和 ABS 这样的功能一样提高安全性，这对于乘客的生命安全都会有益的。」英伟达汽车事业部高级总裁 Danny Shapiro 表示。

「我们的目标不是自动驾驶汽车，而是致力于为全球各家车企提供智能驾驶的算力设备。我们希望在未来，汽车、卡车、送货机器人都可以拥有完整的自动驾驶能力。」黄仁勋介绍到。

在硬件之外，英伟达还宣布在 NGC 上推出了 NVIDIA DRIVE 预训练模型。这一次，通过迁移学习，预训练模型可以经过调整适应 OEM 厂商的特定汽车、传感器和地区要求，更快地部署上路。

当然还有联邦学习。现在很多公司都希望落地这种方法解决数据隐私问题。英伟达提供的 Drive Federated Server Global Model 可以提供给每个 OEM 厂商使用，帮助他们提升自己的模型，又结合各自的数据，可以提供彼此的模型水平。

在现场，英伟达还展示了物体操纵机器人 LEONARDO，它可以通过人在现实世界的指导（交互）很快学会堆叠积木等技能。通过景深摄像头、GPU 以及虚拟环境 Issac Gym，机器人可以在仅需少量示例的情况下快速学习新技能。

携手腾讯将 PC 游戏带入云端

英伟达推出的光线追踪技术 RTX 今年正在逐渐被各家游戏厂商，以及专业软件公司所接受。在今天的 GTC 上，黄仁勋首先介绍的还是图形技术的最新应用。首先是国民游戏《我的世界》，支持 RTX 渲染的新版 Minecraft 将在 2020 年发布，RTX 将支持其实时的 GI（全局光照）和一般反射等灯光效果。

在发布会现场，黄仁勋宣布了 RTX 技术对于一系列国内游戏的支持，其中包括《Project X》、《轩辕剑 7》等等。此外还有更强大的案例，FYQD 工作室制作的《光明记忆：无限》，借助 RTX 技术，只需要一个人就可以构建出完美的 3D 全局光照效果。

在 GTC 上，英伟达宣布了与腾讯合作，推出 START 云游戏服务，将电脑游戏体验引入云端。业界领先的 GPU 将为全国百万玩家带来更好的游戏体验。率先支持的游戏将包括《流放之路》、《NBA（2K）》、《FIFA 4》、《炫舞时代》等。

据介绍，英伟达的 GPU 技术为腾讯游戏的 START 云游戏服务赋力，该服务已从今年初开始进入测试阶段。START 使游戏玩家可以随时随地，即使是在配置不足的设备上也能玩 AAA 游戏。腾讯游戏计划将扩展其云游戏产品，为数百万玩家提供与本地游戏设备一致的游戏体验。

在专业领域，英伟达发布了很多新的软件产品。RTX Studio 面向内容工作者推出 40 余个产品，涵盖从配备 GeForce RTX 2060 的 Max-Q 笔记本一直到配备 4 路 SLI Quadro RTX 8000 的工作站和配备 8 路 RTX 8000 的服务器。

OMNIVERSE 利用 NVIDIA RTX RT 核心，CUDA 核心和支持 Tensor Core 的 AI，实时提供最高质量的照片级真实感图像。它支持 Pixar 的通用场景描述技术，用于在多个应用程序之间交换有关建模，着色，动画，灯光，视觉效果和渲染的信息。

目前，OMNIVERSE 可以实现多种行业标准图形开发程序，例如 Autodesk Maya，Adobe Photoshop 和 Epic Games 的虚幻引擎。

现场，英伟达方面展示了 OMNIVERSE AEC 开放式 3D 设计协作平台的强大功能，在配备了 8 路 RTX 8000 的 RTX 服务器上针对深圳华润大厦的实时渲染过程。

「The more you buy，more you save」黄仁勋说道，并推出由 RTX 提供强效助力的端云云渲染能力，尤其在性能比方面能力突出。相比 CPU 方面，RXT 方案速度快 12 倍，价格低 7 倍，原本需要花费 485 个小时渲染的场景现在只需不到 40 小时即可完成。

CUDA 开放 ARM 支持

在介绍完 RTX 技术的发展之后，黄仁勋介绍了英伟达高性能计算。

「在 2030 年，NASA 计划登陆火星，有 6 名宇航员将以每小时 12000km 的速度进入火星大气层，必须精确点火并在 6 分钟内减速并软着陆。」黄仁勋说道。NASA 在英伟达 GPU 上通过 FUN3D 流体力学软件运行了数十万次火星着陆场景的模拟，这些工作生成了 150TB 的数据。这是一项 HPC 的典型挑战，英伟达表示，这些工作是在 DGX-2 上运行的 Magnum IO GPU Direct Storage 技术完成的。

GPU 还可以进行全基因组测序，通过 CUDA 的帮助，华大基因的生命科学超级计算机目前已经可以实现每天 60 个基因组的吞吐量。完成这项工作的 BGI MGI-T7 超算体量并不大，只需一个节点。

英伟达推出 Parabricks 基因组分析工具包，基于 CUDA 加速，提供 DeepVariant 工具，利用深度学习进行基因组变异检测，可实现 30-50 倍的加速，用于发现变异并能产生与行业标准 GATK 最佳实践流程一致的结果。

CUDA 两个新应用，通过和爱立信的合作，CUDA 可以提高 5G RAN 的性能了。「通过实时运算，我们可以提升 5G 信号在复杂空间内的覆盖范围。」黄仁勋说道。「5G 的覆盖非常复杂，我们可以用 GPU 来解决 3D 物理空间内的信号优化问题。」

「几乎所有人都有一台 ARM 设备，很多科技巨头也在构建自己的 ARM 芯片，」黄仁勋说道。「首先它非常强大，其次人们也在构建 Hyper Scale 计算系统，而在这个过程中统一的架构效果是更好的。」英伟达今年已经开始拥抱 ARM 生态，并对相应架构提供了 CUDA 支持。

「如果说有一个在 HPC 上最重要的应用，那毫无疑问是 TensorFlow 了，」黄仁勋说道。2.0 版的 TensorFlow 现在已经获得了 ARM 架构的 CUDA 加速。

回看 2012 年，AlexNet 通过解决计算机视觉问题引发了深度学习的爆发。而在 2018 年，预训练 AI 模型 BERT 可以让计算机学习人类的只是编码，让计算机逐渐学会与人类进行自然对话，为我们阅读文章并总结其中的要点，进而更自然地与我们进行合作。

在这背后，是 GPU 提供的算力，在最近五年来，神经网络的训练速度提升了 300 倍——ResNet-50 网络的训练速度已经从 600 年降低到了仅需 2 小时。

今天，英伟达的 AI 已经覆盖了各行各业，影响了很多人。自 DGX 训练的神经网络，会在 HGX 服务的云端、EGX 服务的工业终端，以及 AGX 代表的消费端设备为人们带来自动化的便利。

GPU 不仅是软件开发者训练人工智能模型的重要工具，早已在各大科技公司成为了 AI 背后的算力来源。在 GTC 上，黄仁勋介绍了两家国内科技巨头百度和阿里巴巴对英伟达最新 GPU 的应用案例。

百度推荐系统将采用英伟达 AI，其中 AIBox 推荐系统采用 Wide and Deep 结构。

百度庞大的用户潜在兴趣数据包含了千亿维稀疏离散特征和 10TB embedding 词表，100 多个推荐模型被使用在百度的众多应用中，这些模型每周都会更新，它们学习用户的潜在兴趣，新的条目和特征。「训练这些模型的 GPU 成本只有 CPU 的 1/10，并且支持更大规模的模型训练」。黄仁勋说道。

「双十一是全宇宙最神奇的节日，在这一天有 20 亿商品的销量，5 亿人次的销量，他们那天都不工作吗？」黄仁勋说道。通过英伟达 GPU 的帮助，阿里巴巴实现了每秒几十亿次的推荐请求。这个请求的数量，即使用手全球的所有 CPU 都无法实现。

TensorRT 7.0 加入 BERT 专属优化

英伟达的 TensorRT 是对 GPU 加速的高性能深度学习库，可对各种深度学习算法带来高速率、低延迟的优化，这款产品支持所有主流深度学习框架。

在 18 日的大会上，英伟达发布了 TensorRT 的最新一代 7.0 版，加入了对 BERT、RoBERTa、Tacotron 2 等大量新模型的加速支持。TRT 7 能够融合水平和垂直方向的运算，可以为开发者设计的大型 RNN 配置自动生成代码，逐点融合 LSTM 单元，甚至可以跨多个时间步长进行融合，并在这个过程中进行自动低精度推理。

总而言之，TensorRT 7 实现了 1000 多种不同的计算变换和优化。「这是一个巨大的飞跃。它可以最大程度地利用显存，提高效率，」黄仁勋说道。

最为直观的优化是什么呢？英伟达介绍了 TensorRT 7 可以带来实时的交互 AI 的体验：在支持交互是绘画 AI 上，一套端到端流程可能需要20-30种不同 AI 模型组成，其中包括很多不同的模型结构，从 CNN、RNN、transfomer、再到自编码器、MLP。通过新版的 TensorRT，我们可以对所有模型进行编译优化，在 ASR、NLU&TTS 上延迟小于 300ms，相比 CPU 速度提升 10 倍。

英伟达认为，从 AI 云到智能手机的智能化体系，今天已经触及各行各业，以及数十亿人。「现在是所有行业享受智能革命的时代了，」黄仁勋说道。

最后，在这次 GTC 上，英伟达没有对旗下 GPU 产品进行制程上的更新。对此黄仁勋向机器之心表示：「制程是很重要的，但是它不是最重要的。在最近两年里我们让 AI 的算力提升了四倍，仅仅依靠制程提升这是不可能做到的。在 GPU 的世界里，性能提升的方式和 CPU 思路不同。如 RTX 系列芯片和光线追踪技术，在 12nm 制程上达到了 AMD 7nm 制程 GPU 的性能。在加速计算的领域中，想要让芯片达到最高效率，算法、架构、软件应用需要共同合力。英伟达的架构不同于其他品牌架构。」

关于英伟达在深度学习领域最重要的产品 Tesla V100，黄仁勋表示非常满意，但没有透露其迭代或升级计划。他表示，「当你使用智能手机的过程中，一定能够和 V100 产生触点关系，无论是推荐计算还是机器人对话」。他透露，在过去一个季度里，Tesla V100 的销量超过了历史记录。

入门

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

光线追踪技术

在计算机图形学中，光线跟踪是一种渲染技术，用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。该技术能够产生非常高的视觉真实感，通常高于典型扫描线渲染方法，但计算成本更高。

来源：维基百科

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

推荐系统技术

推荐系统（RS）主要是指应用协同智能（collaborative intelligence）做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤（Collaborative Filtering）。另外还有基于知识的推荐系统（包括基于本体和基于案例的推荐系统）是一类特殊的推荐系统，这类系统更加注重知识表征和推理。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

云计算技术

云计算（英语：cloud computing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

来源：Cloud Computing

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心 Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为：积体电路上可容纳的电晶体数目，约每隔两年便会增加一倍；经常被引用的“18个月”，是由英特尔首席执行官大卫·豪斯所说：预计18个月会将芯片的性能提高一倍。

来源：维基百科

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括：在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化，以及尝试对学习集的剩余部分进行猜测，并且输出正确的结果。当与多个泛化器一起使用时，堆叠泛化可以被看作是一个交叉验证的复杂版本，利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时，堆叠泛化是一种用于估计（然后纠正）泛化器的错误的方法，该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

来源：Wolpert, D. H. (1992). Stacked generalization. Neural networks, 5(2), 241-259

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com