2016/10/27 14:22

英伟达CEO黄仁勋解读智能工业革命：GPU深度学习大爆炸

随着深度学习的兴起，支持大规模并行计算的 GPU 已经成为人工智能发展的重要硬件基础。作为 GPU 行业的领军者，NVIDIA 公司最近以来一直在推动应用于机器学习的 GPU 技术的发展和创新。近日，NVIDIA 联合创始人兼 CEO 黄仁勋（Jen-Hsun Huang）在 NVIDIA 博客上发表了一篇题为The Intelligent Industrial Revolution（智能工业革命）的文章，解读了自己在最近的 GPU Technology Conference（GTC）会议上的所讲所学所见以及对计算发展的未来的看法。

过去六个星期，NVIDIA 搞了一个世界巡回的开发者大会。GPU 技术大会（GTC）于 2009 年开始，旨在促进使用大规模并行处理的 GPU 来开发高性能计算的新方法。GTC 已经成为 GPU 深度学习的中心——这个新的计算模型引发了现代人工智能的大爆炸。人工智能正在像野火一样蔓延。GPU 深度学习开发者的数量在短短两年内就跃升了 25 倍。已经有大约 1500 个人工智能创业公司出现。这种爆炸式增长刺激了世界各地对 GTC 大会的需求。到目前为止，我们已经在北京、台北、阿姆斯特丹、东京、首尔和墨尔本举办过活动。华盛顿定于本周举办大会，孟买定在下个月举办。我参加了其中 4 场 GTC 大会的开幕式。人工智能是下一个计算浪潮，给一个又一个行业带来了革命，关于它，下面是我在大会上的所讲所学，以及我对不久未来看法的总结。

计算的新时代

由人工智能计算机驱动的智能机器可以学习、推理和与人互动已经不再是科学幻想的场景。今天，由人工智能驱动的自动驾驶汽车可以找到路，并曲折地穿过夜间的乡村道路。人工智能机器人可以通过反复尝试来学习运动技能。这是一个不同寻常的时代。在我 30 年的计算机行业生涯中，没有什么比这个有更多潜力、更有趣的了。人工智能的时代已经开始。

计算机行业推动了大规模的工业和社会变革。随着计算机行业的发展，成立了新公司，创造出新产品，我们的生活因此而改变。回顾过去几轮计算浪潮，每一个背后都有革命性的计算模型来支撑，在当时，这个计算模型架构扩展了计算能力和计算范围。

在 1995 年，PC-Internet 时代是由低成本微处理器（CPU），标准操作系统（Windows 95）和一个新的信息门户（Yahoo!）的集成引发的。PC-Internet 时代给大约十亿人带来了计算能力，实现了微软将「计算机放在每一个桌子和每个家庭」的愿景。十年后，iPhone 在我们的口袋里放了一个「互联网通信」设备。加上亚马逊 AWS 的推出，Mobile-Cloud 时代诞生了。大量应用程序走进我们的日常生活，有约 30 亿人因此享受移动计算提供的自由。

今天，我们站在下一个时代的开端，人工智能计算时代，被一个新的计算模型——GPU 深度学习——点燃。这种新模型——其中深层神经网络被训练以识别大数据中的模式——已被证明能「不可理解的」高效解决计算机科学中的一些最复杂的问题。在这个时代，软件可以自己编写，机器可以自己学习。不久之后，数以亿计的设备将注入智能。人工智能将彻底改变每个行业。

GPU 深度学习「大爆炸」

为什么是现在？我在早前的博文（「Accelerating AI with GPUs: A New Computing Model」）中提到，2012 年将是人工智能标志性的一年。多伦多大学的 Alex Krizhevsky 创建了一个深度神经网络，能够从一百万个样本中自动学习识别图像。在 NVIDIA GTX 580 GPU 上仅仅用了几天的训练，「AlexNet」就赢得了那一年的 ImageNet 比赛，打败了所有人类专家磨炼了几十年的算法。同一年，在意识到更大的网络、更大的大脑、更多的学习之后，斯坦福大学的吴恩达和英伟达研究院（NVIDIA Research）组队开发使用大型 GPU 计算系统来开发训练神经网络的方法。

世界开始关注到这一点了。各个地方的人工智能研究者都转向了 GPU 深度学习。百度、谷歌、Facebook 和微软最先用它来进行模式识别。到了 2015 年，他们开始实现「超人类」的结果——一台计算机识别图像的能力比人类还要高。在语音识别领域，微软研究院（Microsoft Research）使用 GPU 深度学习使对话语音达到了和人类相同的水准，实现了历史性的里程碑。

图像识别和语音识别——GPU 深度学习已经为机器学习、感知、推理和解决问题提供了基础。GPU 的使用从模拟人类想象引擎开始，魔术般地跳跃到视频游戏和好莱坞电影中惊人的虚拟世界里。现在，英伟达的 GPU 能够运行深度学习算法，模拟人类智能，作为计算机、机器人和自动驾驶汽车的大脑，感知并理解这个世界。就像人类想象和智能是连在一起的一样，计算机图形和人工智能在我们的架构中也是一同运作的。人脑有两种模式，GPU 也有两种模式。这或许就解释了为什么英伟达的 GPU 被广泛用于深度学习，英伟达也逐渐成为大家熟知的「人工智能计算公司」。

一种用于新计算模型的端到端平台

作为一个新的计算模型，GPU 深度学习正在改变软件的开发过程和运行方式。过去，软件工程师创造了程序并精心编码算法。现在算法能从成堆的现实世界的例子学习，软件可以自己编写出来。编程实际上是编码指令，深度学习就是创建和训练神经网络。这个网络可以被部署到数据中心，通过学习大量新数据来执行推断（infer）、预测和分类工作。网络还能被部署到如相机、汽车和机器人之类的智能设备中来理解世界。有了新的经验后，新数据会被收集来进一步训练和精炼这个网络。从数十亿的设备中学习能让网络上的设备变得更加智能。神经网络会收益于 GPU 处理和大型网络效应的指数增长。也就是说，它们会以一种比摩尔定律更加快的方式变得更加聪明。

旧有的计算模型是「指令处理」密集型的，而这种新的计算模型须要海量的「数据处理」。为了推进人工智能的全面进展，我们正在建立一个端到端的人工智能计算平台，一个能够跨越训练、接口以及数十亿设备的架构很快就会出现。

我们从训练开始。我们的新 Pascal GPU，投入 20 亿美元，动用了数千名工程师，花了三年时间才弄好。它是第一台用于深度学习的经过优化的 GPU。Pascal 训练的网络比 Kepler GPU（Alex Krizhevsky 在这篇论文中使用的 [1]）训练的网络要大 65 倍，而且速度更快。一个单一的配备 8 个 Pascal GPU 与 NVLink 连接的计算机，创造了有史以来吞吐量最高的互连，训练网络的速度比传统的服务器快 250 倍。

很快，每天数百亿个来自互联网的请求（queries）都会需要人工智能，也就意味着，每个请求将需要超过数十亿词数学运算。云服务上的总装载量需要足够大以保证实时响应。

有了更快的数据中心推理性能，我们发布了 Tesla P40 and P4 GPUs。P40 将数据中心的推理吞吐量加速了 40 倍。P4 仅需要 50 瓦的电源，设计用于加速 1U OCP 服务器，典型的超大规模数据中心。软件是英伟达深度学习平台中重要组成部分。在训练上，我们有 CUDA 和 cuDNN。在推理（inference）上，我们发布了 TensorRT，一个优化的推理引擎。TensorRT 通过在一个层内和跨层融合操作，修剪低贡献权重，降低 FP16 或 INT8 的精确度，以及其他多个技术，在不影响精度的情况下，提升了性能。

终有一天，数十亿个智能设备会利用深度学习来实现看似智能的任务。无人机会自动导航飞到仓库，寻找并拿到特定的物品。便携的医药器械会利用人工智能当场检测血液样本。智能相机能够学会仅在我们关心的情景中提醒我们。我们创造了高效能的人工智能超级计算机，Jetson TX1，应用到那些智能物联网设备中。只有信用卡大小的模块，Jetson TX1 可以仅用 10 瓦的电源，达到 1TeraFLOP FP16 的工作性能。它和我们最强大的 GPU 拥有相同的构架，并且可以运行所有相同的软件。

简单地说，我们提供了一个端到端的人工智能计算平台——从 GPU 到深度学习软件和算法，从训练系统到车内的人工智能计算机，从云到数据中心到 PC 到机器人。NVIDIA 的人工智能计算平台无处不在。

适用于所有领域的人工智能计算

我们端到端的平台是保证每个领域都能接入人工智能的第一步。NVIDIA GPU 深度学习下的全球生态系统正在快速扩张。突破性的成果引发了一场将人工智能运用到消费者网络服务的竞争——搜索、识别、推荐、翻译以及更多。云端服务供应商，从阿里巴巴、亚马逊，到 IBM 和微软，让大大小小的公司都用上了 NVIDIA GPU 深度学习平台。全球最大的企业技术公司已经在基于英伟达的 GPU 配置服务器。很高兴能够在我们的 GTC 巡回中强调我们在重要领域中的战略：

人工智能交通：交通是一个人工智能可以改变的，价值 10 万亿美元的产业。无人驾驶车辆可以减少事故，提升卡车和出租车的效率，使得新的移动服务成为可能。我们宣布百度和 TomTom 均选择 NVIDIA DRIVE PX2 用于无人驾驶车辆。对它们每家公司，我们都会建立一个包含高清地图，人工智能算法和人工智能超级计算机的「云端-车」的平台。

驾驶是我们学习获得的第二天性，但我们目前还不能让计算机学会开车。无人驾驶要求每个方面都能做到人工智能——感知环境，合理地决定环境的状态，计划行动的最佳过程。同时，也持续学习以提升对于这个多样化世界的认识。大范围的无人驾驶需要一个开放的，可升级的构架——从高速路上自动巡航，到自主驾驶到目的地，到没有司机的全自动公共汽车。

NVIDIA DRIVE PX2 是一个用于自动驾驶的可升级架构，包含了整个范围的人工智能技术。在 GTC，我们发布了 DRIVE PX 2 AutoCruise 专为高速公路上自动驾驶设计，带有持续定位和地图。我们还发布了 DriveWorks Alpha 1，我们无人驾驶车上的操作系统几乎涵盖了无人驾驶的所有方面——侦查，定位，计划路线，行动。

我们将所有的功能集中在我们的无人驾驶车 NVIDIA BB8 上。

NVIDIA 着重在视觉处理的交叉点的创新，以及人工智能和高性能的计算——一个在智能和自主的机器核心的特殊结合。这是第一次，我们有了让无人驾驶车辆和自主机器人成为可能的人工智能算法。但它们需要一个实时的，有成本效益的计算平台。

在 GTC，我们介绍了 Xavier。Xavier 是我们有史以来做过的最有雄心的单片机，是世界第一个人工智能超级计算机芯片。Xavier 有 7 亿个晶体管——比起最先进的服务器级别 CPU 更复杂。但神奇的是，Xavier 和今年早些时候在 CES 发布的 DRIVE PX 2 有相同的马力——每秒钟 20 万亿次深度学习的操作——仅用 20 瓦的电源。像 Forbesnoted 一样，我们加倍生产了带有 Xavier 的无人驾驶车。

人工智能企业：IBM，一个在认知计算领域看到价值二十亿美元机会的公司，发布了新 POWER8 和 NVIDIA Tesla P100 服务器，它们均是为将人工智能带入企业而设计的。在软件上，SAP 声称他们已经收到了了 2 台第一批的 NVIDIA DGX-1 超级计算机，并正在为 190 个国家的 320，000 个消费者建立机器学习的企业解决方法。

人工智能城市：到了 2020 年，世界上将会有 10 亿台相机。Hikvision 是全世界检测系统的领导者，它正在运用人工智能让我们的城市更加安全。它用 DGX-1 进行网络训练，现已在 16 Jetson TX1 中央处理器上建立了一个突破性的服务器，叫做「Blade」。Blade 只需要基于 21 个 CPU 的服务器的 1/20 的空间和 1／10 的能量就可以达到相同的性能。

人工智能工厂：在全球范围内已有 20 亿左右的工业机器人。日本是机器人创新的中心。在 GTC，我们宣布 FANUC，一个日本的工业机器人巨头，将会在 NVIDIA 人工智能平台上建造一个端到端的未来工厂。它的深度神经网络将由 NVIDIA GPU 来训练，GPU 驱动下的 FANUC Fog 单元将控制一群机器人，让他们能够共同学习。每个机器人都会植入 GPU，使之成为实时人工智能。麻省理工技术评论对他的故事这么写到：「日本的机器人巨头为它的武器加上了大脑」。

创业公司的爆发是人工智能横扫各个产业的又一指示。Fortune 最近写到，深度学习会「改变美国的大公司」。

人工智能可以提前解决我们能力范围外的问题。从现实生活中的数据，计算机可以学会认识那些对于人工编写的软件甚至是人来说太复杂、太巨大或太微小的图案。通过 GPU 深度学习，这个计算机模型现在已经被熟练应用在解决世界上最大的产业的问题上。无人驾驶汽车将会改变 10 万亿美元的交通运输业。在医疗保健上，医生可以使用人工智能帮助你更早发现疾病、或是了解人类基因组的奥秘去治疗癌症、又或是从大量的药物数据和研究中学习，向你建议最好的治疗方法。人工智能会开创第四次工业革命——继蒸汽机、大规模制造和自动化之后——智能机器人会引领巨大的生产力提高的新浪潮，为大规模客户定制化提供了可能。人工智能将会触及每一个人。人工智能的时代已经到来。

入门硬件英伟达黄仁勋产业GPU