英伟达2019财年Q3财报显示:第三季度营收为31.81亿美元,与上年同期的26.36亿美元相比增长21%;净利润为12.30亿美元,与上年同期的8.38亿美元相比增长47%。由于Q3业绩不及华尔街预期,其盘后股价暴跌逾16%。按照其业绩展望,英伟达下个财季营收将同比下跌。
距离英伟达上一次营收同比下滑,还要追溯到2014财年Q3,而这已经是五年前的事了。
5 年前,英伟达联合创始人、CEO 黄仁勋(Jensen Huang)把重点转移到了人工智能的技术研发上。
运算平台 CUDA 的出现,让英伟达得以在 HPC 数据中心内成功部署 GPU 加速器,从而降低能耗、提高性能。黄仁勋认为,HPC 及企业计算的前景取决于人工智能的应用程度,而英伟达 GPU 的并行计算能力是基础。由于摩尔定律逐渐变慢,人工智能产业需要持续加速性能的方法。
转瞬至今,英伟达已成 AI 领域的核心玩家。AI 分支涵盖机器学习与深度学习,当然也包括神经网络训练与推理。3 年前,英伟达以 Tegra 系列产品进军深度学习领域,搭载 256 核 GPU 的 Tegra 具备太字节级别深度学习负载处理能力,GeForce GTX Titan X 显卡具备神经网络训练能力。几年后,英伟达又先后推出 Drive PX 2 自动驾驶汽车开发平台,基于 Volta 架构的 GPU——Tesla V100 及支持 GPU-CPU 混合渲染的人工智能超级计算机 DGX。
英伟达战略布局涉及软件与硬件,从推理软件 TensorRT(今年第二季度发布了 TensorRT 4)、搭载英伟达 GPU 的集成优化容器 GPU 加速云平台 NGC(Nvidia GPU Cloud),到两年前发布的配备机器学习推理能力的 Tesla P4 和 P40 加速器,再到几个月前推出的 T4 Tensor Core GPU。黄仁勋本周在美国得克萨斯州达拉斯 SC18 发布会上介绍了上述所有产品。
英伟达将 DGX-2 技术应用在服务器平台 HGX-2,以便于 OEM 与 ODM 合作方将其整合到自己的设计中。DGX-2 内部集成了 16 块 Tesla V100 GPU,使用 NVSwitch 相互连接,能够提供最高达 2petaflops 的深度计算能力。首批 DGX-2 将在研究机构投入使用,包括橡树岭国家实验室、桑迪亚国家实验室、布鲁克黑文国家实验室和西北太平洋国家实验室。
黄仁勋与其他公司高管表示,人工智能、机器学习、深度学习和其它人工智能技术一直助力业务发展。首席财务官科莱特·克雷斯(Collette Kress)表示,今年第二季度,数据中心业务创造了 7.6 亿美元的收入,同比增长 83%,其中大部分需求来源于超大规模用户,他们的云服务中越来越多地利用人工智能技术。
「我们的 GPU 为实时服务赋能,如搜索、语音识别、语音合成、翻译、推荐引擎、欺诈认定及零售应用,」克雷斯在 8 月的一次电话会议上说,「我们的人工智能和高性能计算解决方案正被越来越多的垂直产业采用,这是我们增速最快的业务之一。」
还是在这场电话会议上,黄仁勋特别强调,推理系统将成为数据中心业务的关键。
「全球有 3 千万台服务器在云端,企业中则有更多的服务器。」黄仁勋说,「我坚信,未来每台服务器都需要加速。原因很简单:人工智能和深度学习软件及神经网络模型都将用于预测模型,它们将被嵌入到各种软件中,加速已被证明是迈向未来的最好方法。近几(一/二/三)年,英伟达一直在奠定推理方面的基础。正如我们在 GPU 技术大会(GTC)中所描述的那样,推理是非常非常复杂的,其原因在于系统必须掌握训练框架形成的庞大网络的海量输出信息,并优化它。这极有可能是有史以来最复杂的计算图优化问题。」
在为人工智能工作量构建了多年的硬件和软件组合之后,黄仁勋在 SC18 上大谈云服务提供商及其他技术供应商如何继续拥抱人工智能技术、加速计算如何在日新月异的 HPC 领域(高性能计算机领域)继续成长。他还指出,V100 GPU 是橡树岭国家实验室超级计算机 Summit 的关键。Summit 是全球超级计算机 TOP500 的第一名,劳伦斯列弗莫国家实验室的 Sierra 排名第二。榜单中共有 127 台超级计算机使用了英伟达 GPU。
与谷歌云平台一样,服务器设计 OEM 厂商(如 Dell EMC、 联想、IBM 和 惠普)以及 57 家 ODM 厂商,都采用英伟达基于图灵架构的 T4 GPU。T4 的多精度能力是指其能够完成多层精度表现,从 FP32 浮点性能 8.1 TFLOPS 到 INT4 浮点性能 260 TOPS。T4 适用所有开放计算项目(Open Compute Project)中超大规模用户的服务器设计。在推理方面,企业可配备 2 台 T4 GPU 服务器,性能相当于 54 台单核 CPU 服务器。英伟达称,在训练方面,一台双 T4 服务器的性能相当于 9 台双通道单核 CPU 服务器的性能。
黄仁勋还表示,NGC 容器注册中心已经将框架和应用程序的数量从去年的 18 个增加到现在的 41 个,涉及深度学习 HPC 到 HPC 可视化的方方面面,包括 ParaView、Rapids、 MILC 及 Matlab 等新软件。
英伟达还提供新型多节点 HPC 及可视化容器,使超大规模用户能够在大规模集群上运行工作负载。上述软程序容器都支持多节点部署,使其通过多节点 GPU 的各节点轻松运行大规模计算工作负载,并尝试改善多服务器部署环境下的信息传递接口 (MPI) 容器化。
NGC 能在本地使用 Singularity 容器技术,新的「NGC 准备程序」将验证系统。初始系统包括思科的 UCS C480ML、Dell EMC 的 PowerEdge C4140, 惠普的 Apollo 6500, ATOS 的 BullSequana X1125 及超微的 SYS-40w9GP-TVRT。
「HPC 产业正在发生翻天覆地的变化。」黄仁勋说,HPC 的架构设计被用来测试物理规则及模拟爱因斯坦、麦斯威尔及牛顿公式,「推导知识、预测结果,且未来仍将继续。不过,我们掌握了一个新工具──机器学习。机器学习有两种解决方法,其中一个需要特征工程的专家知识,另一个需要使用最底层神经网络自己推理学习关键特征。二者都有各自的局限性,也各有自己的应用,但都会取得非常大的成功。未来,高性能计算架构将从纵向扩展收益,但也将同时横向扩展。……未来,无论是高性能计算还是超计算,架构将开始双向扩展。」
他说,关键在于软件,对于英伟达来说,CUDA 是使其实现软件耦合及兼容的原因。
「加速计算与芯片无关。最终,人们首先想到的是软件、研究人员、开发人员,创建超越摩尔定律的全堆栈。加速计算事关加速堆栈。当你想加速堆栈且不具备耦合架构时,我不知道用户如何去使用。」