2019/10/12 10:20

Karl Freund作者

AI芯片现状：领导者很难被超越

第二届AI HW峰会于9月17日至18日在硅谷中心举行，近50位演讲者向500多位与会者（几乎是去年首届参会人数的两倍）发表了演讲。虽然我不可能在一个简短的博客中涵盖所有展示的公司，但我想分享几点看法。

John Hennessy的观点

计算机架构传奇人物John Hennessy，Alphabet董事长兼斯坦福大学前校长。他介绍了半导体的历史趋势，其中摩尔定律和Dennard Scaling的过时消亡，引发了对“特定领域架构”（Domain-Specific Architectures）的需求和机遇。这个"DSA"概念不仅适用于新颖的硬件设计，也适用于深度神经网络的新软件架构。挑战是创建和训练大量的神经网络，然后优化这些网络，使其在DSA上高效运行，无论是CPU、GPU、TPU，ASIC、FPGA或ACAP，用于新输入数据的"推理"处理。大多数初创公司明智地决定专注于推理处理，而不是训练市场，避开挑战英伟达。

一种新的软件方法，即软件通过迭代学习过程创建“软件”（又称“模型”），需要超级计算性能。为了使这个问题更具挑战性，这些网络模型的规模呈指数级增长，每3.5个月翻一番，从而对性能的需求不断提高。因此，现在有100多家公司正在开发新的体系结构，以提高性能并降低计算成本。但是，他们的工作量很大。英特尔Naveen Rao指出，要实现每年所需的10倍改进，架构，芯片，互连，软件和封装方面都需要2倍的进步。

图1:IntelNaveen Rao表示，处理不断增加的模型复杂性所需的计算能力每年需要提高10倍。

观察#1:领导者很难被超越

初创企业可以并且将会发明出新颖架构，并在性能上击败老牌公司。但是它们仍需要与大型客户建立合作伙伴关系才能将这些技术大规模推向市场。尽管丰富的体系结构方法令人惊奇，但硬件和必备软件的开发速度都慢得令人沮丧。一年前，数十家创业公司在峰会上用PowerPoint展示了他们的计划。今年，数十家创业公司展示了更新的PowerPoint。但是，硬件在哪里？

事实上，自上次峰会以来，几乎没有新的芯片投入批量生产。高通的Snapdragon 855和阿里巴巴的含光800是个例外；Snapdragon当然是一款移动SoC，而含光只供阿里巴巴内部使用。在某种程度上，延迟的部分原因是这种材料比它最初看起来要难得多（不是所有的芯片吗？）。但我们也要现实一点：20、50甚至100名工程师不会排除NVIDIA，Google，Xilinx，Microsoft，Amazon AWS和Intel等公司。他们可以创新出令人惊叹的新架构，但执行是工程学，而不是艺术。尽管许多人可以使用很多TOPS来构建快速的芯片，但它将“吸引”研究人员，工程师，大学教授，互联网数据中心和社交网络公司，将这些TOPS转变为可用的性能，并为这些新芯片构建和优化模型。

以色列初创公司Habana Labs就是一个很好的例子。Habana在首届AI HW Summit峰会上推出了其首款令人印象深刻的芯片Goya，用于数据中心推理处理。然而，整整一年过去了，尽管Goya的性能非常出色，功耗非常低，但它并没有得到市场的认可。这并不是因为Goya不能正常工作，而是因为"故事的其余部分"需要花费一些时间和精力才能完成。

另一个例子是英特尔的Nervana神经网络处理器。即使有了创新的设计和世界一流的工程团队，该芯片在经历了3年的工作后被搁置。大约一年前，英特尔明智地选择了回到最初，并收集了更多的经验和客户反馈，以弄清楚它如何与NVIDIA已有3年历史的V100 TensorCore技术（仍是业界最快的AI芯片）竞争。与初创公司不同的是，英特尔可以耐心等待，直到它能够赢得胜利：英特尔的Nervana处理器（NNP-T和NNP-I）现在预计将在今年晚些时候提供样品。但是，NVIDIA也并没有停滞不前——我们应该在不久的将来看到它新的7nm设计（也许在11月的SC19，但更有可能在明年春天的GTC 20。）

展望未来，新芯片的生产部署速度将取决于生态系统投资的深度和广度，以及芯片本身的完成程度。请记住，尽管数据中心正在拥抱异构性，但他们更喜欢我所说的同类异构性-选择数量最少的芯片体系结构，以覆盖最广泛的工作负载。否则，由于碎片化的计算领域利用率低，并且管理成本高昂，这样做将无利可图的。

观察#2:有许多途径可以提高性能

当我在峰会上聆听演讲者的演讲时，他们所描绘的丰富的创新景观让我感到惊讶。除了使用较低的精度、张量核和Mac阵列（乘法累加核心）之外，这里还有几个亮点。顺便说一下，这些都不是正交方法。例如，基于奥斯汀的Mythic公司正在使用闪存阵列进行模拟脉冲神经网络的内存计算。

图2:为寻找更快更节能的DNN处理器而进行的一些创新的简短列表。有些创新，比如量子计算，需要几年时间才能实现。这些体系结构有两个主要类别:冯·诺依曼（Von Neuman）的大规模并行设计使用代码（内核）来处理数字计算机传统领域中的矩阵运算（先执行，再执行……）。更激进的方法通常是将计算和内存融合在一个芯片上。或者使用组成神经网络的权重和激活的数字表示，或者或者使用更类似于人脑生物学功能的模拟技术。模拟技术的风险较高，但可能有很大的前景。

许多数字内存设计都使用数据流计算架构，包括Cerebras和Xilinx Versal，在这些架构中，AI核心被嵌入带芯片存储器的结构中，这些存储器将激活连接到后续的网络层或从后续的网络层传输。要使这些设计在推理中运行良好，玩家需要开发自定义编译器技术来优化网络，修整网络中未使用的部分，并消除零乘（当然，这里的答案是零）。

图3:一个有用且简单的分类法，可以帮助您正确看待公司和架构风格，尽管这忽略了FPGA。别误会，这些公司中的大多数，无论大小，都会提供一些非常出色的设计。不过，请记住，一个新颖的DSA设备构建有用的可扩展解决方案所需的时间和投资规模。为了正确看待这项投资，我怀疑NVIDIA每年花费数亿美元来在全球范围内促进其芯片上AI研究与开发的创新。没有初创公司能与之相抗衡，因此他们需要通过一些设计上的巨大胜利来帮助他们跨越这个鸿沟。

观察#3:NVIDIA仍然领先

NVIDIA公司数据中心业务部副总裁兼总经理伊恩·巴克（Ian Buck）是这次活动的最后一位演讲者。他介绍道，NVIDIA公司通过其Saturn V超级计算机（在500强排行榜上名列第22位）支持的更快的软件和DNN研究，在扩展其推理技术方面取得了进展。Buck指出设计胜出的理由，包括一些知名度和广泛的用例。

图4:NVIDIA能够展示出12家采用GPU进行推断的公司，以及所有主要的云供应商。

为了帮助推动GPU上的推理应用，NVIDIA公司宣布推出TensorRT软件第6版，该软件包括一个优化器和运行时支持，可在经过训练的神经网络上部署经过训练的神经网络，以对各种NVIDIA硬件进行推理处理。它支持99美元的Jetson用于嵌入式处理，Xavier用于自动驾驶汽车，Turing T4用于数据中心应用等。

其次，亚马逊AWS宣布支持NVIDIA TensorCore T4 GPU，这是一种75瓦的PCIe卡，可以支持复杂的图像，语音，翻译和建议的复杂推理处理。NVIDIA T4将成为Habana Labs等初创公司和Intel Nervana等老牌公司的共同比较目标。虽然我认为新的芯片会带来出色的性能指标，但NVIDIA公司将辩称，这些设备在云中的实用性将取决于可用软件的数量以及能否在这些加速器上运行各种模型的用户群。

最终，NVIDIA证明了GPU可以在适当的位置不断发展（与许多初创公司所说的相反），它宣布了用于语言处理的83亿参数Megatron-LM变压器网络。这是使用512个GPU在NVIDIA Saturn V上开发的，这也显示了拥有自己的AI超级计算机时可以做什么。请注意，根据mlPerf基准测试，NVIDIA在短短7个月内也将其现有V100 GPU的性能提高了一倍。

有些人仍然认为推断是针对轻量级的。但NVIDIA公司表明，现代推理用例需要实时延迟的多个模型来满足用户的期望，20-30个容器协作回答一个简单的口头查询。

图5:本幻灯片描述了回答简单口头查询的工作流程

结论

即将到来的寒武纪特定领域架构爆炸令人兴奋，但是它仍然处于“很快就会出现在您附近的服务器上”的阶段中。当大多数初创公司开始发展人工智能领域时，寒武纪就拥有了很多潜在客户，例如Google，Amazon、 AWS，百度和阿里巴巴都将有自己的设计投入生产。此外，大型半导体供应商将准备使用新的硅材料来处理更大的网络（如Megatron-LM）或节能的推理设计。

这并不意味着初创公司应该简单地放弃并将其资本返还给投资者，但是这些初创公司将有很高的门槛，而且利润率很高。否则，他们将需要瞄准利基市场，在这些市场中他们可以以更高的能效和更低的价格获胜。

当然，他们的另一个选择是做大，或者回家，就像Cerebras最近在Hot Chips上发布的Wafer-Scale AI Engine。然而，这不是我推荐给胆小的人的方法。我期待看到特定领域的体系结构进一步发展。

半导体行业观察

最有深度的半导体新媒体，实时、专业、原创、深度，30万半导体精英关注！专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片

相关技术

静止机器人

英特尔机构

英特尔（NASDAQ: INTC）是全球半导体行业的引领者，以计算和通信技术奠定全球创新基石，塑造以数据为中心的未来。我们通过精尖制造的专长，帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切，并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/

相关技术

推理网络 OpenCV

Qualcomm机构

高通公司（英语：Qualcomm，NASDAQ：QCOM）是一个位于美国加州圣地亚哥的无线电通信技术研发公司，由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建，于1985年成立。两人此前曾共同创建Linkabit。高通公司是全球3G、4G与5G技术研发的领先企业，目前已经向全球多家制造商提供技术使用授权，涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据，高通在2007年度一季度首次一举成为全球最大的无线半导体供应商，并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器，具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/

相关技术

大数据技术 AI基础设施 AI芯片技术

寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片，同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com

相关技术

人工智能硬件深度学习

冯·诺依曼人物

约翰·冯·诺伊曼（德语：John von Neumann，1903年12月28日－1957年2月8日），原名诺依曼·亚诺什·拉约什（匈牙利语：Neumann János Lajos），出生于匈牙利的美国籍犹太人数学家，现代电子计算机与博弈论的重要创始人，在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

相关技术

正则形式的博弈拒绝采样

来源：维基百科 John von Neumann

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

脉冲神经网络技术

第三代神经网络，脉冲神经网络（Spiking Neural Network，SNN），旨在弥合神经科学和机器学习之间的差距，使用最拟合生物神经元机制的模型来进行计算。脉冲神经网络与目前流行的神经网络和机器学习方法有着根本上的不同。SNN 使用脉冲——这是一种发生在时间点上的离散事件——而非常见的连续值。每个峰值由代表生物过程的微分方程表示出来，其中最重要的是神经元的膜电位。本质上，一旦神经元达到了某一电位，脉冲就会出现，随后达到电位的神经元会被重置。对此，最常见的模型是 Integrate-And-Fire（LIF）模型。此外，SNN 通常是稀疏连接的，并会利用特殊的网络拓扑。

来源：机器之心

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

查询技术

一般来说，查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域，查询指的是数据库和信息系统对信息检索的精确要求

来源：Wikipedia

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为：积体电路上可容纳的电晶体数目，约每隔两年便会增加一倍；经常被引用的“18个月”，是由英特尔首席执行官大卫·豪斯所说：预计18个月会将芯片的性能提高一倍。

来源：维基百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

优化器技术

优化器基类提供了计算梯度loss的方法，并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法，如梯度下降和Adagrad。优化器是提供了一个可以使用各种优化算法的接口，可以让用户直接调用一些经典的优化算法，如梯度下降法等等。优化器（optimizers）类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类，但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer（tensorflow下的优化器包）等等这些算法。

来源：维基百科

阿里巴巴机构

阿里巴巴网络技术有限公司（简称：阿里巴巴集团）是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革：信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算，某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界，是在通向更强大和有用的计算技术的关键一步。

来源：活在实验室还是实现霸权？揭开当前量子计算技术进展之谜|机器之心

流计算技术

Spark Streaming是Spark Core API的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window。

来源：juejin