2019/11/13 11:40

四月、力琴作者

继英伟达最小边缘超算，英特尔再推10倍提升VPU，终端AI芯片创业压力加剧

市场被催熟，巨头进场收割。
边缘智能，人工智能的最后一公里，很长一段时间里被创业者视为得以绕开巨头打压的蓝海市场，在今年开始有了微妙的变化。

撰文 | 四月、力琴

感谢机器之心海外记者袁渊提供相关资料

11 月 13 日机器之心消息，北京时间今日凌晨 2 点，英特尔在旧金山举行 2019 人工智能峰会，推出从边缘到云端到全新 AI 芯片，包括下一代英特尔 Movidius Myriad 视觉处理单元 (VPU)，用于边缘媒体、计算机视觉和推理应用，以及难产三年终于落地的 Nervana 系列，面向训练 (NNP-T1000) 和面向推理 (NNP-I1000) 的 Nervana 神经网络处理器 (NNP)。

三条 AI 芯片产品线的发布，标志着英特尔人工智能业务获得实质进展。

在最近的财报电话会议上，英特尔乐观地预测，2019 年人工智能的年收入达到 35 亿美元，高于 2017 年的 10 亿美元，完成 2022 年 100 亿美元目标的三分之一以上。

英特尔透露，在无人机、相机、机器人和自动驾驶汽车等设备的边缘计算收入同比增长了 20%。

「这一数字将逐年增长，基于我们的广度与深度，已经从数据中心走到边缘。」英特尔公司副总裁兼 AI 产品事业部总经理 Naveen Rao 表示。

1 边缘端性能十倍提升

英特尔详细介绍了代号为 Keem Bay 的下一代 Movidius Myriad 视觉处理单元（VPU），该单元针对边缘推理任务进行了优化。

英特尔物联网副总裁乔纳森·巴伦（Jonathan Ballon）表示，该芯片拥有一种新的片上存储器架构，具有 64 位存储器带宽，性能是上一代产品的约 10 倍。

机器之心现场实拍

巴伦称：「它将以比同类产品低一倍的性能，几分之一的尺寸和成本来提供优于 GPU 的性能。」

Keem Bay 中封装了用于计算机视觉的专用芯片和 12 个可加快运行速度的专用（SHAVE）处理器内核，可使用 Myriad Development Kit（MDK）进行编程，从而兼容更多 AI 算法。

英特尔表示，Keem Bay 的功耗是 Nvidia 的 Jetson TX2 的四分之一，比华为昇腾（Ascend）310 计算速度快 1.25 倍。在特定情况下，能效比竞争对手的处理器高六倍，每秒提供的 TOPS 推理量是 Nvidia 的 Xavier 的四倍。

该款芯片将在 2020 年上半年推出，包括 PCI Express 和 M.2 等形式。

早在 2016 年 9 月，英特尔就收购总部位于圣马特奥的 AI 初创团队 Movidius，设计用于计算机视觉的专用低功耗处理器芯片，为其终端算力市场步下重要一子。

2017 年，英特尔推出 Myriad 2，被 Google 的 Clips 相机，大疆的 Phantom 4 无人机，和国内安防市场的高端摄像头所采用。

随后推出的 Myriad X 具有改进的成像和视觉引擎，包括附加的可编程 SHAVE 内核和升级的视觉加速器，以及支持多达 8 个高清传感器的本地 4K 图像处理器管线。

参考英伟达在软件生态的深厚基础而能厚积薄发，这次巴伦也着重强调了，英特尔在软件与开发工具方面的努力，使用英特尔OpenVINO 工具包的客户可以获得大约 50％的额外性能。

基于 OpenVINO 工具包，Edge AI DevCloud 能够对无人机和摄像头等边缘设备进行 AI 原型和测试，开发人员可以使用现有工具和框架免费测试和优化 OpenVINO 中用于 Intel 硬件（例如 CPU 或 FPGA）的模型。

随着 Edge AI DevCloud 的发布，客户现在能够使用在夏季推出的 Deep Learning Workbench 工具进行建模和仿真，然后将其免费部署在开发云中的各种不同硬件配置上。

Ballon 在与 VentureBeat 的一次对话中称，OpenVINO 是英特尔历史上增长最快的工具。

2018 年 5 月，英特尔首次向开发人员和制造商提供 OpenVINO 或开放式视觉推理和神经网络优化，以使用英特尔硬件进行深度学习推理。

OpenVINO 支持从 CPU，GPU 和 FPGA 到 Intel Movidius 神经计算棒的一系列机器学习加速器。该工具包于今年早些时候进行了更新，以扩展到计算机视觉应用之外，并支持语音和 NLP 模型。

英特尔今天还与 Udacity 一起推出用于物联网纳米级程序的 Edge AI。据悉，正在创建的数据中有 70％位于边缘，只有一半将进入公共云，其余的将在边缘存储和处理。

2 云端AI芯片终商用

在终端之外，英特尔当然没忘最核心的数据中心市场，Nervana 产品线难产三年终于落地。

英特尔推出面向 AI 推理和 AI 训练领域的两个系列产品，分别是神经网络训练处理器（Intel Nervana NNP-T）和神经网络推理处理器（Intel Nervana NNP-I），作为英特尔为云端和数据中心客户提供的首个针对复杂深度学习的专用 ASIC 芯片。

训练芯片 NNP-T 采用台积电 16nm 制程工艺，拥有 270 亿个晶体管，硅片总面积达 680 平方毫米，支持所有主流深度学习框架。

机器之心现场实拍

推理芯片 NNP-I 基于英特尔 10nm Ice Lake 处理器架构，在 ResNet50 上的效率可达 4.8 TOPs/W，功率范围为 10W 到 50W 之间，同样支持所有的主流深度学习框架。

早在 2016 年，英特尔就提出启动 Nervana 神经网络处理器的项目研发，直到今年才正式揭晓，并宣告正式投入生产，并实现商用。

值得注意的是，这两款产品面向百度、 Facebook 等前沿人工智能客户，并针对这些企业的 AI 处理需求进行定制开发。

谈到英特尔Nervana的独特性和优势时，英特尔公司人工智能产品事业部副总裁、推理产品事业部总经理Gadi Singer向机器之心表示，主要集中在功效、功能、规模化三个方面。

1）在功效方面，Nervana提供了非常节能的构建模块(building blocks)，大概能提供10到15瓦的解决方案，可以单独使用，也可以基于需求将多个模块集成。因此无论大小，都能满足用户在任何级别上构建解决方案。
2）多功能性。不同于市面上的图像或语音单功能处理器，Nervana的立项之初就是必须支持多种用途。通过构建一组深度学习的功能，可以被应用多个不同类型的机器学习任务中。
因为在大型云服务应用某些内容时，需要以多种形式使用它，因此需要在广泛的范围内提供良好的解决方案。
深度学习变化得如此之快，AI从某个研究实验室到或公司开始主意到开发再到部署可能只需要不到一年的时间，就好比去年BERT出来时，三个月内大家对它进行了广泛的试验，一年之内对其进行了非常大规模的部署。
在瞬息万变的环境下，研发出一个能随时‘准备就绪’的通用解决方案，我们才可以解决甚至还没有被广泛关注的新问题。因此，我们的架构是使用构建模块不断进行重组。
3）最后是规模化，比起硬件方面，更多组员主攻的是软件这个部分。软件对整个解决方案的优化非常关键，比如软件能了解在不同的内存位置以及使用这些功能分别需要的时长，软件能每个数据模块的使用频率并把它们放置在正确的位置上，让你可以最高效地使用推理计算引擎。
Nervana架构与某些单一用途的同类产品不同，使用带有接口通道的API分层构建它。最底层的API直接与硬件打交道，然后中间会有一些类似于图谱节点的API，像是深度学习图谱中的高级计算单元，然后最高层的软件层将它们映射到用户所需要的任何应用程序接口中。

3 巨头掘力终端

不止于英特尔，细心观察就会发现，今年巨头发力终端和边缘端的算力市场比以往声量更大。这在某种意义上也标志着终端 AI 芯片市场的成熟，巨头开始收割。

1、英伟达

Jetson 是英伟达在面向嵌入式市场的产品线，正是对标英特尔 Movidius。区别于其他边缘 SoC 的特点，Jetson 家族强调并行运行多个神经网络。

截至目前，Jetson 已发布四个系列，包括 Jetson TX1、Jetson TX2、Jetson Nano、Jetson Xavier NX，主要部署在边缘与终端应用上，适用于机器人、无人机和智能摄像头等应用。

2017 年，英伟达推出首款采用 Pascal GPU 架构（16 nm 工艺）的芯片 Jetson TX2，大小相当于一张信用卡。官方给出的数据显示，TX2 可在 MAX Q、MAX P 两种状态下运行，功耗在 7.5W-5W。

2018 年，英伟达发布 Jetson 系统级模块——AGX Xavier，可提供工作站级别的任务执行性能。AGX Xavier 有 10W/15W/30W 三种选择，神经网络运算输出为 32TOPS，可应付多达四路的 HEFC 4K 、60fps 视频流。

而就在上周，英伟达进一步推出 Jetson 的最新成员 Jetson Xavier NX，号称「全球最小边缘超算」。

可提供高达 14 TOPS（功耗为 10W 时）或 21 TOPS（功耗为 15W 时）的性能，能够并行运行多个神经网络，并在与 Nano 同样尺寸（70x45mm）的小巧外形中同时处理来自多个高分辨率传感器的数据。

Xavier NX 将于明年 3 月开始发售，价格 399 美元。

与此同时，英伟达为 Jetson 配置了一套开放式平台和完整的 AI 软件堆栈 JetPack SDK，可以运行复杂的 AI 网络，并用于深度学习的加速库以及计算机视觉、计算机图形、多媒体等。

2、谷歌

今年年早些时候，谷歌推出名为 Coral 的本地终端 AI 平台，是 TPU 的边缘芯片版本，强调以低功耗水平提高出色的 ML 推理性能。能够以良好的功率表现执行 MobileNet v2 等最先进的移动视觉模型，且 fps 可达 100 以上。

Coral USB 加速棒（图左）与第一代英特尔神经计算棒（图右）。

基于 Corel 平台，谷歌发布了五款设备，分别是单板计算机「Coral Dev Board」、支持 Raspberry Pi 或 Debian Linux 计算机的 USB 加速器、对应 Dev Board 的 500 万像素镜头模块、 Dev Board 的系统模块（SoM），和轻易将机器学习加速器 Edge TPU 与现有计算机系统整合的 PCI-E 加速器。

3、华为

看国内市场，当属华为作为风向标。

去年，华为发布全面自研芯片信号，昇腾则是其推出的首款面向边缘计算品牌，采用华为自有的达芬奇架构（12nm 工艺），使用华为自有的高效灵活 CISC 指令集。

昇腾系列除了瞄准机器人、智能制造等终端智能产品，同时也是华为在安防智能摄像头和边缘计算的重要布局。

昇腾 310 最大功耗为 8W，半精度（FP16）运算能力 8TFLOPS，整数精度（INT8）16TOPS，支持 16 通道全高清视频解码（H.264/265）。在今年上半年正式推出。

4 AI芯片创业压力加剧

很长一段时间里，由于云端 AI 芯片市场被集中垄断，同时更加依赖生态，导致大部分 AI 芯片的初创公司都将目标瞄准在边缘和终端市场，以各种 AI 加速器或 SoC 芯片的形式走向市场。

通过独特的架构设计以及领先的性能指标的芯片，以求在分散而潜力巨大的物联网市场分得一杯羹。

如今，英特尔 Myriad Keem Bay、英伟达 Jetson Xavier NX 的推出不仅标志着巨头边缘端 AI 芯片布局的完善和实力的进一步增强，同时也是边缘端芯片市场竞争更加激烈的强烈信号。

巨头的 AI 芯片触角蔓延至边缘端，将让 AI 芯片初创公司面临着更加严峻的生存挑战。

产业智能芯片人工智能

相关技术

推理网络 OpenCV

华为机构

华为创立于1987年，是全球领先的ICT（信息与通信）基础设施和智能终端提供商。

https://www.huawei.com/cn/

相关技术

机器学习物体识别深度学习人脸识别图像分割

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

计算机图形技术

图像数据处理、计算机图像（英语：Computer Graphics）是指用计算机所创造的图形。更具体的说，就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

边缘计算技术

边缘运算（英语：Edge computing），又译为边缘计算，是一种分散式运算的架构，将应用程序、数据资料与服务的运算，由网络中心节点，移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解，切割成更小与更容易管理的部分，分散到边缘节点去处理。边缘节点更接近于用户终端装置，可以加快资料的处理与传送速度，减少延迟。在这种架构下，资料的分析与知识的产生，更接近于数据资料的来源，因此更适合处理大数据。

来源：Edge Computing: Vision and Challenges

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

映射技术

映射指的是具有某种特殊结构的函数，或泛指类函数思想的范畴论中的态射。逻辑和图论中也有一些不太常规的用法。其数学定义为：两个非空集合A与B间存在着对应关系f，而且对于A中的每一个元素x，B中总有有唯一的一个元素y与它对应，就这种对应为从A到B的映射，记作f：A→B。其中，y称为元素x在映射f下的象，记作：y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域，记作f(A)。同样的，在机器学习中，映射就是输入与输出之间的对应关系。

来源：Wikipedia

无人机技术

无人机（Uncrewed vehicle、Unmanned vehicle、Drone）或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

来源：维基百科

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。

来源：维基百科

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/

相关技术

机器学习自然语言处理知识图谱

端AI芯片技术

AI芯片部署的位置有两种：云端、终端。所以根据部署的位置不同，AI芯片可以分为：云AI芯片、端AI芯片。终端，即手机、安防摄像头、汽车、智能家居设备、各种IoT设备等执行边缘计算的智能设备。终端的数量庞大，而且需求差异较大。

来源：机器之心