四月原创

2019/01/11 08:17

30年前的“CNN梦”在这颗芯片落地，能效比高出Tesla10倍

他们野心勃勃，希望借此在日益拥挤的AI芯片赛道上拔得头筹。

30年前，基于CNN（Cellular Neural Network）的定制化人工智能芯片的想法在美国加州大学伯克利分校的实验室里萌生。

30年后，这个想法终于在硅谷的华人AI芯片创业公司Gyrfalcon Technology里得到实现（以下简称GTI）。

目前，这家成立不到两年的公司已经吸引了全球前五大手机芯片公司中的三家大客户。

目前，GTI合作客户覆盖手机、安防、机器人、工业和IoT领域，且已有量产产品出货，其首个数据中心项目在2018年落地深圳。

GTI的芯片故事最早可以追溯到31年前。

1988年，加州大学伯克利分校的一位名叫杨林的博士和Leon Chua提出CNN（Cellular Neural Network）理论，并同年在IEEE上发表论文《Cellular Neural Networks: Theory》、《CellularNeural Networks: Applications》。杨林团队还基于该理论研发出一颗20*20矩阵的并行模拟电路芯片。

31年后，当年的“CNN”逐步演化成当下的卷积神经网络CNN和循环神经网络RNN，而开辟先河的两篇论文的引用数也分别达到了3871和1462。

更让人兴奋的是，当年那颗停留在实验室里的并行矩阵计算芯片终于在工业界落地——由杨林和董琪联合创办的AI芯片公司Gyrfalcon Technology（以下简称GTI）进一步迭代和优化，并衍生出多条产品线。

他们野心勃勃，希望借此在日益拥挤的AI芯片赛道上拔得头筹。

机器之心1月9日消息（美国时间），CES2019期间，GTI带来三款AI加速芯片，分别是面向AI终端的Lightspeeur®2801S、面向数据中心/云端的Lightspeeur®2803S 、以及全球首款采用MRAM（磁阻式随机存取记忆体）技术的TheLightingpee®2802M。

活动现场，GTI数位联合创始人充分展示了公司多项关键核心技术，包括可同时兼备训练和推理性能、可实现计算存储一体化的独创APiM架构、采用MCMC算法代替常见的SDG模型训练方法。

GTI强调其系列芯片在AI加速方面的高性能、低功耗、高性价比、小尺寸等特性，使用其开发平台能够实现非常快速和有效，支持最大规模的部署。

此外，MRAM（磁阻式随机存取记忆体）技术也颇值得一提。

眼下主流的储存器大致可分为两类：一类以传统内存DRAM、HM为代表，读写速度快但具有易失性（断电数据易丢失），另一类以传统闪存Flash为代表，具有非易失性但读写速度慢。

而MRAM（磁阻式随机存取记忆体）能同时兼顾非易失性和高速读写。由于铁磁体的磁性几乎永不消失，因而磁阻内存可以接近无限次地重写，切断电源时，记录的数据依然保存在磁性单元内，因而也不会丢失数据，在超高速读写时能耗也相对较低。

从MRAM芯片技术的特性上来看，它能解决计算机或手机启动慢、数据丢失、数据装载缓慢、电池寿命短等问题，从而改变消费者使用电子设备的方式。因此，MARM被视为大多数手机、PC、移动硬件等数字产品储存器的替代品。

但MRAM的制作工艺复杂，体积会随内存增加而增大，生产成本高等难以量产的缺点让储存器市场望而却步。据投资人尽调数据显示，全球目前具备MRAM实体产品的公司不超过三家。

三大产品矩阵第一款芯片，Lightspeeur 2801S旨在解决广泛的Edge AI应用,并快速落地消费电子产品，帮助企业和工业应用此技术设计产品。

IDC在最近的一份报告中称，“到2019年，大约45%的人工智能数据将在Edge上存储、执行和操作”，这使得终端由于其独特的机遇，成为GTI的一个有吸引力的目标。该芯片在2017年9月推出该芯片后，已在手机、机器人、工业以及安防等多个领域落地，其公开客户包括富士通、LG和三星等。

该芯片具有9.3 TOPS / W的等效性能，采用28nm工艺技术。它尺寸为7x7mm，小尺寸可容纳各类边缘设备。它的峰值性能为5.6 TOPS，在0.3 W时可提供2.8TOPS。支持VGG和SSD网络模型。

2801S的计算棒版本在2018年开始供客户使用。相比同类的英特尔Movidius，2801S更适合采用大规模采用的商用设备，因为它提供了更好的性能（2801S , 5.6 TOPS VS Movidius,1 TOPS），更好的功率使用（2801S的0.3W, 2.8TOPS VS Movidius的1W ，1 TOPS）和更小的尺寸和更低的价格。

第二款芯片，TheLightingpee 2802M是业界第一款基于MRAM技术的AI加速芯片，并使用专有的GME（Gyrfalcon MRAM引擎），将Edge AI设计带来诸多优势。

使用2803M的设备可支持在同一芯片上同时运行的多个模型，或非常大的AI模型，因为该芯片可提供40MB内存。支持多个模型对于需要复杂的AI实现以支持用户交互或多阶段AI功能的设备非常重要。

该芯片采用22nm工艺技术，并提供非易失性存储器，这对于物联网端点和边缘设备至关重要，这些设备在退出睡眠模式或电源中断后，仍可立即运行。对于使用太阳能或电池供电的远程设备，这是一项强烈的需求。

第三款芯片，Lightspeeur 2803S同时面向边缘产品（家庭和小型办公室中心，自动驾驶车辆，机器人等）以及提供云AI的数据中心加速。

该芯片具有24 TOPS / W的等效性能，并采用28nm工艺技术。尺寸为9x9mm，在0.7W时的峰值性能为16.8 TOPS。它还支持448x448x4图像尺寸，近似为VGA图像尺寸，满足更多种应用需求。

该芯片可支持各种神经网络，包括ResNet，MobileNet，ShiftNet，VGG和SSD。

此外，GTI还提供基于USB计算棒、加速卡等产品形态。GAINBOARD™系列加速卡可配置2801S或2803S芯片。目前，2801S仅支持并联方式，2803S支持级联与并联两种方式。

2803S支持两种扩展模式：一、多颗芯片级联，线性提升AI算力，运行大规模神经网络；二、多颗芯片并联，同时处理多任务。

性能解读

据介绍，所有Lightspeeur芯片均可并联使用，可将所有芯片封装到GAINBOARD产品中，如4芯片M.2卡，16芯片PCIe服务器卡和64芯片服务器产品。客户可以灵活地选择在先进边缘，边缘服务器或数据中心服务器设计中精确设计多少芯片。

据介绍，基于2803的PCIe开发板性能将优于NVIDIA Tesla4、以及英国的 Graphcore芯片。

16芯片2803 PCIe板将提供了271TOPS，而NVIDIA Tesla 4在PCIe中仅提供65 TOPS，而Graphcore在使用2个芯片的类似配置中仅提供248TOPS。将TOPS的结果与所使用的功耗进行比较，可以看出其对于先进边缘或数据中心操作的卓越效果，因为2803S PCIe将仅使用28W，而NVIDIAPCIe将消耗70W, Graphcore PCIe将消耗高达300W的功耗。

性能与功耗的比方面，2803S提供了惊人的10TOPS /W，而NVIDIA PCIe提供了大约1 TOPS/W，而Graphcore提供了不到1TOPS/W。

2803落地的终端产品可面向无人机，先进的监控设备，机器人和自动驾驶汽车；边缘服务器可以是复杂的工作站，家庭和小型办公室AI中心，以及用于小型私人学校，大厦或社区的单卡AI服务器。基于2803搭建的数据中心服务器将提供大规模云AI服务器操作。这提供了无限的灵活性，因为模型可以大量并行运行，并且在系统中的实际芯片数量没有限制。

为此外，据GTI创始人兼CEO董琪向机器之心介绍，基于GTI芯片首个Cloud AI已经在中国深圳落地，可以支持广泛的用例，包括图像识别，文本分类，情感分析，语言翻译，文本预测，聊天机器人操作，阅读理解和图像字幕。

上述产品均利用GTI提供的三项专利和专有技术引擎、MPE（矩阵处理引擎），ConStreaming™引擎，独特且极其有效的卷积神经网络引擎，以及GME（Gyrfalcon MRAM引擎）。

据介绍，GME引擎为业界首创，只有这项技术才能实现嵌入式MRAM。所有这些引擎在终端设备和数据中心运营中都能提供卓越的结果和效率。目前，GTI已经获批并正在授予的技术专利超过50项。

上面提到的MPE可能够让芯片像人脑一样，将逻辑和内存集成在一起，这样在处理人工智能数据时就不会浪费精力和时间。 AI算法可以即时访问数据，快速提供结果，并且不会浪费将数据移入和移出位于系统其他位置的离散存储器的能量。这使得数据处理具有非常高的性能，同时使用非常少的能量。

关键细节探讨

GTI总部位于硅谷地区的核心城市Milpitas，成立于2017年初。GTI由经验丰富的硅谷企业家和人工智能科学家创建，通过将云人工智能的强大功能引入本地设备，推动人工智能的应用，并以更高的性能和效率提高云AI性能，提供最大的人工智能定制新设备和人工智能升级路径给客户。

“我们是唯一一个以矩阵乘法作为基本计算元素的人，”GTI总裁Frank Lin谈道，“其他芯片制造商，他们中的一些人正在考虑新的矩阵或张量架构，”，但是Gyrfalcon在2018年1月就已经向客户提供了第一块芯片。

GTI认为，通过将每个相同的计算单元与内存合并成“内存中的AI处理”与 APiM架构的方法相结合，可以大大减少外部存储器的使用，从而大幅降低AI芯片的功率预算。

比如，2801能够以1瓦特的能量计算每秒9.3万亿次运算，其中每次运算都是乘法累加的步骤。“这比英特尔的Movidius部件的能效比提高了90％。”

而面向数据中心的2803，则不仅可以用于推理而且可以用于训练，GTI采用马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo)，即所谓的随机数递归，以代替更常见的SGD（随机梯度下降）以实现在APiM架构上快速进行模型训练。

2801和2803都采用了嵌入式存储器，2801的数量级为9Mb，与每个计算元件集成在一起的存储器允许芯片完成几乎所有的推理工作，而不必离开芯片到专门的存储器。该公司将其称为“内存中的AI处理”或“APiM”架构。

“我可以将网络模型和数据以及激活单元一次性预加载到芯片上吗，”杨林说道，“不必再与存储器进行频繁的数据输入与读出交换，能够节省大量功耗，这就是为什么性能是那么高。“

2802的另一个有趣特性：非易失性存储器。

2802用MRAM替换2801和2803部件中使用的静态RAM（SRAM）。与NAND闪存类似，MRAM在断电时不会丢失数据。这意味着神经网络可以由客户预先加载，甚至可能在工厂预装，然后部件出货。

在核心软件部分。与CPU和GPU不同，Gyrfalcon的专用集成电路（ASIC）没有现成的编程堆栈。

出于这个原因，该公司刚刚发布了一个开发人员SDK来为这些部件构建应用程序。开发套件可以在两个硬件配件上进行测试，包括一个名为“PLAI Plug”的USB计算棒和“PLAIWiFi”的独立设备，可作为移动端的无线加速设备使用。

沿袭杨林教授的并行矩阵计算思想，GTI展现超脱寻常的算力能力，但同时他们也采取了一个看起来稍显激进的模式——芯片的基础来自卷积神经网络，虽然卷积神经网络在过去几年中已经成为一些最重要的神经网络设计，但是这种选择使得芯片不太容易适用于其他类型的网络，例如“长期短期记忆”网络。

但GTI方面认为这并不是一种局限。

“CNN是所有其他AI的基础，”杨林在接受采访时说道。他指出，“我们发现最大的市场份额仍然由ResNet和MobileNet占据，我们需要做的是支持最主流的模型”。董琪认为，网络模型的形态并不决定真正的应用。试图覆盖所有现有的或即将到来的神经网络，会让AI专用芯片的性能变得平庸。

如果新的网络出现并占据了相当大的市场份额，“那么我们将为此推出另一种芯片，”他补充道。

据公开资料显示，2017年，一村资本母公司华西股份联合华天科技对GTI完成了首轮领投投资。据公开数据显示，Graphcore目前的融资资金超过1亿美元。

Gyrfalcon在采访中谈道，他们已经获得了“美国，日本，韩国和中国的机构和企业投资者的三轮融资”，并补充说“按目前的员工和费用率，公司有资金运营至少三年”。

（现场照片由机器之心驻海外记者Tony提供）

产业GyrfalconFaster R-CNNCES 2019

相关技术

推理网络 OpenCV

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

VGG技术

2014年，牛津大学提出了另一种深度卷积网络VGG-Net，它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野，而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好，常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量，VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层，每一层都有4096个神经元，可想而至这之间的参数会有多么庞大。

来源：7大类深度CNN架构创新综述

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋（BOW）模型、语言模型（ngram）和主题模型。隐马尔可夫模型通常用于词性标注（POS）。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

来源：机器之心

SSD技术

一种计算机视觉模型。论文发表于 2015 年（Wei Liu et al.）

来源：介绍文章

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press.维基百科

随机梯度下降技术

梯度下降（Gradient Descent）是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知，使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。在机器学习中，我们可以利用随机梯度下降的方法来最小化训练模型中的误差，即每次迭代时完成一次评估和更新。这种优化算法的工作原理是模型每看到一个训练实例，就对其作出预测，并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

来源：机器之心

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

无人机技术

无人机（Uncrewed vehicle、Unmanned vehicle、Drone）或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

来源：维基百科

MobileNets技术

MobileNet是专用于移动和嵌入式视觉应用的卷积神经网络，是基于一个流线型的架构，它使用深度可分离的卷积来构建轻量级的深层神经网络。通过引入两个简单的全局超参数，MobileNet在延迟度和准确度之间有效地进行平衡。MobileNets在广泛的应用场景中有效，包括物体检测、细粒度分类、人脸属性和大规模地理定位。

来源：arXiv

拟未科技机构

Graphcore为用科技探索并放大人类潜能的创新者们制造智能处理器。 CPU和GPU从来不是为了满足机器学习的计算需求而设计。因此，尽管进化，创新者却开始因硬件阻碍而倒退。我们组建了能够重新思考处理器的最佳团队，并发明了完全不同的解决方案。我们创建了一个新的处理器，这是第一个专为机器学习工作负载而设计的处理器——智能处理单元（IPU），这将设定一个新的创新步伐。现在，来自所有行业和行业的机器学习创新者拥有一个高效、灵活、快速的平台，使他们能够将想法带入现实，并构建未来的产品和服务。