2019/11/16 13:16

张倩蛋酱报道

单芯片每秒1000万亿次运算：谷歌TPU原班团队全新AI架构，晶体管性能提升6倍

2016 年底，谷歌 TPU 团队的十位核心开发者中的八位悄悄离职，创办了一家名为 Groq 的机器学习系统公司。在此后的三年里，这家公司一直很低调。但最近，他们带着一款名为 TSP 的芯片架构出现在公众视野里。

TSP 的全称是 Tensor Streaming Processor，专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿（10 的 15 次方）次运算，是全球首个实现该级别性能的架构，其浮点运算性能可达每秒 250 万亿次（TFLOPS）。在摩尔定律走向消亡的背景下，这一架构的问世标志着芯片之争从晶体管转向架构。

250 TFLOPS 浮点运算性能是什么概念？目前的世界第一超级计算机 Summit，其峰值算力为 200,794.9 TFLOPS，它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率，仅需 803 块就可以实现同样的性能。

Groq 在一份白皮书中介绍了这项全新的架构设计。此外，他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。

白皮书地址：https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「我们为这一行业和我们的客户感到兴奋，」Groq 的联合创始人和 CEO Jonathan Ross 表示。「顶级 GPU 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品，但 Groq 现在就做到了，而且建立了一个新的性能标准。就低延迟和推理速度而言，Groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」

Groq 的 TSP 架构是专为计算机视觉、机器学习和其他 AI 相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说，Groq 的解决方案是非常理想的选择，」Groq 的首席架构师 Dennis Abts 表示，「但除此之外，Groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」

一款「简单」的 AI 芯片架构

Groq 的这款架构受到「软件优先」（software first）理念的启发。它在 Groq 开发的 TSP 中实现，为实现计算灵活性和大规模并行计算提供了一种新的范式，但没有传统 GPU 和 CPU 架构的限制和沟通开销。

「软件优先」的硬件设计理念

在 Groq 的架构中，Groq 编译器负责编码所有内容：数据流入芯片，并在正确的时间和正确的地点插入，以确保计算实时进行，没有停顿。执行规划由软件负责，这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。

这使得 Groq 的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算，因此编译器和芯片之间没有抽象（abstraction）。由于编译器了解硬件和每条指令的速度，所以它可以准确地告诉硬件做什么，什么时候做。

在传统的体系架构中，将数据从 DRAM 移动到处理器需要大量的算力和时间，而且相同工作负载上的处理性能也是可变的。在典型的工作流中，开发人员通过反复运行工作负载或程序来对其进行配置和测试，以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同，这种处理可能会得到略有差别的结果，而开发人员的工作就是手动调整程序以达到预定的可靠性级别。

但有了 Groq 的硬件和软件，编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置，这样就不会有延迟。到达硬件的指令流是完全编排好的，使得处理速度更快，而且可预测。

开发人员可以在 Groq 芯片上运行相同的模型 100 次，每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说（如自动驾驶汽车），这种计算上的准确性至关重要。

另外，使用 Groq 硬件设计的系统不会受到长尾延迟的影响，AI 系统可以在特定的功率或延迟预算内进行调整。

这种软件优先的设计（即编译器决定硬件架构）理念帮助 Groq 设计出了一款简单、高性能的架构，可以加速推理流程。

该架构既支持传统的机器学习模型，也支持新的计算学习模型，目前在 x86 和非 x86 系统的客户站点上运行。

更简单的架构设计

为了满足深度学习等计算密集型任务的需求，芯片的设计似乎正在变得越来越复杂。但 Groq 认为，这种趋势从根本上就是错误的。他们在白皮书中指出，当前处理器架构的复杂性已经成为阻碍开发者生产和 AI 应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率，再加上摩尔定律逐渐变慢，实现更高的计算性能变得越来越困难。

Groq 的芯片设计降低了传统硬件开发的复杂度，因此开发者可以更加专注于算法（或解决其他问题），而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计，开发者无需进行剖析研究（profiling），因此可以节省资源，更容易大规模部署 AI 应用。

与基于 CPU、GPU 和 FPGA 的传统复杂架构相比，Groq 的芯片还简化了认证和部署，使客户能够简单而快速地实现可扩展、单瓦高性能的系统。

让每个晶体管实现更高的性能

Groq 的张量流架构可以在任何需要的地方提供算力。与当前领先的 GPU、CPU 相比，Groq 处理器的每个晶体管可以实现 3-6 倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是，Groq 的架构使用起来更加简单，而且性能高于传统计算平台。

备受瞩目的 Groq

Groq 总部位于加州山景城，针对计算密集型应用程序提供高效的软件驱动解决方案，在性能、准确性和延迟度（亚毫秒级）等方面处于行业领先水准。

创立之初，Groq 颇受关注的原因是它的团队组成：创始团队的 8 位研发成员均来自谷歌 TPU 核心团队——在此之前，谷歌 TPU 核心团队总共不过才 10 个人。谷歌在短短 14 个月内发布 TPU，1 年后又完成第 2 代 TPU，所以外界对 Groq 抱有非常高的期待值。

尽管 Groq 只是一家成立三年的创业公司，但一举一动都会受到外界的高度关注。今年 9 月，Groq 在 AI Hardware Summit 2019 无故缺席，业内纷纷猜测 Groq 公司内部是否遇到了危机。

Groq 现任 CEO Jonathan Ross 的身份是「前谷歌芯片高层人员」，他毕业于纽约大学，曾在谷歌度过了 5 年多的职业生涯，是 TPU 的主要设计者之一。与他相关的还有非常神秘的谷歌 X 实验室，这个部门所从事的工作都是最前沿的领域，比如太空电梯、无人驾驶汽车、谷歌眼镜等。一定意义上说，谷歌是在「利用这个实验室来追踪 100 个震撼世界的创意」。创立之初，Jonathan Ross 担任 Groq 的 CTO，后来从 2018 年底开始接任 Doug Wightman 担任 CEO 一职。

Douglas Wightman 也是谷歌 X 实验室的前成员。Groq 成立几个月后，赛灵思全球销售执行副总裁 Krishna Rangasayee 也加盟出任 COO。

就在前几天，Groq 官网宣布 Stuart Pann 也将加入其董事会。Stuart Pann 目前是惠普的首席供应链官（Chief Supply Chain Officer），之前在英特尔工作了 33 年之久，负责英特尔微处理器和芯片组业务的定价，收入和预测等相关工作，在控制成本支出、提高营收方面有着非常深厚的经验。

Groq 目前大约有 70 名员工，从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过，Groq 却在用于人工智能行业的关键领域——新型芯片研发方面占有相当的优势。这个领域未来可能价值数百亿美元，而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收购」。

原本 Groq 对外公布要在 2018 年发布第一代芯片，实际发布时间却是今年的 9 月。虽然来得晚了一些，但还是足够惊艳。

参考链接：

https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

https://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html?tc=eml_cleartime&from=timeline&isappinstalled=0

https://www.bloomberg.com/news/articles/2019-10-24/former-google-chip-guru-takes-novel-approach-to-ai-at-groq

http://baijiahao.baidu.com/s?id=1649887565730511742&wfr=spider&for=pc

工程AI芯片Groq谷歌TPU

相关技术

推理网络 OpenCV

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

自动驾驶汽车技术

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为：积体电路上可容纳的电晶体数目，约每隔两年便会增加一倍；经常被引用的“18个月”，是由英特尔首席执行官大卫·豪斯所说：预计18个月会将芯片的性能提高一倍。

来源：维基百科

Xilinx机构

赛灵思作为FPGA、可编程SoC的发明者，一直坐稳全球最大的FPGA芯片供应商头把交椅。赛灵思的产品线覆盖45/28/20/16nm四个系列的FPGA以及Zynq SoC，旗下拥有着超过4400项技术专利、60多项行业第一的技术产品，服务着全球超过60000的客户。赛灵思耗时4年，超过1500名工程师的研发参与，超过10亿美元的研发投资，推出高度集成的多核异构自适应计算加速平台——ACAP！10月赛灵思发布了统一软件平台Vitis，成功“打破软硬件壁垒”。

https://china.xilinx.com/