2019/02/25 15:46

湃方科技创始人、清华大学刘勇攀教授团队在ISSCC2019 发布STICKER系列AI芯片

2019年2月17日至21日，国际固态电路年度会议（ISSCC2019）在美国旧金山召开。始于1953年的ISSCC（International Solid-State Circuits Conference）国际固态电路年度会议，通常是各个时期国际上最尖端固态电路技术最先发表之地。由于ISSCC在国际学术、产业界受到极大关注，因此被称为“集成电路领域的奥林匹克”。每年吸引了超过3000名来自世界各地工业界和学术界的参加者。

来自清华大学刘勇攀教授研究团队的岳金山博士在2月19号上午的论坛上，做了题为《STICKER-T: 一种采用块行列式变换域加速技术与转置存储二维数据复用架构的高面积/能量效率的通用神经网络加速器》（A 65nm 0.39-to-140.3TOPS/W 1-to-12b Unified Neural-Network Processor Using Block-Circulant-Enabled Transpose-Domain Acceleration with 8.1× Higher TOPS/mm2 and 6T HBST-TRAM-Based 2D Data-Reuse Architecture）的报告。

该工作提出了算法层-架构层-电路层联合优化的新型解决方案，通过变换域加速技术和转置存储复用技术，实现了支持各种神经网络模型（CNN/FC/RNN）的通用神经网络加速器方案，并大幅提高了人工智能加速芯片的能量效率和面积效率。该工作入选了ISSCC19的Machine Learning分会，也是中国首篇发表的人工智能芯片ISSCC论文。该分会是近2年ISSCC大会中参加人数最多的分会，吸引了众多顶尖大学MIT，Leuven和Intel，IBM等公司的研究成果，竞争极为激烈。本年度入选论文的单位还包括Samsung、Toshiba等重量级芯片公司和Standford, Umichigan，KAIST，SNU等顶尖大学。由于这个领域的重要性，ISSCC2020将新成立一个专门的Machine Learning技术委员会分会评审该领域论文。

清华大学电子工程系博士岳金山在ISSCCMachineLearning会场做报告，右一为湃方科技创始人、清华大学电子工程系刘勇攀教授

物联网与人工智能结合的发展趋势，对边缘智能计算芯片有了更高的要求，从而需要实现更低功耗、更低延迟、更低成本的芯片设计。由于神经网络往往面临着大量的计算和存储访问开销，并且由于应用场景变化往往要求支持不同的神经网络算法，如何实现高效且统一的神经网络处理器是人工智能芯片设计领域的一大挑战。该工作相比于已有的设计方案，引入了新的设计维度，将算法层的优化策略与架构层和电路层优化策略联合考虑，从而实现了更高面积/能量效率且归一化支持多种神经网络算法（CNN/FC/RNN）的神经网络处理器芯片STICKER-T。在STICKER-T芯片中，为了解决算法层优化引入的诸多挑战，采用了全局并行/比特串行的快速傅里叶变换（FFT）架构，并结合算法层的实数输入特征等进行了进一步优化设计；采用了转置存储器（TransposeSRAM，TRAM）设计，实现了支持在两个维度对输入图像数据和权重同时进行复用的二维计算阵列，并且支持不同比特精度动态可调的运算方式；在电路层进一步采用了分块转置的TRAM设计策略，大幅降低了TRAM的面积/功耗开销。综合以上优化设计，STICKER-T芯片实现了8-128倍的存储开销节省和最高140.3TOPS/W的峰值能量效率。

此外，来自该研究团队的袁哲博士在2月17日晚上的StudentResearchPreview会场还展示了团队在稀疏神经网络加速方面的最新成果STICKER-II芯片，结合低比特量化等技术，相比于上一代芯片STICKER实现了更高的能量效率，这也是首款将自适应稀疏和量化进行有机结合的人工智能芯片。

图1 STICKER-T神经网络处理器硬件架构

图2 STICKER-T芯片照片

清华大学电子工程系袁哲博士在ISSCCStudentResearchPreview现场做展示

智能传感芯片团队近三年来陆续设计了非易失智能处理器THU1020N，人工智能处理器STICKER，STICKER-T等系列芯片，发表在ISSCC/VLSI/JSSC上，受到了学术界和工业界的广泛关注。智能传感团队此次的研究成果，引入了算法层和硬件层的联合优化，实现了统一的神经网络处理器架构与变换域加速，提升了人工智能芯片的能量效率和面积效率，相关专利已经公开。

基于该团队在人工智能芯片领域的丰富科研成果所创办的人工智能芯片初创公司湃方科技，其STICKER系列智能边缘计算芯片具有高能量效率、模块化和可扩展化三大特点，以数据为中心、以高能效异构计算系统为载体、以工业智能应用为导向，完美集成了边缘智能和超高能效的优势，并且全部知识产权自主可控，有效控制了数据泄露的风险，有望加速人工智能技术在工业物联网、智能制造、人体健康、智能家居、智能安防等领域中的大规模应用。

产业ISSCC 2019硬件清华大学芯片创业公司湃方科技

相关技术

感知

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

边缘计算技术

边缘运算（英语：Edge computing），又译为边缘计算，是一种分散式运算的架构，将应用程序、数据资料与服务的运算，由网络中心节点，移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解，切割成更小与更容易管理的部分，分散到边缘节点去处理。边缘节点更接近于用户终端装置，可以加快资料的处理与传送速度，减少延迟。在这种架构下，资料的分析与知识的产生，更接近于数据资料的来源，因此更适合处理大数据。

来源：Edge Computing: Vision and Challenges

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

傅里叶变换技术

傅里叶变换（法语：Transformation de Fourier、英语：Fourier transform）是一种线性积分变换，用于信号在时域（或空域）和频域之间的变换，在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出，所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析，确定物质的基本成分；信号来自自然界，也可对其进行分析，确定其基本成分。

来源：维基百科