就如传统的芯片设计师追求PPA、CPU对比MIPS、GPU衡量Pixel和Texture一样,一个好的评估方法能够让开发者可以针对场景进行设计,同时可以指导研发调整优化防线,引导客户进行正确选择,同时能够促进行业有序协同向前发展。
快速提升的AI算法和落后的衡量方法
地平线联合创始人&技术副总裁黄畅在日前于深圳举办的2020全球人工智能和机器人峰会上指出,Intel联合创始人戈登摩尔在1965年提出摩尔定律,这揭示信息技术进步速度的定律得到了充分的行业验证。但进入最近几年,半导体工艺已经接近了尾声。
“与此同时,AI对算力的要求大幅度增加,那就意味着如果我们如果仅靠半导体工艺的提升来满足快速增长AI需求,那就变得不甚现实。”黄畅说。为此大家都开始将目光投向计算效率。
以ImageNet为例,作为AI领域的奥林匹克竞赛,它吸引了学术界和产业界的关注,而在过去的发展中,则分为三个阶段:第一阶段是通过算法专家精心设计网络结构,不断增加计算量提升ImageNet的精度;到了第二阶段的ResNet,它的精度、计算量都有显著提升;在后续几年,来自谷歌等等各个领域的专家通过手工设计新的网络结构,不断地推动这个算法演进,使得我们可以以更低的计算量达到更高的精度。
“ 从2016年到2018年,我们发现在ImageNet上的精度基础趋近饱和,精准度始终保持在80%的水平,精度发生饱和之后,大家开始关注计算的效率,越来越多的效率也得到了重视,并推出了非常多轻量级网络”,黄畅补充说。“去年EfficientNet的推出更是震惊了长期关注ImageNet的所有的学术研究者”,黄畅强调。
他指出,EfficientNet的基准网络和硬件无关,它只关注计算量本身,也就是进行了多少次乘法或加法的运算,其中最小的网络只有0.4G,并且还能自动化搜索网络的所有结构。此外,它还要搜索层次、图像分别率,所带来的的不仅是参数提升了,分辨率也同时提升了,有助于它提升图像识别的精度。
然而回到人工智能的性能评估领域,从TFLOPS,到TOPS,再到近三年MLPerf的崛起,AI芯片依然没能找到准确的衡量标准。以MLPerf为例,虽然这个评估标准给大家提供了一个展现AI芯片能力的平台,但它依然面临着几方面的挑战,这与他们在测试前必须选定模型有关。“模型更新非常慢,根本无法及时反应整个算法效率的提升。而模型又非常少,也很难反映各个精度上速度全貌”,
由此可见,为AI芯片建立一个新的衡量标准势在必行。
全新的芯片AI性能评估方式——MAPS
在黄畅看来,评估芯片的AI性能,可以从准、快、省这三个维度来看。其中“准”是反映实际需求任务上的算法精度,比如说图像分类里面我们用Top-1或者Top-5的精度判断它是不是准;“快”的方面,通常有延迟和吞吐率两个维度,前者更侧重于处理单个任务的最快反应时间,后者应用于你可以在服务器层面上用最大的处理方式处理它的吞吐率;“省”就是看它的成本和功耗。
“对于AI芯片的性能评估来讲,准和快是两个非常重要的因素”。黄畅强调。
基于此,地平线提出了新的芯片AI性能评估方式——MAPS,即MeanAccuracy-guaranteed processing speed(在精度有保障范围内的平均处理速度)。这个新方式的提出,是想在精度有保障的范围测出芯片的平均效能表现,并得到一个全面、完整、客观和真实的评估。按照黄畅的说法,这个全新的评估方式对行业来说有六大创新之处:
第一,它可以可视化芯片的Benchmark,我们可以通过可视化的图形更精确的表达;
第二,我们关注真实、面向结果的需求,只在乎精度和速度,不在乎中间任何关于算法的取舍和选择;
第三,可以统一表示精度与速度,关注主流精度区间;
第四,隐藏与最终结果无关的中间变量,包括模型、输入大小、批处理的量是多大;
第五,通过这种方法可以在算力之外帮助用户理解这个芯片到底能跑多快以及多好,最终留有最大的空间引导客户使用最优的方式使用这颗芯片,指导客户使用这个芯片的最佳实践。
第六,有最大的空间引导客户使用最优的方式使用这颗芯片,作为指导客户使用芯片最佳实践的这一点非常重要。
作为 AI 领域的奥林匹克竞赛,ImageNet 比赛产生了几乎所有机器视觉中最重要的模型,它们在 ImageNet 上的精度可充分迁移到其他机器视觉任务(如物体检测、语义分割等)。在 ImageNet 的主流精度范围(75~80%)下,速度最快的模型所代表的点(由精度和帧率确定)所围多边形面积大小即为芯片处理ImageNet AI任务的能力大小,其公式为MAPS = 所围面积 /(最高精度-最低精度)。在演讲现场,黄畅还展示了MAPS评估方式在在ImageNet上的定义与主流芯片测试结果。
“如果我们用MAPS,它是更能真实反映AI性能指标”,黄畅说。如下图所示,这主要由三个要素组成:第一是TOP/Watt、TOPS/$这样的指标,这是传统的方式。等式右边则是由理论峰值计算效能、有效利用率和AI算法效率构成。
“我们希望有更多的软件、算法工作者,在MAPS评估指导体系的启发下,从自己最擅长的能力上持续推动AI芯片能力的发挥”,黄畅最后说。