声明:本文的所有图片和公式都来自于原论文。
论文1:Accurate and Efficient 2-Bit Quantized Neural Netowrks
地址:https://www.sysml.cc/doc/2019/168.pdf
引言
随着机器学习和人工智能领域的持续发展,神经网络及其代表性的算法通过提升计算成本而实现了越来越高的准确度。量化(quantization)是一种以准确度为代价旨在降低计算成本的方法。为了在尽可能小地损失准确度的同时尽可能多地减少计算,研究者们已经提出了多种不同的量化方案。
通常来说,量化可用在两个地方,即神经网络的权重和激活。在学习机器学习时,这一类工作往往会被忽视,但如果考虑到实用性,这又非常重要。因此,我决定解读这篇论文。
为了单独实现各个权重和激活的量化,进而得到整体的量化神经网络(QNN),这篇论文提出了一些新技术。其中用于激活量化的技术为「PArameterized Clipping acTivation(PACT)」,用于权重量化的技术则为「Statistics-Aware Weight Binning(SAWB)」。
这篇论文声称,组合使用 PACT 与 SAWB 可以得到一种二位量化神经网络(2-bit QNN),其分类准确度在一些常见的模型和数据集上能达到当前最佳水平。