深度压缩可以在不影响准确率的情况下压缩神经网络。论文的方法通过修剪不重要的连接,使用权重共享量化网络,然后应用霍夫曼编码来操作。论文重点介绍了在 AlexNet 上的实验,该实验将权重存储减少了 35 倍而不会损失准确性。论文对 VGG-16 和 LeNet 网络显示了类似的结果,压缩了 49 倍和 39 倍,而不会损失准确性。这导致将卷积网络放入移动应用程序的存储需求更小。在深度压缩之后,这些网络的大小适合片上 SRAM 缓存,而不需要片外 DRAM 内存。这可能使深度神经网络在移动设备上运行时更加节能。论文的压缩方法还有助于在应用程序大小和下载带宽受到限制的移动应用程序中使用复杂的神经网络。