在云端,我们习惯了堆砌参数、加深网络层数来换取那0.5%的准确率提升。然而,当我们将目光投向手机、IoT设备、嵌入式终端时,这种“暴力美学”瞬间失效。边缘设备受限于电池续航、散热能力和芯片算力,构成了一个“不可能三角”:我们既要模型极小(低存储)、又要推理极快(低延迟)、还要保持高精度(高性能)。
传统的模型压缩手段——剪枝、量化、知识蒸馏——往往是“事后补救”。我们先训练一个庞大的模型,再试图把它“削瘦”。但这种人工 heuristic(启发式)的操作存在极大的盲目性:剪多了精度崩,剪少了没效果;量化了跑得快,但激活值的分布变化可能导致严重的精度损失。
这促使我们必须转向一种更根本的解决方案:在设计阶段就将硬件特性纳入考量,通过自动化的方式,搜索出原生适合特定硬件的轻量化架构。 这就是本文要深入探讨的——基于神经架构搜索(NAS)的硬件感知轻量化框架。