在当前的异构计算环境中,我们面临着一个棘手的“不可能三角”:高精度的模型复杂度、有限的硬件算力(内存、电池、计算单元)以及严苛的实时延迟要求。
传统的模型压缩手段——剪枝、量化、知识蒸馏——往往依赖于人工经验和启发式规则。我们需要耗费大量工时去调整超参数,试图在准确率(Accuracy)和延迟(Latency)之间寻找那个脆弱的平衡点。更糟糕的是,实验室里调优的模型,部署到具体的硬件后端(如移动端NPU、嵌入式GPU或DSP)时,往往会出现“理论FLOPs很低,实际推理很慢”的怪象。这是因为传统指标忽略了内存访问成本(Memory Access Cost, MAC)和硬件并行度的差异。