模型压缩旨在帮助客户在尽量不减少模型效果的前提下压缩模型大小,进而提升模型在推理调用时的性能。
前置条件
资源准备:本功能仅支持910b硬件。
模型准备:您需要先对支持评估的模型完成模型精调后,再在评估页面创建评估任务。
创建模型压缩任务
您可通过以下方式使用:
入口1:进入“模型工具”>“模型压缩”菜单,进入评估任务列表,点击【创建压缩任务】,进入创建页面;
入口2:进入“智算资产”>“我的模型”菜单,在我的模型菜单页面中,找到支持压缩的模型,点击【压缩】按钮,进入到创建页面。
进入创建压缩任务页面后,填写相关配置:
类型
字段
说明
基本信息
任务名称
压缩任务名称,不超过20个字符
任务描述
该任务的描述,300个字符以内
模型配置
选择源模型
此处支持选择用户希望压缩的模型,目前仅支持Llama3-8B-Instruct基座模型精调出的模型
模型创建方式
选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)
选择已有模型/新模型名称
选择已有模型:同一模型各版本的基础模型需保持一致,已自动过滤不符合要求的模型;
新模型名称:保存为新模型的名称
压缩策略配置
压缩方法
选择压缩方法,支持W8A16与稀疏化:
W8A16:WxAxCx中W、A、C分别代表模型权重(weight)、激活(activation)和键值缓存(kv cache),数字x代表模型压缩后相应部分的比特数。模型压缩过程后,高比特浮点数会映射到低比特量化空间,从而达到降低显存占用、提升推理性能等目的。 模型的推理性能收益均需要通过实际测试获得,表中策略类型仅做参考。W8A16的权重使用8位整数量化,但是激活值仍然保留较高的精度,通常是使用16位浮点数(FP16)或者混合精度(MixedPrecision)。这种方式相比于W8A8,可能会提供更好的模型准确性,但是代价是在激活值上保留了更高的精度,因此可能不会像 W8A8那样大幅度减少内存使用。
稀疏化:是指在深度学习模型中通过将模型参数中的一些元素设为零来减少模型的计算量和存储需求,从而实现模型轻量化的目的。稀疏化不仅能有效地压缩模型,还能够加速推理过程,尤其是在硬件资源有限的设备上(如嵌入式系统或移动设备)。通过算法判断模型权重中每个元素对精度结果的重要性,并将模型权重中对最终精度影响小的权重值置零的过程。
资源配置
集群
选择适合的集群
队列
选择可用资源配额
资源规格
选择资源规格类型,不同的算力规格对应不同的价格
点击提交,创建压缩任务。
查看压缩任务
查看任务详情:在任务列表点击任务名称,进入详情页面,可查看任务配置及任务日志。
操作:可在列表操作列中点击【详情】以查看任务详情,点击【停止】以停止任务。
获取压缩结果:压缩任务运行完成后,压缩后的模型会自动保存到用户指定的模型管理中的位置。可以通过开发机挂载模型、或者下载模型来查看模型文件本身。压缩后的模型可以直接通过我的服务进行服务部署,部署为推理效果更优的大模型服务。