使用大模型学习机微调自己的图像生成模型 本文向您介绍如何使用大模型学习机微调自己的图像生成模型。 前提条件 大模型学习机预装了Llama 27bchat模型与stablediffuisonbasev2.1模型, 以及配套的开源服务框架textgenerationwebui与stablediffuisonwebui,使您不需单独进行下载模型与配置环境。 云主机开通与如何登录网页页面参见部署文档。 一、模型微调简介 由于基础大模型参数量极多,训练需要的资源量极大,因此基于基础大模型进行微调的技术应运而生。针对StableDiffusion进行微调的技术主流的有4种,分别是: 1. Textual Inversion:不改变原模型结构与参数,只增加新的关键词并训练新的输入embedding。生成的新模型很小,大约几十KB。由于没有影响原模型的结构与参数,因此调整能力有限。 2. Hypernetwork:在原模型的crossattention网络结构中插入一层新网络,与原模型结构串行执行。由于新网络会平均作用在整个模型上,因此更适宜训练绘画风格。模型大小约几十MB。 3. LoRA:在原模型的crossattention网络结构中插入多个小网络结构,与原模型结构并行执行。实践证明这种结构的效果要优于Hypernetwork,因此LoRA是当前最主流的微调方案。模型大小约几十MB。 4. Dreambooth:对整个原模型的参数进行微调,训练成本高,生成的模型相当于一个新的基础大模型。模型大小约几GB。 已有LoRA模型如何加载可参考图像生成模型使用最佳实践。 本文以Textual Inversion方式为例,介绍通过私有数据微调模型并进行图像生成的流程。如果您有微调新的LoRA模型的需求,本文也给出了相关插件的安装说明。