大模型学习机文本生成最佳实践 本文向您介绍如何进行Llama2模型文本生成任务。 前提条件 大模型学习机预装了Llama 27bchat模型与stablediffuisonbasev2.1模型,以及配套的开源服务框架textgenerationwebui与stablediffuisonwebui,使您不需单独进行下载模型与配置环境。 云主机开通与如何登录网页页面参见部署文档。 以下将向您介绍如何进行Llama 2模型文本生成任务: 注意 框架默认角色名称为"You", 但主流大模型默认角色名称一般为"User", 可能会导致模型效果显著变差。 修改角色名称的方式有: 1. 在网页Parameters > Chat > User标签下修改Name字段为"User",此方法刷新页面后就会失效。 2. 修改配置文件/root/textgenerationwebui/modules/shared.py中的'name1': 'User', 并重启llama服务, 此方法永久生效。 1. 大语言模型加载 说明 以下内容基于开源框架textgenerationwebui。 1.1 基础模型加载 大语言模型体积较大,需要占用较多的内存/显存资源,因此在刚启动服务时并未进行加载,需要手动选择模型进行加载。 在页面上切换到Model标签页,左侧下拉菜单展开后会显示所有存放于云主机/root/textgenerationwebui/models目录下的模型。学习机初始预装了Llama27bchat模型(huggingface格式),您也可随时下载其他大模型并放入models目录下进行加载。 默认Model loader:Transformers能够支持huggingface的主流大模型,在自行加载其他模型时您需要确认模型格式是否匹配。 右下角将出现模型加载样式,直至加载成功。耗时可能较长,期间不要退出页面。 注意 在加载预装的Llama27b模型时,如果您使用的是GPU学习机,模型将默认以fp16半精度进行加载,消耗13.1G显存;如果您使用的是CPU学习机,模型将以fp32单精度进行加载,消耗26G内存。 因此,如果您的机型是内存为32G或显存为16G的型号,则会因为资源不足导致无法直接加载Llama27b模型。 解决办法: (1) 参考 27b模型前先将图像生成服务关停。 (2) GPU学习机能够支持对模型进行量化,降低模型精度的同时缩减模型大小。您可以在Model页下方找到loadin8bit的开关并进行勾选,此时Llama27b模型将消耗7G内存,可以和图像生成服务中的StableDiffusion模型共存。且8bit精度对大语言模型的生成来说影响不会特别大。 注意 由于huggingface.io网站访问受限,Model标签页的Download按钮无法直接下载模型。