1、Ollama简介
Ollama 是一个强大的框架。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。
2、Ollama下载安装
在官网下载ollama并安装
直接执行命令,可以完成默认安装。以Mac为例:ollama run llama2
注意:第一次使用需要下载模型,后续使用,可以直接调用
这样可以实现在本地部署模型,可以直接调用量化后的大模型,进行对话。
经实验,这个过程可以节省显存。使用CPU可以实现本地部署。
3、Ollama本地部署和参数配置
本地部署好后,要先构建modelfile:
将参数卸载modelfile中。
例如:
PARAMETER temperature 1 将温度设置为 1
# set the system message设置系统消息
SYSTEM """
You are a personal assistant. You should all answer all my questions.
""
然后可以根据以上配置参数进行运行:
ollama create **name -f ./Modelfile
ollama run **name
4、Ollama接口调用
除了以上的使用方法,还可以通过接口实现调用:
curl 本地端口地址 generate -d '{
"model":"llama2",
"messages": [
{ "role": "user", "content": "介绍大模型" }
]
"stream": false
}'