南昌盗网站少优化公司,四川省建行网站,响应式网页设计案例实现与分析,做办公室的网站一、定义
ollama 定义环境部署demo加载本地模型方法基本指令关闭开启ollamaollama 如何同时 运行多个模型, 多进程ollama 如何分配gpu修改模型的存储路径
二、实现
ollama 定义 ollama 是llama-cpp 的进一步封装#xff0c;更加简单易用#xff0c;类似于docker. 模型网址…一、定义
ollama 定义环境部署demo加载本地模型方法基本指令关闭开启ollamaollama 如何同时 运行多个模型, 多进程ollama 如何分配gpu修改模型的存储路径
二、实现
ollama 定义 ollama 是llama-cpp 的进一步封装更加简单易用类似于docker. 模型网址https://www.ollama.com/ 部署网址https://github.com/ollama/ollama 教程https://github.com/ollama/ollama/releases环境部署 1. 宿主机安装 curl -fsSL https://ollama.com/install.sh | sh curl http://localhost:11434 已经启动。
远程访问配置
sudo vi /etc/systemd/system/ollama.service
对于每个环境变量在 [Service] 部分下添加一行 Environment
[Service]
EnvironmentOLLAMA_HOST0.0.0.0
保存并退出。
重新加载 systemd 并重新启动 Ollama
systemctl daemon-reload
systemctl restart ollama2. docker 模式安装 https://hub.docker.com/r/ollama/ollama docker pull ollama/ollama cpu: docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama gpu: docker run -d --gpusall -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama 案例 1.加载模型/运行模型
ollama pull llama3:8b2. 调用模型 方式一、指令交互的方式进行调用
ollama run llama3方式二、api 接口调用
curl http://localhost:11434/api/generate -d {model:llama3:8b,prompt: 请分别翻译成中文 - Meta Llama 3: The most capable openly available LLM to date,stream: false
}方式三、 python 接口调用
pip install ollama-python
import ollama
response ollama.run(llama3:8b, 你好世界)
print(response)from openai import OpenAIclient OpenAI(base_urlhttp://localhost:11434/v1/,# 必需但被忽略api_keyollama,
)chat_completion client.chat.completions.create(messages[{role: user,content: Say this is a test,}],modelllama2,
)
加载本地模型方法 具体看 官网 4.1 gguf 模型 1. 编写Modelfile 文件 FROM ./mistral-7b-v0.1.Q4_0.gguf 2. 创建模型 ollama create llama3-8b:0.001 -f Modelfile 3. 运行/ 测试 ollama run example “你最喜欢的调味品是什么” 基本指令 : 和docker 指令类似基本重合
journalctl -u ollama 查看日志
journalctl -n 10 查看最新的10条日志
journalctl -f 实时查看新添加的日志条目ollama -h
(base) [rootcnki-31-199-1 jiayafei_linux]# ollama -h
Large language model runnerUsage:ollama [flags]ollama [command]Available Commands:serve Start ollamacreate Create a model from a Modelfileshow Show information for a modelrun Run a modelpull Pull a model from a registrypush Push a model to a registrylist List modelsps List running modelscp Copy a modelrm Remove a modelhelp Help about any commandFlags:-h, --help help for ollama-v, --version Show version informationollama 如何同时 运行多个模型, 多进程
vim /etc/systemd/system/ollama.service
[Service]
EnvironmentOLLAMA_NUM_PARALLEL4 #并行处理请求的数量
EnvironmentOLLAMA_MAX_LOADED_MODELS4 #同时加载的模型数量 sudo systemctl daemon-reload
sudo systemctl restart ollama加载一个模型
ollama run gemma:2b
加载另外一个模型
ollama run llama3:8b 7. ollama 如何分配gpu 本地有多张 GPU如何用指定的 GPU 来运行 Ollama 在Linux上创建如下配置文件并配置环境变量 CUDA_VISIBLE_DEVICES 来指定运行 Ollama 的 GPU再重启 Ollama 服务即可【测试序号从0还是1开始应是从0开始】。
$sudo vi /etc/systemd/system/ollama.service
[Service]
EnvironmentCUDA_VISIBLE_DEVICES0,1
systemctl daemon-reload
systemctl restart ollama修改模型的存储路径
mv ~/.ollama/models/* /Users/username/Documents/ollama_models 将以前的models移动到当前目录看上文。