Skip to content

Ollama 部署指南

Ollama 是一个简单易用的本地大模型运行工具,支持多种开源模型。

安装

macOS

bash
# 使用 Homebrew 安装
brew install ollama

# 或直接下载安装包
# https://ollama.com/download

Linux

bash
# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

Windows

下载 Ollama Windows 版本 并安装。

基本使用

启动服务

bash
ollama serve

拉取模型

bash
# 拉取 Llama 3.2
ollama pull llama3.2

# 拉取其他模型
ollama pull mistral
ollama pull qwen2.5
ollama pull deepseek-r1

运行模型

bash
# 交互式对话
ollama run llama3.2

# 单次提问
ollama run llama3.2 "解释什么是机器学习"

模型管理

bash
# 列出已安装的模型
ollama list

# 删除模型
ollama rm llama3.2

# 查看模型信息
ollama show llama3.2

常用模型

模型大小说明
llama3.23BMeta 最新模型
mistral7B高性能开源模型
qwen2.57B阿里通义千问
deepseek-r17BDeepSeek 推理模型
codellama7B代码生成专用

API 使用

Ollama 默认在 http://localhost:11434 提供 REST API。

生成文本

bash
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "为什么天空是蓝色的?"
}'

对话接口

bash
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "你好" }
  ]
}'

Python 调用

python
import requests

response = requests.post('http://localhost:11434/api/chat', json={
    "model": "llama3.2",
    "messages": [
        {"role": "user", "content": "你好"}
    ],
    "stream": False
})

print(response.json())

自定义模型

创建 Modelfile

dockerfile
FROM llama3.2

# 设置参数
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

# 设置系统提示
SYSTEM 你是一个专业的编程助手

构建自定义模型

bash
ollama create my-model -f Modelfile

性能优化

GPU 加速

确保安装了 NVIDIA 驱动和 CUDA:

bash
# 检查 GPU 是否被识别
nvidia-smi

量化模型

使用量化版本减少显存占用:

bash
# 拉取 4-bit 量化版本
ollama pull llama3.2:7b-q4_0

故障排除

服务未启动

bash
# 检查服务状态
ollama --version

# 手动启动服务
ollama serve

内存不足

  • 使用量化模型
  • 减小上下文长度
  • 关闭其他程序

相关链接

基于 VitePress 构建