Ollama 本地部署大模型完全指南
# Ollama 本地部署大模型完全指南
在本地电脑上运行 AI 大语言模型,完全离线、私密、低成本
为什么选择 Ollama?
- **简单易用**:一行命令启动模型
- **硬件友好**:支持 CPU 和 GPU
- **隐私安全**:数据完全本地处理
- **免费开源**:无需付费
环境要求
最低配置 (CPU 运行)
- 8GB RAM
- 20GB 磁盘空间
- 支持 AV2 指令集的 CPU
推荐配置 (GPU 加速)
- 16GB+ RAM
- NVIDIA 显卡 8GB+ 显存
- CUDA 12.1+
第一步:安装 Ollama
macOS
bash
brew install ollamaLinux
bash
curl -fsSL https://ollama.com/install.sh | shWindows (WSL2)
bash
# 在 WSL2 中安装
curl -fsSL https://ollama.com/install.sh | shDocker 运行
bash
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama第二步:下载模型
bash
# 查看可用模型
ollama list
# 拉取常用模型
ollama pull llama3 # Meta 最强开源模型
ollama pull mistral # 法国 AI 实验室出品
ollama pull codellama # 专门针对代码
ollama pull qwen # 阿里通义千问
ollama pull deepseek-coder # 国产代码模型第三步:运行模型
命令行交互
bash
ollama run llama3指定参数
bash
ollama run llama3 --temperature 0.7 --top-p 0.9查看模型信息
bash
ollama show llama3第四步:API 调用
Ollama 提供兼容 OpenAI 的 API:
bash
# 启动 API 服务
ollama serve
# 调用示例
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "用一句话介绍你自己",
"stream": false
}'Python 调用
python
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "llama3",
"prompt": "写一首关于春天的诗",
"stream": False
}
)
print(response.json()["response"])第五步:GPU 加速配置
NVIDIA 显卡
bash
# 确认 CUDA 可用
nvidia-smi
# Ollama 会自动使用 GPU调整 GPU 内存
bash
# 设置环境变量
export OLLAMA_GPU_MEMORY=8g常用模型对比
| 模型 | 参数 | 适合场景 | 最低显存 |
|------|------|----------|----------|
| llama3 | 8B | 通用对话 | 6GB |
| mistral | 7B | 通用对话 | 6GB |
| codellama | 7B | 代码生成 | 6GB |
| qwen | 7B | 中文对话 | 6GB |
| phi3 | 3.8B | 轻量对话 | 4GB |
与 OpenClaw 集成
在 OpenClaw 中配置使用本地 Ollama:
env
AI_PROVIDER=ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3常见问题
模型下载太慢
使用镜像源:
bash
export OLLAMA_MODELS=/path/to/mirror内存不足
选择更小的模型:
bash
ollama pull phi3 # 3.8B 参数
ollama pull llama3:8b-instruct-q4_0 # 量化版本响应速度慢
- 使用 GPU 加速
- 选择量化模型
- 增加物理内存
---
进阶教程:
- [LM Studio 本地部署](/post/lm-studio-local-llm)
- [llama.cpp 部署指南](/post/llama-cpp-deployment)