Ollama 本地部署大模型完全指南

AI 玩家

2026年3月19日

1 阅读

3 分钟阅读

# Ollama 本地部署大模型完全指南

在本地电脑上运行 AI 大语言模型，完全离线、私密、低成本

为什么选择 Ollama？

**简单易用**：一行命令启动模型

**硬件友好**：支持 CPU 和 GPU

**隐私安全**：数据完全本地处理

**免费开源**：无需付费

环境要求

最低配置 (CPU 运行)

8GB RAM

20GB 磁盘空间

支持 AV2 指令集的 CPU

第一步：安装 Ollama

macOS

bash

brew install ollama

Linux

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows (WSL2)

bash

# 在 WSL2 中安装
curl -fsSL https://ollama.com/install.sh | sh

Docker 运行

bash

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

第二步：下载模型

bash

# 查看可用模型
ollama list

# 拉取常用模型
ollama pull llama3          # Meta 最强开源模型
ollama pull mistral         # 法国 AI 实验室出品
ollama pull codellama       # 专门针对代码
ollama pull qwen            # 阿里通义千问
ollama pull deepseek-coder  # 国产代码模型

第三步：运行模型

命令行交互

bash

ollama run llama3

指定参数

bash

ollama run llama3 --temperature 0.7 --top-p 0.9

查看模型信息

bash

ollama show llama3

第四步：API 调用

Ollama 提供兼容 OpenAI 的 API：

bash

# 启动 API 服务
ollama serve

# 调用示例
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "用一句话介绍你自己",
  "stream": false
}'

Python 调用

python

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "llama3",
        "prompt": "写一首关于春天的诗",
        "stream": False
    }
)
print(response.json()["response"])

第五步：GPU 加速配置

NVIDIA 显卡

bash

# 确认 CUDA 可用
nvidia-smi

# Ollama 会自动使用 GPU

调整 GPU 内存

bash

# 设置环境变量
export OLLAMA_GPU_MEMORY=8g

常用模型对比

| 模型 | 参数 | 适合场景 | 最低显存 |

|------|------|----------|----------|

| llama3 | 8B | 通用对话 | 6GB |

| mistral | 7B | 通用对话 | 6GB |

| codellama | 7B | 代码生成 | 6GB |

| qwen | 7B | 中文对话 | 6GB |

| phi3 | 3.8B | 轻量对话 | 4GB |

与 OpenClaw 集成

在 OpenClaw 中配置使用本地 Ollama：

env

AI_PROVIDER=ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3

常见问题

模型下载太慢

使用镜像源：

bash

export OLLAMA_MODELS=/path/to/mirror

内存不足

选择更小的模型：

bash

ollama pull phi3    # 3.8B 参数
ollama pull llama3:8b-instruct-q4_0  # 量化版本

响应速度慢

使用 GPU 加速

选择量化模型

增加物理内存

---

进阶教程：

[LM Studio 本地部署](/post/lm-studio-local-llm)

[llama.cpp 部署指南](/post/llama-cpp-deployment)

订阅博客更新

通过 RSS 订阅，及时获取最新文章

RSS 订阅链接

返回文章列表

发表评论

返回首页

技术

Ollama 本地部署大模型完全指南

AI 玩家

2026年3月19日

1 阅读

3 分钟阅读

# Ollama 本地部署大模型完全指南

在本地电脑上运行 AI 大语言模型，完全离线、私密、低成本

为什么选择 Ollama？

**简单易用**：一行命令启动模型

**硬件友好**：支持 CPU 和 GPU

**隐私安全**：数据完全本地处理

**免费开源**：无需付费

环境要求

最低配置 (CPU 运行)

8GB RAM

20GB 磁盘空间

支持 AV2 指令集的 CPU

第一步：安装 Ollama

macOS

bash

brew install ollama

Linux

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows (WSL2)

bash

# 在 WSL2 中安装
curl -fsSL https://ollama.com/install.sh | sh

Docker 运行

bash

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

第二步：下载模型

bash

# 查看可用模型
ollama list

# 拉取常用模型
ollama pull llama3          # Meta 最强开源模型
ollama pull mistral         # 法国 AI 实验室出品
ollama pull codellama       # 专门针对代码
ollama pull qwen            # 阿里通义千问
ollama pull deepseek-coder  # 国产代码模型

第三步：运行模型

命令行交互

bash

ollama run llama3

指定参数

bash

ollama run llama3 --temperature 0.7 --top-p 0.9

查看模型信息

bash

ollama show llama3

第四步：API 调用

Ollama 提供兼容 OpenAI 的 API：

bash

# 启动 API 服务
ollama serve

# 调用示例
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "用一句话介绍你自己",
  "stream": false
}'

Python 调用

python

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "llama3",
        "prompt": "写一首关于春天的诗",
        "stream": False
    }
)
print(response.json()["response"])

第五步：GPU 加速配置

NVIDIA 显卡

bash

# 确认 CUDA 可用
nvidia-smi

# Ollama 会自动使用 GPU

调整 GPU 内存

bash

# 设置环境变量
export OLLAMA_GPU_MEMORY=8g

常用模型对比

| 模型 | 参数 | 适合场景 | 最低显存 |

|------|------|----------|----------|

| llama3 | 8B | 通用对话 | 6GB |

| mistral | 7B | 通用对话 | 6GB |

| codellama | 7B | 代码生成 | 6GB |

| qwen | 7B | 中文对话 | 6GB |

| phi3 | 3.8B | 轻量对话 | 4GB |

与 OpenClaw 集成

在 OpenClaw 中配置使用本地 Ollama：

env

AI_PROVIDER=ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3

常见问题

模型下载太慢

使用镜像源：

bash

export OLLAMA_MODELS=/path/to/mirror

内存不足

选择更小的模型：

bash

ollama pull phi3    # 3.8B 参数
ollama pull llama3:8b-instruct-q4_0  # 量化版本

响应速度慢

使用 GPU 加速

选择量化模型

增加物理内存

---

进阶教程：

[LM Studio 本地部署](/post/lm-studio-local-llm)

[llama.cpp 部署指南](/post/llama-cpp-deployment)

订阅博客更新

通过 RSS 订阅，及时获取最新文章

RSS 订阅链接

返回文章列表

为什么选择 Ollama？

环境要求

最低配置 (CPU 运行)

推荐配置 (GPU 加速)

第一步：安装 Ollama

macOS

Linux

Windows (WSL2)

Docker 运行

第二步：下载模型

第三步：运行模型

命令行交互

指定参数

查看模型信息

第四步：API 调用

Python 调用

第五步：GPU 加速配置

NVIDIA 显卡

调整 GPU 内存

常用模型对比

与 OpenClaw 集成

常见问题

模型下载太慢

内存不足

响应速度慢

标签

相关文章

LM Studio 本地部署大模型指南

llama.cpp 本地部署大模型指南

5个让你效率翻倍的AI Prompt技巧

Docker 安装 OpenClaw 最简指南

LM Studio 本地部署大模型指南

订阅博客更新

评论 (0)

发表评论

为什么选择 Ollama？

环境要求

最低配置 (CPU 运行)

推荐配置 (GPU 加速)

第一步：安装 Ollama

macOS

Linux

Windows (WSL2)

Docker 运行

第二步：下载模型

第三步：运行模型

命令行交互

指定参数

查看模型信息

第四步：API 调用

Python 调用

第五步：GPU 加速配置

NVIDIA 显卡

调整 GPU 内存

常用模型对比

与 OpenClaw 集成

常见问题

模型下载太慢

内存不足

响应速度慢

标签

相关文章

LM Studio 本地部署大模型指南

llama.cpp 本地部署大模型指南

5个让你效率翻倍的AI Prompt技巧

Docker 安装 OpenClaw 最简指南

LM Studio 本地部署大模型指南

订阅博客更新

评论 (0)

发表评论