OpenClaw 运行通常需要调用 Claude 或 GPT 这类云端 AI 模型,每次对话都会产生 API 费用。如果你的使用频率较高,成本会快速累积。
用 Ollama 在本地运行开源模型,可以实现真正意义上的零 API 成本——所有推理在你自己的硬件上完成,数据不离开设备,没有速率限制,没有月度账单。
本文带你完整走一遍 Ollama + OpenClaw 的配置流程。
你需要什么?
先确认硬件是否符合要求。本地模型对内存和显存有明确要求:
| 模型规格 | 最低内存(RAM) | 推荐显存(VRAM) | 适合运行的模型 |
|---|---|---|---|
| 7B~8B 模型 | 16GB RAM | 8GB VRAM | Qwen3.5:9b、Llama3.3:8b |
| 14B~27B 模型 | 32GB RAM | 16~24GB VRAM | Qwen3.5:27b(推荐) |
| 32B+ 模型 | 64GB RAM | 48GB+ VRAM | Qwen3:32b |
没有独立显卡也可以运行,Ollama 支持纯 CPU 推理,但速度会慢得多(尤其是大模型)。苹果 M 系列芯片的统一内存架构在本地模型上表现优异,Mac Mini M4(16GB)是运行 Ollama 的热门选择。
磁盘空间:每个模型文件约 4~8GB,需要提前确认有足够的空余空间。
第一步:安装 Ollama
Ollama 是一个本地 LLM 运行时,安装后会在本地启动一个与 OpenAI API 兼容的 HTTP 接口,OpenClaw 通过这个接口与本地模型通信。
macOS / Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
macOS 图形界面安装
访问 ollama.com,下载 macOS 版本(支持 Apple Silicon 和 Intel),拖入应用程序文件夹并打开。Ollama 会在菜单栏显示图标,表示服务已启动。
Windows
从 ollama.com 下载 Windows 安装包直接安装,支持 Windows 10/11。
安装完成后,Ollama 会自动在后台启动服务,默认监听 http://localhost:11434。
验证安装:
ollama --version
# 应输出版本号
curl http://localhost:11434
# 应返回 "Ollama is running"
第二步:下载适合 OpenClaw 的本地模型
不是所有 Ollama 模型都适合作为 AI Agent 使用。OpenClaw 需要模型具备可靠的工具调用(Tool Use)能力,这是 Agent 执行任务的核心依赖。
2026年 OpenClaw 社区推荐模型
| 模型 | 参数量 | 工具调用 | 所需 VRAM | 推荐指数 |
|---|---|---|---|---|
| qwen3.5:27b | 27B | 优秀 | 20GB+ | ⭐⭐⭐⭐⭐(首选) |
| qwen3:32b | 32B | 优秀 | 24GB+ | ⭐⭐⭐⭐⭐ |
| qwen3.5:35b-a3b | 35B MoE | 良好 | 16GB | ⭐⭐⭐⭐(速度快) |
| qwen3.5:9b | 9B | 良好 | 8GB | ⭐⭐⭐(轻量入门) |
| llama3.3:8b | 8B | 一般 | 8GB | ⭐⭐⭐ |
为什么首推 Qwen 系列?Qwen3.5 27B 在代码任务基准(SWE-bench)上达到72.4%,与 GPT-4o mini 持平——这意味着它是目前工具调用最可靠的开源模型之一。社区测试显示,Qwen3.5 在 OpenClaw 的多步骤工具链执行中比 Llama 系列更稳定。
根据你的硬件选择并下载模型(以 qwen3.5:27b 为例):
# 下载 27B 模型(约 18GB,需要耐心等待)
ollama pull qwen3.5:27b
# 如果 VRAM 不足,选择 9B 版本(约 5GB)
ollama pull qwen3.5:9b
# 使用 Q4 量化版本节省显存(质量损失很小)
ollama pull qwen3.5:27b-q4_K_M
下载完成后测试模型是否正常工作:
ollama run qwen3.5:27b "你好,请简单介绍一下自己"
第三步:最简方式——通过 Ollama 直接启动 OpenClaw
Ollama 从2026年3月起成为 OpenClaw 的官方集成提供商,提供了一条极其简单的启动路径:
ollama launch openclaw
这条命令会:
- 自动检测系统上已安装的 OpenClaw(如未安装则提示安装)
- 显示模型选择界面,让你选择本地或 Ollama 云端模型
- 配置 Gateway 并启动
- 自动安装网络搜索插件(本地模型使用)
指定模型启动(跳过交互式选择):
ollama launch openclaw --model qwen3.5:27b
第四步:手动配置 Ollama 为 OpenClaw 模型提供商
如果你想要精细控制配置,或者已有现成的 OpenClaw 实例,可以手动将 Ollama 添加到配置文件中。
编辑 ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"apiKey": "ollama-local",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:27b",
"name": "Qwen3.5 27B",
"reasoning": false,
"contextWindow": 131072,
"maxTokens": 8192,
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
}
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b"
}
}
}
}
几个关键参数说明:
baseUrl:Ollama 的本地 API 地址,默认http://localhost:11434/v1api: "openai-completions":使用 OpenAI 兼容格式(Ollama 支持)contextWindow: 131072:推荐至少 64K,OpenClaw 需要大上下文窗口cost: 0:本地模型无费用,全部设为 0reasoning: false:大多数本地模型不支持扩展思考模式,需明确关闭
保存后重启 Gateway:
openclaw gateway restart
openclaw models list # 确认 ollama/qwen3.5:27b 出现在列表中
第五步:上下文窗口配置(关键)
OpenClaw 需要携带大量上下文(对话历史、SOUL.md、USER.md、工具结果等),官方建议本地模型使用至少 64K token 的上下文窗口。
在启动 Ollama 时设置上下文窗口大小:
# 通过环境变量设置(在启动 Ollama 服务前设置)
OLLAMA_NUM_CTX=65536 ollama serve
# 或创建带自定义上下文的模型文件
cat > Modelfile << 'EOF'
FROM qwen3.5:27b
PARAMETER num_ctx 65536
EOF
ollama create qwen3.5-openclaw -f Modelfile
然后在 OpenClaw 配置中使用自定义模型名 qwen3.5-openclaw。
⚠️ 注意:上下文窗口越大,VRAM 占用越高。16GB VRAM 建议设置 32K-64K;24GB+ VRAM 可以设置 128K。不要盲目设置过大的上下文,会导致推理速度下降。
本地 + 云端混合方案(最省钱)
纯本地模型的局限是复杂任务质量不如 Claude,最聪明的用法是混合使用:简单任务用本地模型(零费用),复杂任务用云端模型(按需付费)。
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"fallbacks": ["anthropic/claude-sonnet-4-6"]
},
"heartbeat": {
"model": "ollama/qwen3.5:9b",
"isolatedSession": true
}
}
}
}
这个配置实现了:
- 日常对话和简单任务 → 本地 Qwen3.5 27B(零费用)
- 本地模型无法处理时自动切换 → Claude Sonnet(按需付费)
- Heartbeat 心跳监控 → 本地 9B 轻量模型(更快,更省资源)
根据社区测试,这种混合方案可以将 API 费用降低 60~70%,同时保持复杂任务的高质量输出。
常见问题排查
Q:模型加载很慢或者崩溃(exit 137)怎么办?
内存不足是最常见原因。换用更小参数量的模型,或者使用量化版本(-q4_K_M 后缀)降低内存需求。
Q:工具调用一直失败,模型只是"说"它要做什么而不实际执行怎么办?
在模型配置中添加 "reasoning": false,并确保使用 Qwen3.5 系列(工具调用兼容性最好)。同时检查 OpenClaw 的工具执行权限是否已开启:
openclaw config get tools
Q:回复很慢(低于 10 token/秒)怎么办?
检查模型是否在用 GPU 推理:
ollama ps # 查看当前运行的模型及使用的 GPU 情况
如果显示 CPU-only,说明 GPU 未被利用(可能是驱动问题或显存不足)。CPU 推理速度较慢是正常现象。
Q:OpenClaw 显示"模型不可用"或找不到 Ollama 模型怎么办?
确认 Ollama 服务正在运行:
curl http://localhost:11434
# 应返回 "Ollama is running"
# 如果 Ollama 未运行,手动启动
ollama serve
Q:Ollama 在 VPS 上运行,OpenClaw 在另一台机器上怎么配置?
将 baseUrl 改为 Ollama 所在机器的地址:
"baseUrl": "http://你的VPS-IP:11434/v1"
同时确保 Ollama 绑定到 0.0.0.0 而非只监听 localhost:
OLLAMA_HOST=0.0.0.0:11434 ollama serve
完全离线运行 OpenClaw
如果你要求完全离线(无互联网连接),需要额外关闭联网工具:
{
"tools": {
"web": {
"search": {
"enabled": false
},
"fetch": {
"enabled": false
}
}
}
}
这样 OpenClaw 只使用本地能力(文件读写、本地命令执行、本地日历等),完全不依赖互联网和任何云服务。
总结:适合用本地模型的场景
- ✅ Heartbeat 心跳监控和轻量定时任务
- ✅ 处理高度敏感的本地文件和数据
- ✅ 高频调用但任务相对简单的工作流
- ✅ 预算有限,希望将 API 费用降到最低
- ✅ 需要完全离线运行的场景
- ❌ 复杂的多步骤推理(建议用 Claude)
- ❌ 需要最新互联网信息的任务(本地模型知识截止于训练数据)
更多 Ollama 配置细节,访问 OpenClaw官网中文版(通过浏览器翻译访问 openclaw.ai)或 Ollama 官方 OpenClaw 集成文档 docs.ollama.com/integrations/openclaw。
本文内容基于 Ollama 官方文档、haimaker.ai、lumadock.com、datacamp.com 等公开资料整理,信息截至2026年3月28日。