如何用 Ollama 让 OpenClaw 运行本地模型（完全免费）

OpenClaw 运行通常需要调用 Claude 或 GPT 这类云端 AI 模型，每次对话都会产生 API 费用。如果你的使用频率较高，成本会快速累积。

用 Ollama 在本地运行开源模型，可以实现真正意义上的零 API 成本——所有推理在你自己的硬件上完成，数据不离开设备，没有速率限制，没有月度账单。

本文带你完整走一遍 Ollama + OpenClaw 的配置流程。

你需要什么？

先确认硬件是否符合要求。本地模型对内存和显存有明确要求：

模型规格	最低内存（RAM）	推荐显存（VRAM）	适合运行的模型
7B～8B 模型	16GB RAM	8GB VRAM	Qwen3.5:9b、Llama3.3:8b
14B～27B 模型	32GB RAM	16～24GB VRAM	Qwen3.5:27b（推荐）
32B+ 模型	64GB RAM	48GB+ VRAM	Qwen3:32b

没有独立显卡也可以运行，Ollama 支持纯 CPU 推理，但速度会慢得多（尤其是大模型）。苹果 M 系列芯片的统一内存架构在本地模型上表现优异，Mac Mini M4（16GB）是运行 Ollama 的热门选择。

磁盘空间：每个模型文件约 4～8GB，需要提前确认有足够的空余空间。

第一步：安装 Ollama

Ollama 是一个本地 LLM 运行时，安装后会在本地启动一个与 OpenAI API 兼容的 HTTP 接口，OpenClaw 通过这个接口与本地模型通信。

macOS / Linux 一键安装

curl -fsSL https://ollama.com/install.sh | sh

macOS 图形界面安装

访问 ollama.com，下载 macOS 版本（支持 Apple Silicon 和 Intel），拖入应用程序文件夹并打开。Ollama 会在菜单栏显示图标，表示服务已启动。

Windows

从 ollama.com 下载 Windows 安装包直接安装，支持 Windows 10/11。

安装完成后，Ollama 会自动在后台启动服务，默认监听 http://localhost:11434。

验证安装：

ollama --version
# 应输出版本号

curl http://localhost:11434
# 应返回 "Ollama is running"

第二步：下载适合 OpenClaw 的本地模型

不是所有 Ollama 模型都适合作为 AI Agent 使用。OpenClaw 需要模型具备可靠的工具调用（Tool Use）能力，这是 Agent 执行任务的核心依赖。

2026年 OpenClaw 社区推荐模型

模型	参数量	工具调用	所需 VRAM	推荐指数
qwen3.5:27b	27B	优秀	20GB+	⭐⭐⭐⭐⭐（首选）
qwen3:32b	32B	优秀	24GB+	⭐⭐⭐⭐⭐
qwen3.5:35b-a3b	35B MoE	良好	16GB	⭐⭐⭐⭐（速度快）
qwen3.5:9b	9B	良好	8GB	⭐⭐⭐（轻量入门）
llama3.3:8b	8B	一般	8GB	⭐⭐⭐

为什么首推 Qwen 系列？Qwen3.5 27B 在代码任务基准（SWE-bench）上达到72.4%，与 GPT-4o mini 持平——这意味着它是目前工具调用最可靠的开源模型之一。社区测试显示，Qwen3.5 在 OpenClaw 的多步骤工具链执行中比 Llama 系列更稳定。

根据你的硬件选择并下载模型（以 qwen3.5:27b 为例）：

# 下载 27B 模型（约 18GB，需要耐心等待）
ollama pull qwen3.5:27b

# 如果 VRAM 不足，选择 9B 版本（约 5GB）
ollama pull qwen3.5:9b

# 使用 Q4 量化版本节省显存（质量损失很小）
ollama pull qwen3.5:27b-q4_K_M

下载完成后测试模型是否正常工作：

ollama run qwen3.5:27b "你好，请简单介绍一下自己"

第三步：最简方式——通过 Ollama 直接启动 OpenClaw

Ollama 从2026年3月起成为 OpenClaw 的官方集成提供商，提供了一条极其简单的启动路径：

ollama launch openclaw

这条命令会：

自动检测系统上已安装的 OpenClaw（如未安装则提示安装）
显示模型选择界面，让你选择本地或 Ollama 云端模型
配置 Gateway 并启动
自动安装网络搜索插件（本地模型使用）

指定模型启动（跳过交互式选择）：

ollama launch openclaw --model qwen3.5:27b

第四步：手动配置 Ollama 为 OpenClaw 模型提供商

如果你想要精细控制配置，或者已有现成的 OpenClaw 实例，可以手动将 Ollama 添加到配置文件中。

编辑 ~/.openclaw/openclaw.json：

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434/v1",
        "apiKey": "ollama-local",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5:27b",
            "name": "Qwen3.5 27B",
            "reasoning": false,
            "contextWindow": 131072,
            "maxTokens": 8192,
            "cost": {
              "input": 0,
              "output": 0,
              "cacheRead": 0,
              "cacheWrite": 0
            }
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b"
      }
    }
  }
}

几个关键参数说明：

baseUrl：Ollama 的本地 API 地址，默认 http://localhost:11434/v1
api: "openai-completions"：使用 OpenAI 兼容格式（Ollama 支持）
contextWindow: 131072：推荐至少 64K，OpenClaw 需要大上下文窗口
cost: 0：本地模型无费用，全部设为 0
reasoning: false：大多数本地模型不支持扩展思考模式，需明确关闭

保存后重启 Gateway：

openclaw gateway restart
openclaw models list  # 确认 ollama/qwen3.5:27b 出现在列表中

第五步：上下文窗口配置（关键）

OpenClaw 需要携带大量上下文（对话历史、SOUL.md、USER.md、工具结果等），官方建议本地模型使用至少 64K token 的上下文窗口。

在启动 Ollama 时设置上下文窗口大小：

# 通过环境变量设置（在启动 Ollama 服务前设置）
OLLAMA_NUM_CTX=65536 ollama serve

# 或创建带自定义上下文的模型文件
cat > Modelfile << 'EOF'
FROM qwen3.5:27b
PARAMETER num_ctx 65536
EOF

ollama create qwen3.5-openclaw -f Modelfile

然后在 OpenClaw 配置中使用自定义模型名 qwen3.5-openclaw。

⚠️ 注意：上下文窗口越大，VRAM 占用越高。16GB VRAM 建议设置 32K-64K；24GB+ VRAM 可以设置 128K。不要盲目设置过大的上下文，会导致推理速度下降。

本地 + 云端混合方案（最省钱）

纯本地模型的局限是复杂任务质量不如 Claude，最聪明的用法是混合使用：简单任务用本地模型（零费用），复杂任务用云端模型（按需付费）。

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b",
        "fallbacks": ["anthropic/claude-sonnet-4-6"]
      },
      "heartbeat": {
        "model": "ollama/qwen3.5:9b",
        "isolatedSession": true
      }
    }
  }
}

这个配置实现了：

日常对话和简单任务 → 本地 Qwen3.5 27B（零费用）
本地模型无法处理时自动切换 → Claude Sonnet（按需付费）
Heartbeat 心跳监控 → 本地 9B 轻量模型（更快，更省资源）

根据社区测试，这种混合方案可以将 API 费用降低 60～70%，同时保持复杂任务的高质量输出。

常见问题排查

Q：模型加载很慢或者崩溃（exit 137）怎么办？
内存不足是最常见原因。换用更小参数量的模型，或者使用量化版本（-q4_K_M 后缀）降低内存需求。

Q：工具调用一直失败，模型只是"说"它要做什么而不实际执行怎么办？
在模型配置中添加 "reasoning": false，并确保使用 Qwen3.5 系列（工具调用兼容性最好）。同时检查 OpenClaw 的工具执行权限是否已开启：

openclaw config get tools

Q：回复很慢（低于 10 token/秒）怎么办？
检查模型是否在用 GPU 推理：

ollama ps  # 查看当前运行的模型及使用的 GPU 情况

如果显示 CPU-only，说明 GPU 未被利用（可能是驱动问题或显存不足）。CPU 推理速度较慢是正常现象。

Q：OpenClaw 显示"模型不可用"或找不到 Ollama 模型怎么办？
确认 Ollama 服务正在运行：

curl http://localhost:11434
# 应返回 "Ollama is running"

# 如果 Ollama 未运行，手动启动
ollama serve

Q：Ollama 在 VPS 上运行，OpenClaw 在另一台机器上怎么配置？
将 baseUrl 改为 Ollama 所在机器的地址：

"baseUrl": "http://你的VPS-IP:11434/v1"

同时确保 Ollama 绑定到 0.0.0.0 而非只监听 localhost：

OLLAMA_HOST=0.0.0.0:11434 ollama serve

完全离线运行 OpenClaw

如果你要求完全离线（无互联网连接），需要额外关闭联网工具：

{
  "tools": {
    "web": {
      "search": {
        "enabled": false
      },
      "fetch": {
        "enabled": false
      }
    }
  }
}

这样 OpenClaw 只使用本地能力（文件读写、本地命令执行、本地日历等），完全不依赖互联网和任何云服务。

总结：适合用本地模型的场景

✅ Heartbeat 心跳监控和轻量定时任务
✅ 处理高度敏感的本地文件和数据
✅ 高频调用但任务相对简单的工作流
✅ 预算有限，希望将 API 费用降到最低
✅ 需要完全离线运行的场景
❌ 复杂的多步骤推理（建议用 Claude）
❌ 需要最新互联网信息的任务（本地模型知识截止于训练数据）

更多 Ollama 配置细节，访问 OpenClaw官网中文版（通过浏览器翻译访问 openclaw.ai）或 Ollama 官方 OpenClaw 集成文档 docs.ollama.com/integrations/openclaw。

本文内容基于 Ollama 官方文档、haimaker.ai、lumadock.com、datacamp.com 等公开资料整理，信息截至2026年3月28日。