OpenClaw 运行通常需要调用 Claude 或 GPT 这类云端 AI 模型,每次对话都会产生 API 费用。如果你的使用频率较高,成本会快速累积。

Ollama 在本地运行开源模型,可以实现真正意义上的零 API 成本——所有推理在你自己的硬件上完成,数据不离开设备,没有速率限制,没有月度账单。

本文带你完整走一遍 Ollama + OpenClaw 的配置流程。

你需要什么?

先确认硬件是否符合要求。本地模型对内存和显存有明确要求:

模型规格 最低内存(RAM) 推荐显存(VRAM) 适合运行的模型
7B~8B 模型 16GB RAM 8GB VRAM Qwen3.5:9b、Llama3.3:8b
14B~27B 模型 32GB RAM 16~24GB VRAM Qwen3.5:27b(推荐)
32B+ 模型 64GB RAM 48GB+ VRAM Qwen3:32b

没有独立显卡也可以运行,Ollama 支持纯 CPU 推理,但速度会慢得多(尤其是大模型)。苹果 M 系列芯片的统一内存架构在本地模型上表现优异,Mac Mini M4(16GB)是运行 Ollama 的热门选择。

磁盘空间:每个模型文件约 4~8GB,需要提前确认有足够的空余空间。

第一步:安装 Ollama

Ollama 是一个本地 LLM 运行时,安装后会在本地启动一个与 OpenAI API 兼容的 HTTP 接口,OpenClaw 通过这个接口与本地模型通信。

macOS / Linux 一键安装

curl -fsSL https://ollama.com/install.sh | sh

macOS 图形界面安装

访问 ollama.com,下载 macOS 版本(支持 Apple Silicon 和 Intel),拖入应用程序文件夹并打开。Ollama 会在菜单栏显示图标,表示服务已启动。

Windows

从 ollama.com 下载 Windows 安装包直接安装,支持 Windows 10/11。

安装完成后,Ollama 会自动在后台启动服务,默认监听 http://localhost:11434

验证安装:

ollama --version
# 应输出版本号

curl http://localhost:11434
# 应返回 "Ollama is running"

第二步:下载适合 OpenClaw 的本地模型

不是所有 Ollama 模型都适合作为 AI Agent 使用。OpenClaw 需要模型具备可靠的工具调用(Tool Use)能力,这是 Agent 执行任务的核心依赖。

2026年 OpenClaw 社区推荐模型

模型 参数量 工具调用 所需 VRAM 推荐指数
qwen3.5:27b 27B 优秀 20GB+ ⭐⭐⭐⭐⭐(首选)
qwen3:32b 32B 优秀 24GB+ ⭐⭐⭐⭐⭐
qwen3.5:35b-a3b 35B MoE 良好 16GB ⭐⭐⭐⭐(速度快)
qwen3.5:9b 9B 良好 8GB ⭐⭐⭐(轻量入门)
llama3.3:8b 8B 一般 8GB ⭐⭐⭐

为什么首推 Qwen 系列?Qwen3.5 27B 在代码任务基准(SWE-bench)上达到72.4%,与 GPT-4o mini 持平——这意味着它是目前工具调用最可靠的开源模型之一。社区测试显示,Qwen3.5 在 OpenClaw 的多步骤工具链执行中比 Llama 系列更稳定。

根据你的硬件选择并下载模型(以 qwen3.5:27b 为例):

# 下载 27B 模型(约 18GB,需要耐心等待)
ollama pull qwen3.5:27b

# 如果 VRAM 不足,选择 9B 版本(约 5GB)
ollama pull qwen3.5:9b

# 使用 Q4 量化版本节省显存(质量损失很小)
ollama pull qwen3.5:27b-q4_K_M

下载完成后测试模型是否正常工作:

ollama run qwen3.5:27b "你好,请简单介绍一下自己"

第三步:最简方式——通过 Ollama 直接启动 OpenClaw

Ollama 从2026年3月起成为 OpenClaw 的官方集成提供商,提供了一条极其简单的启动路径:

ollama launch openclaw

这条命令会:

  • 自动检测系统上已安装的 OpenClaw(如未安装则提示安装)
  • 显示模型选择界面,让你选择本地或 Ollama 云端模型
  • 配置 Gateway 并启动
  • 自动安装网络搜索插件(本地模型使用)

指定模型启动(跳过交互式选择):

ollama launch openclaw --model qwen3.5:27b

第四步:手动配置 Ollama 为 OpenClaw 模型提供商

如果你想要精细控制配置,或者已有现成的 OpenClaw 实例,可以手动将 Ollama 添加到配置文件中。

编辑 ~/.openclaw/openclaw.json

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434/v1",
        "apiKey": "ollama-local",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5:27b",
            "name": "Qwen3.5 27B",
            "reasoning": false,
            "contextWindow": 131072,
            "maxTokens": 8192,
            "cost": {
              "input": 0,
              "output": 0,
              "cacheRead": 0,
              "cacheWrite": 0
            }
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b"
      }
    }
  }
}

几个关键参数说明:

  • baseUrl:Ollama 的本地 API 地址,默认 http://localhost:11434/v1
  • api: "openai-completions":使用 OpenAI 兼容格式(Ollama 支持)
  • contextWindow: 131072:推荐至少 64K,OpenClaw 需要大上下文窗口
  • cost: 0:本地模型无费用,全部设为 0
  • reasoning: false:大多数本地模型不支持扩展思考模式,需明确关闭

保存后重启 Gateway:

openclaw gateway restart
openclaw models list  # 确认 ollama/qwen3.5:27b 出现在列表中

第五步:上下文窗口配置(关键)

OpenClaw 需要携带大量上下文(对话历史、SOUL.md、USER.md、工具结果等),官方建议本地模型使用至少 64K token 的上下文窗口。

在启动 Ollama 时设置上下文窗口大小:

# 通过环境变量设置(在启动 Ollama 服务前设置)
OLLAMA_NUM_CTX=65536 ollama serve

# 或创建带自定义上下文的模型文件
cat > Modelfile << 'EOF'
FROM qwen3.5:27b
PARAMETER num_ctx 65536
EOF

ollama create qwen3.5-openclaw -f Modelfile

然后在 OpenClaw 配置中使用自定义模型名 qwen3.5-openclaw

⚠️ 注意:上下文窗口越大,VRAM 占用越高。16GB VRAM 建议设置 32K-64K;24GB+ VRAM 可以设置 128K。不要盲目设置过大的上下文,会导致推理速度下降。

本地 + 云端混合方案(最省钱)

纯本地模型的局限是复杂任务质量不如 Claude,最聪明的用法是混合使用:简单任务用本地模型(零费用),复杂任务用云端模型(按需付费)

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b",
        "fallbacks": ["anthropic/claude-sonnet-4-6"]
      },
      "heartbeat": {
        "model": "ollama/qwen3.5:9b",
        "isolatedSession": true
      }
    }
  }
}

这个配置实现了:

  • 日常对话和简单任务 → 本地 Qwen3.5 27B(零费用)
  • 本地模型无法处理时自动切换 → Claude Sonnet(按需付费)
  • Heartbeat 心跳监控 → 本地 9B 轻量模型(更快,更省资源)

根据社区测试,这种混合方案可以将 API 费用降低 60~70%,同时保持复杂任务的高质量输出。

常见问题排查

Q:模型加载很慢或者崩溃(exit 137)怎么办?
内存不足是最常见原因。换用更小参数量的模型,或者使用量化版本(-q4_K_M 后缀)降低内存需求。

Q:工具调用一直失败,模型只是"说"它要做什么而不实际执行怎么办?
在模型配置中添加 "reasoning": false,并确保使用 Qwen3.5 系列(工具调用兼容性最好)。同时检查 OpenClaw 的工具执行权限是否已开启:

openclaw config get tools

Q:回复很慢(低于 10 token/秒)怎么办?
检查模型是否在用 GPU 推理:

ollama ps  # 查看当前运行的模型及使用的 GPU 情况

如果显示 CPU-only,说明 GPU 未被利用(可能是驱动问题或显存不足)。CPU 推理速度较慢是正常现象。

Q:OpenClaw 显示"模型不可用"或找不到 Ollama 模型怎么办?
确认 Ollama 服务正在运行:

curl http://localhost:11434
# 应返回 "Ollama is running"

# 如果 Ollama 未运行,手动启动
ollama serve

Q:Ollama 在 VPS 上运行,OpenClaw 在另一台机器上怎么配置?
baseUrl 改为 Ollama 所在机器的地址:

"baseUrl": "http://你的VPS-IP:11434/v1"

同时确保 Ollama 绑定到 0.0.0.0 而非只监听 localhost:

OLLAMA_HOST=0.0.0.0:11434 ollama serve

完全离线运行 OpenClaw

如果你要求完全离线(无互联网连接),需要额外关闭联网工具:

{
  "tools": {
    "web": {
      "search": {
        "enabled": false
      },
      "fetch": {
        "enabled": false
      }
    }
  }
}

这样 OpenClaw 只使用本地能力(文件读写、本地命令执行、本地日历等),完全不依赖互联网和任何云服务。

总结:适合用本地模型的场景

  • ✅ Heartbeat 心跳监控和轻量定时任务
  • ✅ 处理高度敏感的本地文件和数据
  • ✅ 高频调用但任务相对简单的工作流
  • ✅ 预算有限,希望将 API 费用降到最低
  • ✅ 需要完全离线运行的场景
  • ❌ 复杂的多步骤推理(建议用 Claude)
  • ❌ 需要最新互联网信息的任务(本地模型知识截止于训练数据)

更多 Ollama 配置细节,访问 OpenClaw官网中文版(通过浏览器翻译访问 openclaw.ai)或 Ollama 官方 OpenClaw 集成文档 docs.ollama.com/integrations/openclaw

本文内容基于 Ollama 官方文档、haimaker.ai、lumadock.com、datacamp.com 等公开资料整理,信息截至2026年3月28日。