本文档介绍如何在 OpenClaw 中配置和使用局域网内部署的 QwQ-32B 模型。
一、前置条件
确保:
QwQ-32B 已在局域网服务器上部署完成
服务对外提供 OpenAI 兼容 API(通常是 vLLM、Ollama 或其他推理框架)
知道服务的 IP 地址和端口
常见部署方式的默认端口:
vLLM: 8000
Ollama: 11434
TGI (Text Generation Inference): 8080
LMDeploy: 23333
二、测试 API 连通性
先确认能访问到模型服务:
# 替换为你的服务器 IP 和端口
curl http://192.168.x.x:8000/v1/models
# 或者测试 chat 接口
curl http://192.168.x.x:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "QwQ-32B",
"messages": [{"role": "user", "content": "你好"}]
}'
三、OpenClaw 配置
编辑配置文件 ~/.openclaw/openclaw.json:
方式一:vLLM 部署(OpenAI 兼容 API)
{
agents: {
defaults: {
model: { primary: "qwq/QwQ-32B" }
}
},
models: {
providers: {
qwq: {
baseUrl: "http://192.168.x.x:8000/v1", // 替换为实际 IP:端口
apiKey: "not-needed", // vLLM 默认不需要密钥,随意填
api: "openai-completions",
models: [
{
id: "QwQ-32B",
name: "QwQ-32B (局域网)",
reasoning: true, // QwQ 是推理模型,支持思维链
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768, // 根据实际部署配置调整
maxTokens: 8192
}
]
}
}
}
}
方式二:Ollama 部署
如果服务器用 Ollama 部署:
{
agents: {
defaults: {
model: { primary: "qwq-lan/qwq:32b" }
}
},
models: {
providers: {
"qwq-lan": {
baseUrl: "http://192.168.x.x:11434/v1", // Ollama 端口
apiKey: "ollama-lan",
api: "openai-completions",
models: [
{
id: "qwq:32b",
name: "QwQ-32B (Ollama)",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 8192
}
]
}
}
}
}
方式三:带认证的 API
如果服务器配置了 API Key 认证:
{
// 环境变量方式(推荐,更安全)
env: {
QWQ_API_KEY: "your-secret-key"
},
agents: {
defaults: {
model: { primary: "qwq/QwQ-32B" }
}
},
models: {
providers: {
qwq: {
baseUrl: "http://192.168.x.x:8000/v1",
apiKey: "${QWQ_API_KEY}", // 引用环境变量
api: "openai-completions",
models: [
{
id: "QwQ-32B",
name: "QwQ-32B",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 8192
}
]
}
}
}
}
四、配置说明
| 字段 | 说明 |
|------|------|
| baseUrl | 模型服务的完整地址,必须包含 /v1 |
| apiKey | API 密钥,无认证时随意填 |
| api | API 类型,vLLM/Ollama 用 openai-completions |
| id | 模型 ID,需与服务端一致 |
| reasoning | true 表示支持推理/思维链(QwQ 是推理模型) |
| contextWindow | 上下文窗口,根据显存和部署配置调整 |
| maxTokens | 单次最大输出 token 数 |
五、应用配置
# 重启 gateway 使配置生效
openclaw gateway restart
# 验证模型已加载
openclaw models list
# 设置为默认模型
openclaw models set qwq/QwQ-32B
六、混合配置(本地 + 云端备选)
当局域网服务不可用时,自动切换到云端模型:
{
agents: {
defaults: {
model: {
primary: "qwq/QwQ-32B", // 主力:局域网 QwQ
fallback: [
"anthropic/claude-sonnet-4", // 备选:云端 Claude
"openai/gpt-4o" // 再备选:OpenAI
]
}
}
},
models: {
providers: {
qwq: {
baseUrl: "http://192.168.x.x:8000/v1",
apiKey: "not-needed",
api: "openai-completions",
models: [
{
id: "QwQ-32B",
name: "QwQ-32B (局域网)",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 8192
}
]
}
}
}
}
七、故障排除
连接失败
# 检查网络连通性
ping 192.168.x.x
# 检查端口是否开放
nc -zv 192.168.x.x 8000
# 检查服务状态
curl http://192.168.x.x:8000/v1/models
模型 ID 不匹配
确保配置中的 id 与服务端的模型名称一致:
# 查询服务端实际的模型 ID
curl http://192.168.x.x:8000/v1/models
返回示例:
{
"data": [
{"id": "QwQ-32B", "object": "model"}
]
}
超时问题
QwQ-32B 首次推理可能较慢,可以增加超时时间:
{
models: {
providers: {
qwq: {
baseUrl: "http://192.168.x.x:8000/v1",
apiKey: "not-needed",
api: "openai-completions",
timeout: 120000, // 超时时间 120 秒
models: [...]
}
}
}
}
八、完整配置示例
// ~/.openclaw/openclaw.json
{
agents: {
defaults: {
model: { primary: "qwq/QwQ-32B" }
}
},
models: {
mode: "merge", // 与内置模型合并
providers: {
qwq: {
baseUrl: "http://192.168.1.100:8000/v1",
apiKey: "not-needed",
api: "openai-completions",
models: [
{
id: "QwQ-32B",
name: "QwQ-32B (局域网服务器)",
reasoning: true,
input: ["text"],
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },
contextWindow: 32768,
maxTokens: 8192
}
]
}
}
}
}
文档生成时间:2026-02-06