Skip to content

排障手册:从现象到根因的最短路径

这一章是“救火手册”。
你可以把它当值班时的标准动作表:先做什么、再看什么、最后怎么修。

  • 用统一排障方法减少“拍脑袋猜问题”。
  • 快速处理安装启动、模型、渠道、技能四大类高频故障。
  • 读懂关键日志关键词并映射到修复动作。
  • 把一次故障沉淀成可复用的排障资产。
  • 你已完成第 2 章和第 7 章。
  • 你能运行:
Terminal window
openclaw status
Terminal window
openclaw logs --follow

12.1.1 先跑命令阶梯,再分析细节

Section titled “12.1.1 先跑命令阶梯,再分析细节”

官方建议的基础阶梯:

Terminal window
openclaw status
Terminal window
openclaw gateway status
Terminal window
openclaw logs --follow
Terminal window
openclaw doctor
Terminal window
openclaw channels status --probe

任何故障都按这四步走:

  1. 现象确认(能稳定复现);
  2. 分层定位(网关 / 模型 / 渠道 / 技能);
  3. 最小修复(一次只改一项);
  4. 回归验证(复测核心闭环)。
  • 同时改多项配置;
  • 不看日志直接重装;
  • 没有回滚点就升级。

先看:

Terminal window
openclaw gateway status --deep
Terminal window
openclaw doctor

常见原因:

  • 端口冲突(EADDRINUSE);
  • 网关模式不对(gateway.mode);
  • 鉴权配置不完整。

12.2.2 安装后命令可执行但行为异常

Section titled “12.2.2 安装后命令可执行但行为异常”

优先检查:

  • Node 版本与依赖;
  • 配置是否含旧字段(doctor 会提示迁移);
  • state 目录权限是否异常。
Terminal window
openclaw doctor --repair

必要时:

Terminal window
openclaw gateway install --force

12.3.1 先判断是“单模型失败”还是“全局失败”

Section titled “12.3.1 先判断是“单模型失败”还是“全局失败””
  • 单模型失败:优先查 model id / key / provider;
  • 全局失败:优先查 gateway 与基础配置。
Terminal window
openclaw models list
Terminal window
openclaw logs --follow
Terminal window
openclaw doctor
日志/现象可能原因第一动作
Unknown model模型 ID 拼写或未配置重新 models set
401/403key 失效或权限不足更新 key 并复测
频繁 timeout网络或 provider 拥塞检查 fallback 与超时策略

12.4.1 入口策略先查,不要先重连

Section titled “12.4.1 入口策略先查,不要先重连”

很多“收不到消息”不是网络问题,而是策略挡住了。
先查:

  • dmPolicy(pairing/allowlist/open/disabled)
  • groupPolicy 与群组 allowlist
  • mention gating(是否要求 @)
Terminal window
openclaw channels status --probe
Terminal window
openclaw pairing list <channel>
Terminal window
openclaw config get channels
  • pairing request:用户未审批;
  • blocked/allowlist:入口策略命中拒绝;
  • missing_scope / Forbidden / 401/403:渠道权限或 token 配置问题。

Terminal window
openclaw skills list --eligible
Terminal window
openclaw skills info <name>

如果技能不在 --eligible,先修依赖条件(bins/env/config),不要直接改 prompt。

高频问题:
host 能跑,sandbox 失败(缺依赖、缺环境变量、网络不可达)。

先跑:

Terminal window
openclaw sandbox explain
skills info -> logs follow -> 最小输入复测 -> 修一项 -> 再复测

你只要坚持这条,不会陷入“越修越乱”。

  • 排障速度来自方法,而不是经验年限。
  • 入口策略、模型配置、技能依赖是三大高发区。
  • doctor + status + logs 是你的常驻三件套。
  • 每次修复都要留记录,才能形成团队可复用手册。