Skip to content

运维与升级:日志、健康检查、备份与回滚

“能跑一次”不难,“天天都能跑”才是真本事。
这章给你一套小白也能照做的运维流程:看状态、做体检、留备份、出事能回滚

  • 建立统一观测入口(status / logs / doctor / health)。
  • 做一次完整的健康自检并读懂结果。
  • 用冻结点策略安全升级,不做“盲升”。
  • 规划 workspace 与 state 的备份与回滚。
  • 快速判断“坏的是模型、配置还是渠道”。
  • 你已完成前 6 章基础配置。
  • 你可以正常运行:
Terminal window
openclaw gateway status
Terminal window
openclaw logs --follow

7.1 观测入口(日志/指标/事件)

Section titled “7.1 观测入口(日志/指标/事件)”

7.1.1 运维第一原则:先看事实,再下结论

Section titled “7.1.1 运维第一原则:先看事实,再下结论”

先跑这五条命令,把“现场情况”摸清:
别上来就改配置,先看体征再开药。

Terminal window
openclaw status
Terminal window
openclaw status --all
Terminal window
openclaw gateway status
Terminal window
openclaw channels status --probe
Terminal window
openclaw logs --follow

官方日志有两层:

  • 控制台日志(你终端看到的);
  • 文件日志(JSON 行日志,供长期追踪)。

关键点:--verbose 只影响控制台,不会自动提升文件日志级别。
需要更细粒度落盘时,用 logging.level 配置。

  • 每天:status + gateway status
  • 每周:doctor + 安全检查;
  • 每次重大配置变更后:logs --follow 至少观察 10 分钟,确认没有持续报错再收工。

Terminal window
openclaw health --json

该命令会向运行中的 Gateway 请求健康快照,适合自动化检测与 CI 探活。
你可以把它当成“系统体温计”。

当你怀疑系统异常,优先按官方顺序跑(别跳步):

Terminal window
openclaw status
Terminal window
openclaw gateway probe
Terminal window
openclaw doctor
Terminal window
openclaw channels status --probe
Terminal window
openclaw logs --follow
  • Gateway 是否 Runtime: running
  • RPC probe 是否 ok
  • channel 状态是否 connected/ready
  • 日志是否出现持续重复 fatal 错误。

7.3 升级策略(冻结点/变更记录)

Section titled “7.3 升级策略(冻结点/变更记录)”

建议按“冻结点”升级,不跟随每日变更漂移。
本书当前冻结点是 v2026.2.17,升级时先在测试环境验证再进生产。

  1. 备份 openclaw.json
  2. 备份 sessions 与关键 workspace 文件;
  3. 记录当前版本、关键插件版本、模型路由;
  4. 先跑:
Terminal window
openclaw doctor --deep

升级后不要只看“能启动”,至少做三类验证:
只验证启动不验证闭环,后面大概率会补坑。

  • 核心对话闭环;
  • 一个渠道收发闭环;
  • 一个技能执行闭环。

建议备份:

  • workspace(业务文档、技能、项目文件);
  • 配置(openclaw.json);
  • 必要会话数据(按隐私策略脱敏)。

不建议直接外发:

  • 明文 credentials;
  • 未脱敏日志全集。

7.4.2 回滚要有“最后可用快照”

Section titled “7.4.2 回滚要有“最后可用快照””

建议保留最近三份:

  • T-1(当前前一版)
  • T-7(一周前)
  • T-30(一月前)

出现重大故障时,优先回滚到最近“已验证可用”版本,而不是临场拼修。
先恢复服务,再慢慢复盘,节奏会稳很多。

官方建议把 workspace 当私有记忆资产管理。
可以用私有 Git 仓库做版本化,但要明确 .gitignore,防止敏感文件被提交。

  1. 先看系统层gateway statusdoctorhealth
  2. 再看模型层models list、鉴权状态、fallback 是否触发;
  3. 最后看渠道层channels status --probe、pairing/allowlist。
  • 把“渠道权限问题”误判为“模型太笨”;
  • 把“配置漂移”误判为“版本 bug”;
  • 把“队列积压”误判为“系统卡死”。
现象优先怀疑第一动作
所有请求都失败Gateway/配置openclaw doctor
仅某模型失败模型鉴权/路由openclaw models list + 查日志
仅某渠道不通渠道权限/配对openclaw channels status --probe
偶发超时负载/网络/重试logs --follow 与重试策略
  • 观测面要统一,避免“每人一套排障方法”。
  • 健康检查和 doctor 是运维基本功,不是“出事才跑”。
  • 升级必须有冻结点与回滚点,不能裸奔。
  • 先分层定位,再动手修复,效率最高。