运维与升级：日志、健康检查、备份与回滚

“能跑一次”不难，“天天都能跑”才是真本事。
这章给你一套小白也能照做的运维流程：看状态、做体检、留备份、出事能回滚。

本章你将学会什么

建立统一观测入口（status / logs / doctor / health）。
做一次完整的健康自检并读懂结果。
用冻结点策略安全升级，不做“盲升”。
规划 workspace 与 state 的备份与回滚。
快速判断“坏的是模型、配置还是渠道”。

读者前置

你已完成前 6 章基础配置。
你可以正常运行：

openclaw gateway status

openclaw logs --follow

7.1 观测入口（日志/指标/事件）

7.1.1 运维第一原则：先看事实，再下结论

先跑这五条命令，把“现场情况”摸清：
别上来就改配置，先看体征再开药。

openclaw status

openclaw status --all

openclaw gateway status

openclaw channels status --probe

openclaw logs --follow

7.1.2 日志面分成两类

官方日志有两层：

控制台日志（你终端看到的）；
文件日志（JSON 行日志，供长期追踪）。

关键点：--verbose 只影响控制台，不会自动提升文件日志级别。
需要更细粒度落盘时，用 logging.level 配置。

7.1.3 建议的巡检频率

每天：status + gateway status；
每周：doctor + 安全检查；
每次重大配置变更后：logs --follow 至少观察 10 分钟，确认没有持续报错再收工。

7.2 健康检查与自测

7.2.1 快速健康检查

openclaw health --json

该命令会向运行中的 Gateway 请求健康快照，适合自动化检测与 CI 探活。
你可以把它当成“系统体温计”。

7.2.2 “第一分钟”排查序列

当你怀疑系统异常，优先按官方顺序跑（别跳步）：

openclaw status

openclaw gateway probe

openclaw doctor

openclaw channels status --probe

openclaw logs --follow

7.2.3 你应该关注哪些信号

Gateway 是否 Runtime: running；
RPC probe 是否 ok；
channel 状态是否 connected/ready；
日志是否出现持续重复 fatal 错误。

7.3 升级策略（冻结点/变更记录）

7.3.1 冻结点升级法

建议按“冻结点”升级，不跟随每日变更漂移。
本书当前冻结点是 v2026.2.17，升级时先在测试环境验证再进生产。

7.3.2 升级前清单

备份 openclaw.json；
备份 sessions 与关键 workspace 文件；
记录当前版本、关键插件版本、模型路由；
先跑：

openclaw doctor --deep

7.3.3 升级后验收

升级后不要只看“能启动”，至少做三类验证：
只验证启动不验证闭环，后面大概率会补坑。

核心对话闭环；
一个渠道收发闭环；
一个技能执行闭环。

7.4 备份与回滚预案

7.4.1 备份什么，别备份什么

建议备份：

workspace（业务文档、技能、项目文件）；
配置（openclaw.json）；
必要会话数据（按隐私策略脱敏）。

不建议直接外发：

明文 credentials；
未脱敏日志全集。

7.4.2 回滚要有“最后可用快照”

建议保留最近三份：

T-1（当前前一版）
T-7（一周前）
T-30（一月前）

出现重大故障时，优先回滚到最近“已验证可用”版本，而不是临场拼修。
先恢复服务，再慢慢复盘，节奏会稳很多。

7.4.3 私有仓库备份 workspace

官方建议把 workspace 当私有记忆资产管理。
可以用私有 Git 仓库做版本化，但要明确 .gitignore，防止敏感文件被提交。

7.5 “坏的是模型还是配置”

7.5.1 三步定位法

先看系统层：gateway status、doctor、health；
再看模型层：models list、鉴权状态、fallback 是否触发；
最后看渠道层：channels status --probe、pairing/allowlist。

7.5.2 常见误判

把“渠道权限问题”误判为“模型太笨”；
把“配置漂移”误判为“版本 bug”；
把“队列积压”误判为“系统卡死”。

7.5.3 一张最短决策表

现象	优先怀疑	第一动作
所有请求都失败	Gateway/配置	`openclaw doctor`
仅某模型失败	模型鉴权/路由	`openclaw models list` + 查日志
仅某渠道不通	渠道权限/配对	`openclaw channels status --probe`
偶发超时	负载/网络/重试	看 `logs --follow` 与重试策略

本章小结

观测面要统一，避免“每人一套排障方法”。
健康检查和 doctor 是运维基本功，不是“出事才跑”。
升级必须有冻结点与回滚点，不能裸奔。
先分层定位，再动手修复，效率最高。