平台级变更管理
文档目标
本文档用于沉淀平台级高风险变更的检查、验收和回滚判断口径,帮助平台侧在认证、联邦、SCIM、租户治理和平台配置变更前后保持统一节奏。
适用角色
- 系统管理员
- 平台运维
- 发布负责人
- 实施支持
适用场景
- 平台发布上线
- 平台配置源或依赖配置调整
- 联邦、
SAML、SCIM、认证策略变更 - 租户禁用、恢复或其他可能影响登录与管理入口的高风险动作
覆盖范围 / 不覆盖范围
覆盖:
- 变更前的健康、审计和影响面检查
- 变更后的即时验收与观察窗口
- 何时应暂停变更、何时应进入回滚评估
- 需要联动哪些平台治理入口确认结果
不覆盖:
- 研发流水线、构建脚本或部署脚本的具体实现
- 各业务系统自己的上线制度
- 单租户日常小改动的操作细节
核心入口与系统落点
- 健康检查:
/health/live、/health/ready - 运维接口:
GET /api/system/ops_summary、GET /api/system/ops_health_detail - 系统后台:
Operations、Audit、Tenants、Federation、Tokens - 参考文档:运维与健康检查
建议处理顺序
- 在变更前先确认影响对象、回滚前提和验收链路。
- 通过健康检查与
Operations确认当前平台处于可接受的基线状态。 - 对受影响的租户、协议或安全对象做针对性预检,例如租户状态、联邦配置、令牌风险或最近审计异常。
- 变更完成后立即执行健康、关键链路和异常趋势验收。
- 在观察窗口内持续关注失败、提醒和高风险信号,必要时进入回滚评估。
常见判断原则
- 如果变更前平台已经存在明显健康降级、异常趋势或高风险提醒,应优先消化现有问题,而不是叠加新的高风险变更。
- 平台变更不只看健康端点,还要看控制台是否可登录、关键治理页是否可进入、受影响协议链路是否可完成最小验证。
- 变更后若出现多租户共同异常、租户上下文错乱、令牌刷新异常或统一认证失败,应优先按平台级故障处理,不要只盯单一租户症状。
- 当异常与近期变更强相关且已影响关键入口,应尽快进入回滚评估,而不是等待更长期的观察。
关联文档
- 上游导航:平台运营配置文档
- 关联专题:平台可观测性与健康检查、平台安全运营
- 执行文档:变更前检查清单 SOP、变更后验收 SOP
- 参考文档:运维与健康检查