Feinian Ids Platform Docs main platform-daily-health-check.md

平台日常巡检 SOP

适用场景

适用于平台日常值守、发布后巡检、异常告警后的第一轮健康确认。

前置条件

  • 已具备平台运维或系统管理权限
  • 已明确当前检查环境和时间窗口
  • 已知本轮巡检是全局平台视角,而不是单租户专项检查

操作入口

  • /health/live
  • /health/ready
  • GET /api/system/ops_summary
  • GET /api/system/ops_health_detail
  • POST /api/system/ops_detail
  • 系统后台 Operations
  • 系统后台 Audit

执行步骤

  1. 先访问 /health/live/health/ready,快速判断进程和依赖是否处于可服务状态。
  2. 打开 Operations,查看当前健康状态、提醒、失败 key 聚合、近期失败趋势和协议或租户分布。
  3. 如果没有明显异常,记录本轮巡检结果;如果出现提醒、失败增长或安全信号,再结合 ops_detailAudit 下钻。
  4. 如果异常集中在联邦、SCIMSAML、租户状态或授权会话,再切换到相关专题页继续处理。
  5. 巡检结束后记录本轮结果、异常摘要和是否需要后续跟进。

验收结果

  • 平台当前健康状态有明确结论
  • 异常项已被分类为健康、配置、安全、租户或协议问题之一
  • 需要跟进的问题已经有明确的下一步入口

结果记录建议

  • 记录巡检时间、环境、健康结果和当前提醒数量
  • 记录是否存在失败趋势上升、协议集中失败或租户分布异常
  • 记录是否已转入审计、安全、联邦或租户治理专题继续排查

异常分流

升级 / 回滚条件

  • readiness 持续失败、近期失败快速增长或核心入口不可用,应升级为平台级排障
  • 若异常发生在近期变更后,应同步进入 变更后验收 SOP 和回滚评估

关联文档