租户可观测性与健康检查

本文档用于说明当前租户视角下可见的健康检查、运维入口、后台首页运维视图与问题定位方式，帮助租户管理员和实施支持快速完成第一轮定位。

适用场景

发布后确认当前租户是否仍可用
登录、联邦、SCIM、证书或应用接入出现异常
需要先判断问题是租户内故障还是平台级故障

可见入口

健康检查

/health/live
/health/ready

建议用途：

live 用于判断进程是否在线
ready 用于判断依赖是否就绪

后台入口

租户后台首页运维视图
当前租户相关的配置、联邦、供给、证书和最近失败提醒

管理接口

GET /api/system/ops_summary
GET /api/system/ops_health_detail
POST /api/system/ops_detail

说明：

当前文档只说明这些能力在租户视角下如何使用
若需要更系统的平台运维视角，请查看平台公开文档：
- 平台可观测性与健康检查

建议检查顺序

先看 /health/live，确认进程是否存活
再看 /health/ready，确认数据库和配置依赖是否已就绪
进入租户后台首页运维视图，查看提醒、失败摘要和趋势
若问题集中在联邦、SCIM、证书或回调链路，再进入对应治理页
若发现多个租户同时异常，立即升级到平台侧排查

常见判断口径

`liveness` 正常但 `readiness` 降级

通常表示进程仍在线，但数据库连接、配置校验或某些依赖未达到可服务状态。

健康检查正常但租户失败增长

通常表示平台依赖仍可用，但某条业务链路出现集中失败。应继续查看失败摘要、协议分布和最近失败明细。

提醒出现证书、联邦或供给问题

通常意味着字段缺失、功能启用但配置未闭环，或最近状态变化值得关注，应回到对应治理页核查。

当前边界

当前版本走平台内可视化路线，不依赖外部 OpenTelemetry、OTLP、Prometheus exporter
当前文档只说明租户视角下可见的入口与判断顺序
统一告警推送器、宿主机、容器编排和外部监控集成不在本文档内展开

相关文档

返回租户运营配置文档