租户可观测性与健康检查
本文档用于说明当前租户视角下可见的健康检查、运维入口、后台首页运维视图与问题定位方式,帮助租户管理员和实施支持快速完成第一轮定位。
适用场景
- 发布后确认当前租户是否仍可用
- 登录、联邦、
SCIM、证书或应用接入出现异常 - 需要先判断问题是租户内故障还是平台级故障
可见入口
健康检查
/health/live/health/ready
建议用途:
live用于判断进程是否在线ready用于判断依赖是否就绪
后台入口
- 租户后台首页运维视图
- 当前租户相关的配置、联邦、供给、证书和最近失败提醒
管理接口
GET /api/system/ops_summaryGET /api/system/ops_health_detailPOST /api/system/ops_detail
说明:
- 当前文档只说明这些能力在租户视角下如何使用
- 若需要更系统的平台运维视角,请查看平台公开文档:
建议检查顺序
- 先看
/health/live,确认进程是否存活 - 再看
/health/ready,确认数据库和配置依赖是否已就绪 - 进入租户后台首页运维视图,查看提醒、失败摘要和趋势
- 若问题集中在联邦、
SCIM、证书或回调链路,再进入对应治理页 - 若发现多个租户同时异常,立即升级到平台侧排查
常见判断口径
liveness 正常但 readiness 降级
通常表示进程仍在线,但数据库连接、配置校验或某些依赖未达到可服务状态。
健康检查正常但租户失败增长
通常表示平台依赖仍可用,但某条业务链路出现集中失败。应继续查看失败摘要、协议分布和最近失败明细。
提醒出现证书、联邦或供给问题
通常意味着字段缺失、功能启用但配置未闭环,或最近状态变化值得关注,应回到对应治理页核查。
当前边界
- 当前版本走平台内可视化路线,不依赖外部
OpenTelemetry、OTLP、Prometheusexporter - 当前文档只说明租户视角下可见的入口与判断顺序
- 统一告警推送器、宿主机、容器编排和外部监控集成不在本文档内展开
相关文档
返回 租户运营配置文档