平台运营配置文档
本目录用于集中维护平台级运营与配置文档,面向系统管理员、平台运维、平台运营和实施支持等角色,帮助团队在多租户场景下完成平台配置、全局治理、跨租户运维与风险控制。
本目录聚焦“平台级怎么管、怎么查、怎么变更、怎么排障”,不负责展开单个租户的日常运营操作;涉及单租户的用户、应用、权限、品牌、联邦或 SCIM 维护时,请在完成平台侧边界判断后转到 租户运营配置文档 继续处理。
文档定位与边界
本目录主要回答以下问题:
- 平台初始化和基础配置应该先做什么
- 平台日常巡检与健康检查从哪里看
- 跨租户问题由谁介入、如何排查
- 平台级安全、审计、联邦、
SCIM等能力由谁治理 - 高风险变更前后需要做哪些检查
适合放在本目录的内容包括:
- 平台级配置、环境配置源与全局安全控制项
- 租户生命周期治理与跨租户边界管理
- 平台级认证接入基线、协议支持与准入要求
- 全局审计、异常事件、高风险动作与平台值守入口
- 平台级可观测性、健康检查、日志、指标与告警
不适合放在本目录的内容包括:
- 单租户内用户、角色、应用、访问分配的日常操作
- 单租户品牌、联邦、
SCIM的具体维护步骤 - 某一个业务系统的 SDK、代码接入实现或研发接口契约
如何使用本目录
建议按“先判断边界,再进入专题,最后执行 SOP”的顺序使用:
- 先判断当前问题是平台级还是租户级。
- 平台级问题先进入对应专题页,确认当前版本范围、核心入口和处理顺序。
- 需要实际执行时,再进入对应
SOP。 - 若问题只影响某一租户内部对象或某个应用的日常配置,转到租户公开文档继续处理。
按场景阅读建议
如果你当前要处理的是下面这些场景,建议按对应入口开始阅读:
- 新环境初始化
- 先看 平台初始化与基础配置
- 再看 平台级认证与接入治理
- 落地执行时参考 新环境初始化 SOP
- 平台日常巡检
- 先看 平台可观测性与健康检查
- 再看 平台安全运营
- 需要辅助排障时参考 平台
MCP运维参考 - 执行时参考 平台日常巡检 SOP
- 平台级配置变更
- 先看 平台级变更管理
- 再看受影响专题,例如认证、联邦、
SCIM或租户治理 - 执行前后分别参考 变更前检查清单 SOP 与 变更后验收 SOP
- 跨租户问题排查
- 先看 租户治理
- 再看 常见问题与排障
- 需要动作化排查时参考 跨租户问题排查 SOP
- 认证接入与协议边界判断
- 先看 平台级认证与接入治理
- 再看 平台接入与联调参考
- 执行时参考 平台认证接入基线检查 SOP
- 高风险事件处置
- 先看 平台安全运营
- 再结合 平台可观测性与健康检查 查看当前异常是否仍在持续
- 需要落实处置动作时参考 平台安全事件处置 SOP
平台能力地图
当前仓库中已可作为平台文档事实基础的能力包括:
- 平台运行健康:
/health/live、/health/ready、GET /api/system/ops_summary、GET /api/system/ops_health_detail、POST /api/system/ops_detail - 控制台入口:系统后台
Operations、Audit、Tenants、Federation、Tokens、Authorizations - 租户配置治理入口:租户编辑页
Branding Preview、SCIM Governance - 接入与协议能力:
OAuth2 / OIDC主链路、Token Introspection / Revocation、外部OIDC联邦、SAML IdP、SCIM User / Group基线能力 - 只读辅助排障:平台
MCP运维参考
当前版本的明确边界也需要一并记住:
- 运维能力走平台内可视化路线,不内建
OpenTelemetry、OTLP、Prometheusexporter 或统一告警推送器 - 外部身份源联邦当前以外部
OIDC为主,治理体验已可用,但更多身份源类型仍在后续评估 SAML已有证书治理与主链路联调,但SLO、断言加密和更完整兼容矩阵不在当前正式范围SCIM已支持User / Group基线治理与排障,但更大规模同步编排与自愈能力仍在后续增强
专题导航
平台初始化与基础配置
说明平台首次上线、环境重建和基础配置复核时的准备项、入口和判断顺序。
租户治理
说明租户创建、禁用、恢复、交付边界,以及哪些问题必须由平台侧介入。
平台级认证与接入治理
说明平台当前支持的协议能力、接入基线、平台限制和何时切换到租户或集成方处理。
平台接入与联调参考
承接平台侧对接入、SAML 联调和边界判断最常用的参考信息。
平台安全运营
说明审计、令牌、高风险动作、安全信号和异常访问的治理入口与处置思路。
平台可观测性与健康检查
说明健康检查、失败趋势、依赖状态和平台内运维视图的使用方式。
平台 MCP 运维参考
说明平台侧如何使用只读 MCP 入口辅助排障。
平台级变更管理
说明高风险平台变更前后的检查、验收、观察窗口与回滚判断。
常见问题与排障
汇总登录、授权、租户隔离、联邦、SAML 和 SCIM 等平台常见问题的排障分流方式。
高频 SOP 导航
- 新环境初始化 SOP
- 平台日常巡检 SOP
- 租户生命周期治理 SOP
- 平台认证接入基线检查 SOP
- 平台审计排查 SOP
- 变更前检查清单 SOP
- 变更后验收 SOP
- 跨租户问题排查 SOP
- 平台安全事件处置 SOP
路线图
当前 platform-ops-docs 已形成可用 v1,能够覆盖平台初始化、巡检、租户治理、认证接入、安全、变更与排障主链路。
如果你要看这套平台文档下一阶段怎么继续补强、优先补哪里、与现有产品演进如何对齐,请阅读 平台运营文档路线图。
说明:
- 该路线图只规划
platform-ops-docs的文档建设节奏 - 功能能力的真实优先级仍以产品 backlog 维护结果为准
- README 继续只保留导航与入口,不展开路线图正文
使用原则
- 先区分平台级问题与租户级问题,再决定进入哪套文档。
- 先看健康、提醒和失败趋势,再决定是否进入审计、令牌、联邦或租户治理页。
- 平台文档只写平台侧职责;涉及租户内对象维护时,统一跳转租户公开文档。
- 平台排障优先使用现有后台、管理 API 和只读
MCP入口,不假设额外的外部监控或修复工具。