中国联通数字化监控平台稳定性保障工具落地实践2、指标、链路追踪、日志三位一体斧实现故障快速发 现、根因准确定位、故障快速恢复、问题深度刨析 1、全层级变更追踪 2、任务流程线上化绘制、管控,统一入口管理调度 3、技术监督实现变更管控 1、故障事前制定应急预案与应急演练 2、故障事中形成故障、监控、调度态势感知能力,实现 业务快速抢通 3、故障事后治理追踪全流程线上化闭环管理,确保故障 经验有效沉淀,整改措施有效落地 1、系统深度健康体检,全链路性能隐患分析 2、系统容量隐患深度分析 上海站 故障闭环整改 故障管理实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数, 提升业务连续可用率。 故障事中调度 故障发现 故障响应与应急 故障改进 故障演练 故障事前预防 故障事后改进 监控告警 自动化巡检 影响判断 是否满足 业务场景SLO 故 障 上 报 问 题 管 理 事 件 上 报 客服投诉 舆情 省分上报 一键拉会 ⑥ 下发演练计划 (5个工作日窗口) 技 术 线 通 报 线 记 录 屏 业 务 线 按故障调度标准进 行突击演练 (实操/桌面) 调度负责人 技术负责人 信息通报人 信息记录人 复盘优缺点, 输出《演练报 告》 优化改进闭环 业务负责人 演练特点 时间随机 “两不”突 击演练 场景随机 预案池随机 抽取 预案<故障 应急演练→ 故障演练 调度是否有序10 积分 | 24 页 | 9.74 MB | 6 月前3
中国联通数字化监控平台稳定性保障工具落地实践PS 全 球 运 维 大 会 2 0 2 3 · 上 海 站 1 、系统深度健康体检,全链路性能隐患分析 2 、系统容量隐患深度分析 3 、统一隐患闭环治理 1 、故障事前制定应急预案与应急演练 2 、故障事中形成故障、监控、调度态势感知能力,实现 业务快速抢通 3 、故障事后治理追踪全流程线上化闭环管理,确保故障 经验有效沉淀,整改措施有效落地 1 、涵盖业务层、前端触点层、网关层、应用层、组件 ② 《 线 上 统 一 看 板 》 组 织 投 屏 故 障 时 间 线 故障响应与应急 故障改进 故障演练 整改落 地 专家审核 抽查评审 故障发现 故障定 责 故障处罚 ( 次月 10 日 前 ) 是否可执行 时间是否达预期 举一反三制定整改措 施 原因未查清不放过 回溯详实处理过程 个工作日) ② ④ 实操演练 桌面演练 技术负责人 是否满足 业务场景 SLO 信息记录 负责人 信息通报 负责人 业务负责人 故障演练 (10 个工作 日 ) 故 障受 教 育 ( 次月 13 日 前 ) 故障报告 评价 列入故障 预算 应急演练→ 故障演练 “ 两不 ”突 击演练 故障定 级 故 障复盘 准备 不再发生此类故障20 积分 | 24 页 | 2.00 MB | 6 月前3
共 2 条
- 1
