中国联通数字化监控平台稳定性保障工具落地实践

语言	格式	评分
中文（简体）	.pdf	3
概览
中国联通数字化监控平台稳定性保障工具落地实践曹家豪联通软件研究院项目经理目录 CONTENTS 稳定性保障工具演进历程 1 稳定性保障工具落地场景及成效 2 当前面临的挑战及未来展望 3 01 稳定性保障工具演进历程 GOPS 全球运维大会 2023 · 上海站数字化转型中系统安全生产痛点问题工具职责范围的演进：覆盖广度及深度不断增加单系统应用维度根因定位几个核心系统被动应急故障统一调度系统具备应急预案故障点人工恢复统一变更入口工具建设集团+省分几百套系统跨系统全链路定界诊断主动预防集团+分子公司整体态势感知混沌工程故障自愈变更追踪变更管控体系建设故障发现与诊断故障恢复与应急故障预防故障调度体系演进分布式架构挑战运维生态挑战数智运维挑战  端到端稳定性保障体系缺失，自动化、智能化故障处理能力不足  故障处理过多依赖专家经验，故障没有沉淀为有效的资产  故障处于被动防御，救火，运维大数据未被合理价值挖掘  工具重复：工具按烟囱式建设，能力分散  能力割裂：运维工具能力割裂不成体系  数据孤岛：应用、数据库、中间件、云平台、基础设施各管自身  维护对象：系统节点、微服务数量几何级数增加  调用关系：从简单对应到极其复杂，人力维护无法胜任  数据分片、异地存储，传统维护模式难以为继随着云原生技术的不断成熟，企业数字化转型也在不断加速，企业IT架构进入云原生时代，多云多集群部署已经成为常态和趋势，几何增长的云资源、微服务以及复杂化的调用关系与业务场景，传统人肉运维难以为继，如何保障系统的全面稳定，保证业务流程的高效运转，为系统运营提出了不小的挑战。 GOPS 全球运维大会 2023 · 上海站稳定性保障工具建设历程 • 工具化建设 2019 • 产品化建设 2020-2021 • 体系化建设 2022-2023 稳定性保障工具的建设与演进从来不是一蹴而就的，是基于当前的现状与存在的问题，提出解决方案与目标规划，充分借鉴与对标先进的行业经验，从“走出去”到”引进来“，逐步由工具产品化至制度、管理体系化转变的过程。监控工具测试工具运营响应工具监控管理产品线稳定性测试产品线配置管理产品线基础能力线自动化运维产品线故障管理产品线制度规范保障组织架构保障平台工具保障运营机制保障工具化产品化体系化自动化智能化无人值守 GOPS 全球运维大会 2023 · 上海站稳定性保障工具建设历程一个目标，依托四大保障，聚焦研运流程中四个阶段，对应十五项核心工作，严格把控七个关口，将安全生产稳定性保障左移，在入网控制时介入，对入网控制、发布上线、故障预防、故障发现、故障定位，故障恢复、故障改进提供端到端工具支撑。核心业务链路深度治理做实安全生产，提升IT系统稳定性架构设计研发测试生产变更运营支撑稳定性架构设计版本管理变更管理链路识别监控管理故障预防容量管理故障发现故障响应故障定位故障应急研发测试故障改进故障演练重保管理设计关验证关变更关应急关上线关监控关优化关制度规范保障运营机制保障组织架构保障平台工具保障 02 稳定性保障工具落地场景及成效 GOPS 全球运维大会 2023 · 上海站稳定性保障工具聚焦领域数字化监控平台聚焦全栈可观测性 1、涵盖业务层、前端触点层、网关层、应用层、组件层、资源层的全链路追踪 2、指标、链路追踪、日志三位一体斧实现故障快速发现、根因准确定位、故障快速恢复、问题深度刨析 1、全层级变更追踪 2、任务流程线上化绘制、管控，统一入口管理调度 3、技术监督实现变更管控 1、故障事前制定应急预案与应急演练 2、故障事中形成故障、监控、调度态势感知能力，实现业务快速抢通 3、故障事后治理追踪全流程线上化闭环管理，确保故障经验有效沉淀，整改措施有效落地 1、系统深度健康体检，全链路性能隐患分析 2、系统容量隐患深度分析 3、统一隐患闭环治理告警、诊断、自动化作业能力组合贯穿‘监’与 ‘控’，实现多场景故障自愈 1、全链路读、写压力测试、评估链路容量水位 2、接口、UI自动化巡检及时发现业务异常变更追踪与管控故障自愈隐患管理稳定性测试故障管理 GOPS 全球运维大会 2023 · 上海站可观测性建设：指标实现涵盖业务、前端触点、应用、云平台、组件、基础资源的全层级指标数据采集及标准化，统一接入、存储、分析处理标准，提供可观测性能力数据基础。  业务发展量、业务流程积压量、业务突变异常、业务关键稽核点等  核心业务场景、核心业务环节、核心业务链路拓扑  白屏、慢响应、弹窗日志等核心业务系统方自定义 Promethues exporter 调用链接口业务打标告警配置应用核心场景、核心业务链路人工梳理上报调用链agent采集应用指标、trace 网关中间件数据库主机网络 Promethues exporter 前端触点浏览器 JS埋点 APP SDK 云平台 snmp协议+ Promethues exporter 云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容器指标  网关：KONG、LB、Nginx等  中间件：Kafka、MQ、Zookeeper 等  数据库：MySQL、Clickhouse、 Elasticsearch等  主机：内存、磁盘、CPU、网络指标等  网络出、入流量、并发会话数、连接数等  数据中心、网络设备、主机拓扑映射关系统一标签规范标准 + 自定义监控告警数据可视故障诊断隐患分析故障预防 ... Clickhouse 应用时序指标、trace、方法调用明细 Prometheus 业务、服务、组件、资源时序指标 Neo4j+Redis 拓扑数据 GOPS 全球运维大会 2023 · 上海站可观测性建设：链路追踪支持跨系统、跨云平台、跨数据中心链路拓扑，通过分数据中心汇总串联，完成跨系统调用实时追踪和方法清单级根因定位，接入应用6000+，日均处理600亿数据。汇总数据中心告警收敛链路自动拓扑根因定位业务、应用维度链路展现应用性能分析告警配置 Neo4j Collector- server Flink Clickhouse kafka 系统D agent 系统E agent Nacos Redis CMDB 实例id、容器id 主机ip、机房网络设备云平台告警计算聚合后指标链路计算清单查询分数据中心 Collector- server 系统A agent 系统B agent 系统C agent Flink kafka 告警计算指标聚合明细分析 Nacos Clickhouse 存储集群跨数据中心链路自动串连业务报文查询调度转发节点存储集群查询业务配置打标应用根因定位应用性能分析链路调用清单明细，方法级分析链路自动拓扑全层级告警墙应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站可观测性建设：日志分析通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力，应对在分布式云化技术架构的演进背景下，剧增的集中系统日志数据量带来的挑战，解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题，提升故障和工单问题定位效率。日志采集主机组件应用其他 Agent SDK 日志应用全文检索模版提取过滤脱敏日志监控异常检测报表可视日志处理、存储、告警判定 K a f k a 流式worker 处理分布式存储异常日志判定数据存储 Clickhouse Pushgateway Prometheus 日志探针管控采集任务管理日志处理流程配置智能日志模版提取 GOPS 全球运维大会 2023 · 上海站可观测性建设：一键故障诊断在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机层、网络层纵向贯通，结合云化CMDB关联定位，建立故障传递模型，实现全层级一键诊断，端到端快速定位问题根因，当前覆盖16套核心系统。可观测单AGENT 指标、报文日志、链路三位一体链路Tracing 指标 Metrics 报文Logs A B C D  调用量  超时量  异常量  失败量  . . .  请求报文  响应报文  异常日志  . . . B A C D X 2. 定位根因应用利用图数据库关系在海量告警应用中快速定位根因服务，如150个服务告警根因应用缩小到5个左右。 1. 发现业务影响触点+业务监控评估影响范围。开户缴费 6. 定位网络问题定位网络及接入设备的问题。防火墙路由器负载均衡 marathon-lb KONG 3. 定位根因实例通过核密度估计算法和 DBSCAN聚类算法判定根因实例。主机3 主机1 主机2 分布于 Redis1 Redis2 Redis3 4. 定位根因组件扫描根因应用调用的组件调用链指标、组件指标、组件告警判定根因组件。智能诊断六步定位法实现全层级一键诊断调用服务X有3个实例，X3出现问题 x1 x3 x2 5. 定位根因主机通过云化CMDB获取实例、组件与主机的关系，对主机的指标与告警进行扫描。 Redis集群3个实例，2出现问题停开机交换机主机进程 Top 变更关联辅助信息日志关联 GOPS 全球运维大会 2023 · 上海站可观测性建设：一键故障诊断案例当前一键故障诊断率达68%。应用实例事件异常： 2023-03-XX XX:XX 应用实例所在主机CPU使用率过高引发故障根因 Redis事件异常： 2022-08-XX XX:XX redis节点夯死，触发高可用，切换 master，大量流量进入导致redis性能下降，上游应用大面积告警是故障根因主机宕机事件导致lb异常： 2022-08-XX XX:XX lb所在主机宕机导致lb实例销毁重启服务波动是故障根因网络事件异常： 2022-03-XX XX:XX 交换机带宽使用率指标打满引起访问受限是故障根因 ES事件异常： 2022-05-XX XX:XX es进程负载率突增导致上游服务连接超时是故障根因 RDS事件异常： 2023-04-XX XX:XX rds慢sql突增导致节点状态异常是故障根因快立方内存数据库事件异常: 2023-02-XX XX:XX 根因应用下游调用快立方告警异常是故障根因 Oracle事件异常： 2023-02-XX XX:XX oracle会话数突增导致应用连接超时增多是故障根因 GOPS 全球运维大会 2023 · 上海站故障自愈告警+故障诊断+自动化运维+应急能力，实现事件根因自动诊断，诊断结果结合故障知识树分析，自动完成应用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障自愈场景，月均自愈作业执行 1000+次，自愈操作平均执行耗时3s内。 2023-09-07 16:20:45 应用告警 2023-09-07 16:20:45 自动触发诊断 2023-09-07 16:20:47 推送实例查杀、重启工单 2023-09-07 16:21:29 运维人员确认操作 2023-09-07 16:21:34 应用恢复从收到告警到恢复仅用47s 先查异常实例 -> 登录云平台执行查杀操作5min 节省4分钟外部能力探针能力告警信息运维专家任务调度平台自愈工单生成告警配置沉淀关联自动化作业平台操作/脚本作业编排执行计划运维场景作业调度执行引擎运维PaaS 平台基础资源运维场景应用系统运维场景业务服务运维场景云平台自动化运维 agent （物理机）自愈工单审批推送审批智能自愈判断逻辑引擎 GOPS 全球运维大会 2023 · 上海站系统隐患预防从容量隐患、链路隐患、系统健康度视角，定期开展隐患评估与预测，识别潜在风险隐患，隐患闭环治理，保障系统健康稳定和对资源利用的最优化。 B A C D 深度性能问题分析定位性能瓶颈节点初步定位看表象  链路节点RT增长->初步定位瓶颈节点  trace明细分析 -> Gap等待时间长、自耗时高、慢SQL...  链路调用量 -> 重复调用问题 …… 解释表象  线程池、连接池是否打满  慢SQL分析  内部方法自耗时高原因  重复调用是否可优化 …… 整体报告生成推动治理性能治理  压测结论、问题、论证、优化方案  与研发侧确认问题、推动治理  复测高风险指标中风险指标低风险指标服务层检测  服务超时率  服务异常率  服务调用量  服务平均响应时长 …… 组件层检测  ES健康节点/堆内存使用率/...  REDIS内存使用率/内存碎片比率  KAFKA消息积压/topic副本 …… 资源层检测  内存使用率  cpu使用率  磁盘使用率 …… 页面层检测  页面弹窗数  页面JS错误  页面平均响应时长 …… 健康检测引擎评分与趋势实时监控体检风险问题闭环整改性能对比隐患报告定时推送运营闭环管理 1 3 2 容量标准制定目标容量评估容量问题优化  全链路压测 - > 容量标准达标、链路性能瓶颈评估...  日常流量方法级分析 -> 抖动、不达标率...  指标实时监控 -> 容量风险监控... ……  对照保障目标，形成容量优化提升项  制定容量优化方案计划  容量再评估直至符合预期容量标准要求 ……  业务、应用、组件、基础资源容量水位模型 GOPS 全球运维大会 2023 · 上海站系统隐患预防：系统健康检查案例自动获取全层级核心黄金指标，通过AI算法分析，优化层级实体健康度算法模型，进行全层级隐患分析，实现系统健康状态档案化管理，分析系统潜在问题，保障核心业务连续性。系统健康实时评分高、中、低风险隐患压降隐患派单闭环治理前端触点层、应用层、组件层、资源层系统全层级实时健康度评分健康度评价详情系统风险隐患闭环治理系统风险隐患持续压降风险项对比 1 0 0 高风险隐患项 6 0 0 0 + 高风险隐患项压降98%+ cBSS系统高风险隐患治理成效 GOPS 全球运维大会 2023 · 上海站稳定性测试：端到端全链路压测增强调用链探针能力，使之具备流量染色与流量隔离能力，实现全链路读、写流量压测能力，有效评估业务容量水位，全链路节点性能瓶颈定位。监控压测一体示意图 collector 压力机 service1 one-agent 主要能力 service3 one-agent service2 one-agent MQ 生产Topic 影子Topic mysql 生产库/表影子库/表调用链数据处理全链路压测数据处理数据预处理流量回放压测报告档案化管理发压执行探针管理多云环境调用监控数据、压测数据压测流量调用监控数据、压测数据压测写流量创建压力机 service4 接口挡板 one-agent 数据统一存储全流程调用链监控生产流量压测调用链 GOPS 全球运维大会 2023 · 上海站稳定性测试：全链路隐患分析定位性能瓶颈节点，结合trace、实例、应用指标进行深度分析，得出优化结论。链路节点 RT 增长指数与抖动分析定位性能瓶颈节点节点 tr a c e 深度分析下游调用阻塞问题慢SQL问题 SQL重复调用问题 HTTP连接池配置问题活跃线程数分析容器负载分析主机负载分析架构维度重复调用问题 GC分析上下游应用调用分析实例、应用深度分析方法执行自耗时高问题 GOPS 全球运维大会 2023 · 上海站变更管理任务调度变更追踪 PC +移动端审批能力在线流程绘制业务系统 API 自动化运维统一流程申请入口 OA 数字化监控平台工作台任务调度平台钉钉多平台审批自动化处理应用层接入层业务层制品层资源层组件层  核心业务参数表变更数据  配置中心相关参数变更数据  云平台容器变更数据  核心配置变更数据  实例变化数据  主机核心参数配置变更数据  网络层防火墙、交换机、路由等网络  设备的变更数据 kafk a 数据卸载 Webhook 监听事件总线 k8s-apiserver k8s-kube- eventer 维护方API 组件变更操作采集器（自研、官方）  镜像仓库镜像变更数据  流水线变更数据  kong、lb等路由转发平台变更数据  生产运营流程线上化统一管理，实现统一线上化流程制定、申请、审批入口。  IaaS、PaaS、SaaS全层级变更轨迹追踪。 GOPS 全球运维大会 2023 · 上海站故障闭环整改故障管理实现故障事前、事中、事后全流程线上闭环管理，提升故障管理质量和效率，降低故障时长及次数，提升业务连续可用率。故障事中调度故障发现故障响应与应急故障改进故障演练故障事前预防故障事后改进监控告警自动化巡检影响判断是否满足业务场景SLO 故障上报问题管理事件上报