pdf文档 中国联通数字化监控平台稳定性保障工具落地实践 VIP文档

9.74 MB 24 页 0 下载 21 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
中国联通数字化监控平台稳定性 保障工具落地实践 曹家豪 联通软件研究院 项目经理 目 录 CONTENTS 稳定性保障工具演进历程 1 稳定性保障工具落地场景 及成效 2 当前面临的挑战及未来展望 3 01 稳定性保障工具演进历程 GOPS 全球运维大会 2023 · 上海站 数字化转型中系统安全生产痛点问题 工具职责范围的演进:覆盖广度及深度不断增加 单系统 应用维度根因定位 几个 核心系统 被动应急 故障统一调度 系统具备应急预案 故障点人工恢复 统一变更入口 工具建设 集团+省分 几百套系统 跨系统全链路 定界诊断 主动预防 集团+分子公司 整体态势感知 混沌工程 故障自愈 变更追踪 变更管控 体系建设 故障发现 与诊断 故障恢复 与应急 故障预防 故障调度 体系演进 分布式架构挑战 运维生态挑战 数智运维挑战  端到端稳定性保障体系缺失,自动化、智能化故障处理能力不足  故障处理过多依赖专家经验,故障没有沉淀为有效的资产  故障处于被动防御,救火,运维大数据未被合理价值挖掘  工具重复:工具按烟囱式建设,能力分散  能力割裂:运维工具能力割裂不成体系  数据孤岛:应用、数据库、中间件、云平台、 基础设施各管自身  维护对象:系统节点、微服务数量几何级数增加  调用关系:从简单对应到极其复杂,人力维护无法胜任  数据分片、异地存储,传统维护模式难以为继 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 GOPS 全球运维大会 2023 · 上海站 稳定性保障工具建设历程 • 工具化建设 2019 • 产品化建设 2020-2021 • 体系化建设 2022-2023 稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规 划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转 变的过程。 监 控 工 具 测 试 工 具 运 营 响 应 工 具 监 控 管 理 产 品 线 稳 定 性 测 试 产 品 线 配 置 管 理 产 品 线 基 础 能 力 线 自 动 化 运 维 产 品 线 故 障 管 理 产 品 线 制 度 规 范 保 障 组 织 架 构 保 障 平 台 工 具 保 障 运 营 机 制 保 障 工具化 产品化 体系化 自动化 智能化 无人值守 GOPS 全球运维大会 2023 · 上海站 稳定性保障工具建设历程 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作,严格把控七个关口,将安全生产 稳定性保障左移,在入网控制时介入,对入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、 故障改进提供端到端工具支撑。 核心业务链路深度治理 做实安全生产,提升IT系统稳定性 架构设计 研发测试 生产变更 运营支撑 稳 定 性 架 构 设 计 版 本 管 理 变 更 管 理 链 路 识 别 监 控 管 理 故 障 预 防 容 量 管 理 故 障 发 现 故 障 响 应 故 障 定 位 故 障 应 急 研 发 测 试 故 障 改 进 故 障 演 练 重 保 管 理 设计关 验证关 变更关 应急关 上线关 监控关 优化关 制度规范保障 运营机制保障 组织架构保障 平台工具保障 02 稳定性保障工具 落地场景及成效 GOPS 全球运维大会 2023 · 上海站 稳定性保障工具聚焦领域 数字化监控 平台聚焦 全栈可观测性 1、涵盖业务层、前端触点层、网关层、应用层、组件 层、资源层的全链路追踪 2、指标、链路追踪、日志三位一体斧实现故障快速发 现、根因准确定位、故障快速恢复、问题深度刨析 1、全层级变更追踪 2、任务流程线上化绘制、管控,统一入口管理调度 3、技术监督实现变更管控 1、故障事前制定应急预案与应急演练 2、故障事中形成故障、监控、调度态势感知能力,实现 业务快速抢通 3、故障事后治理追踪全流程线上化闭环管理,确保故障 经验有效沉淀,整改措施有效落地 1、系统深度健康体检,全链路性能隐患分析 2、系统容量隐患深度分析 3、统一隐患闭环治理 告警、诊断、自动化作业能力组合贯穿‘监’与 ‘控’,实现多场景故障自愈 1、全链路读、写压力测试、评估链路容量水位 2、接口、UI自动化巡检及时发现业务异常 变更追踪与管控 故障自愈 隐患管理 稳定性测试 故障管理 GOPS 全球运维大会 2023 · 上海站 可观测性建设:指标 实现涵盖业务、前端触点、应用、云平台、组件、基础资源的全层级指标数据采集及标准化,统一接入、存 储、分析处理标准,提供可观测性能力数据基础。  业务发展量、业务流程积压量、业 务突变异常、业务关键稽核点等  核心业务场景、核心业务环节、核 心业务链路拓扑  白屏、慢响应、弹窗日志等 核心业务 系统方自定义 Promethues exporter 调用链接口业务打标 告警配置 应用 核心场景、核心业务链路 人工梳理上报 调用链agent采集 应用指标、trace 网关 中间件 数据库 主机 网络 Promethues exporter 前端触点 浏览器 JS埋点 APP SDK 云平台 snmp协议+ Promethues exporter 云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容 器指标  网关:KONG、LB、Nginx等  中间件:Kafka、MQ、Zookeeper 等  数据库:MySQL、Clickhouse、 Elasticsearch等  主机:内存、磁盘、CPU、网络指 标等  网络出、入流量、并发会话数、连 接数等  数据中心、网络设备、主机拓扑映 射关系 统 一 标 签 规 范 标 准 + 自 定 义 监控告警 数据可视 故障诊断 隐患分析 故障预防 ... Clickhouse 应用时序指标、trace、 方法调用明细 Prometheus 业务、服务、组件、资源 时序指标 Neo4j+Redis 拓扑数据 GOPS 全球运维大会 2023 · 上海站 可观测性建设:链路追踪 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清 单级根因定位,接入应用6000+,日均处理600亿数据。 汇总数据中心 告警收敛 链路自动拓扑 根因定位 业务、应用维度链路展现 应用性能分析 告警配置 Neo4j Collector- server Flink Clickhouse kafka 系统D agent 系统E agent Nacos Redis CMDB 实例id、容器id 主机ip、机房 网络设备 云平台 告警计算 聚合后指标 链路计算 清单查询 分数据中心 Collector- server 系统A agent 系统B agent 系统C agent Flink kafka 告警计算 指标聚合 明细分析 Nacos Clickhouse 存储集群 跨数据中心链路自动串连 业务报文查询 调度转发节点 存储集群 查询 业务配置打标 应用根因定位 应用性能分析 链路调用清单明细,方法级分析 链路自动拓扑 全层级告警墙 应用实例、主机串联 GOPS 全球运维大会 2023 · 上海站 可观测性建设:日志分析 通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演 进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低 和不准的问题,提升故障和工单问题定位效率。 日志采集 主机 组件 应用 其他 Agent SDK 日志应用 全文检索 模版提取 过滤脱敏 日志监控 异常检测 报表可视 日志处理、存储、告警判定 K a f k a 流式worker 处理 分布式存储 异常日志判定 数据存储 Clickhouse Pushgateway Prometheus 日志探针管控 采集任务管理 日志处理流程配置 智能日志模版提取 GOPS 全球运维大会 2023 · 上海站 可观测性建设:一键故障诊断 在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机层、网络层纵向贯通,结合云化CMDB关 联定位,建立故障传递模型,实现全层级一键诊断,端到端快速定位问题根因,当前覆盖16套核心系统。 可观测 单AGENT 指标、报文日志、链路三位一体 链路Tracing 指标 Metrics 报文Logs A B C D  调 用 量  超 时 量  异 常 量  失 败 量  . . .  请 求 报 文  响 应 报 文  异 常 日 志  . . . B A C D X 2. 定位根因应用 利用图数据库关系在海量 告警应用中快速定位根因 服务,如150个服务告警 根因应用缩小到5个左右。 1. 发现业务影响 触点+业务监控评估影响 范围。 开户 缴费 6. 定位网络问题 定位网络及接入设备的问题。 防火墙 路由器 负载均衡 marathon-lb KONG 3. 定位根因实例 通过核密度估计算法和 DBSCAN聚类算法判定 根因实例。 主机3 主机1 主机2 分布于 Redis1 Redis2 Redis3 4. 定位根因组件 扫描根因应用调用的组件调用链指标、组件 指标、组件告警判定根因组件。 智能诊断 六步定位法 实现全层级一键诊断 调用 服务X有3个实例,X3出现问题 x1 x3 x2 5. 定位根因主机 通过云化CMDB获取实例、组件与主机的 关系,对主机的指标与告警进行扫描。 Redis集群3个实例,2出现问题 停开机 交换机 主机进程 Top 变更关联 辅助信息 日志关联 GOPS 全球运维大会 2023 · 上海站 可观测性建设:一键故障诊断案例 当前一键故障诊断率达68%。 应用实例事件异常: 2023-03-XX XX:XX 应用实例所在主机CPU使用率过高引发故 障根因 Redis事件异常: 2022-08-XX XX:XX redis节点夯死,触发高可用,切换 master,大量流量进入导致redis性能下 降,上游应用大面积告警是故障根因 主机宕机事件导致lb异常: 2022-08-XX XX:XX lb所在主机宕机导致lb实例销毁重启服务 波动是故障根因 网络事件异常: 2022-03-XX XX:XX 交换机带宽使用率指标打满引起访问受限 是故障根因 ES事件异常: 2022-05-XX XX:XX es进程负载率突增导致上游服务连接超时 是故障根因 RDS事件异常: 2023-04-XX XX:XX rds慢sql突增导致节点状态异常是故障根 因 快立方内存数据库事件异常: 2023-02-XX XX:XX 根因应用下游调用快立方告警异常是故障 根因 Oracle事件异常: 2023-02-XX XX:XX oracle会话数突增导致应用连接超时增多 是故障根因 GOPS 全球运维大会 2023 · 上海站 故障自愈 告警+故障诊断+自动化运维+应急能力,实现事件根因自动诊断,诊断结果结合故障知识树分析,自动完成应 用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障自愈场景,月均自愈作业执行 1000+次,自愈操作平均执行耗时3s内。 2023-09-07 16:20:45 应用告警 2023-09-07 16:20:45 自动触发诊断 2023-09-07 16:20:47 推送实例查杀、重启工单 2023-09-07 16:21:29 运维人员确认操作 2023-09-07 16:21:34 应用恢复 从 收 到 告 警 到 恢 复仅用47s 先查异常实例 -> 登 录 云 平 台 执 行 查杀操作5min 节省4分钟 外 部 能 力 探 针 能 力 告警 信息 运维专家 任 务 调 度 平 台 自 愈 工 单 生 成 告警 配置 沉淀 关联 自 动 化 作 业 平 台 操作/脚本 作业编排 执行计划 运 维 场 景 作业调度执行引擎 运维PaaS 平台 基础资源运维 场景 应用系统运维 场景 业务服务运维 场景 云平台 自动化运维 agent (物理机) 自 愈 工 单 审 批 推送 审批 智能自愈 判断逻辑 引擎 GOPS 全球运维大会 2023 · 上海站 系统隐患预防 从容量隐患、链路隐患、系统健康度视角,定期开展隐患评估与预测,识别潜在风险隐患,隐患闭环治理,保 障系统健康稳定和对资源利用的最优化。 B A C D 深度性能问题分析 定位性能瓶颈节 点初步定位 看表象  链路节点RT增长->初步定位瓶颈节点  trace明细分析 -> Gap等待时间长、 自耗时高、慢SQL...  链路调用量 -> 重复调用问题 …… 解释表象  线程池、连接池是否打满  慢SQL分析  内部方法自耗时高原因  重复调用是否可优化 …… 整体报告生成 推动治理 性能治理  压测结论、问题、论证、优化方案  与研发侧确认问题、推动治理  复测 高风险指标 中风险指标 低风险指标 服务层检测  服务超时率  服务异常率  服务调用量  服务平均响应时长 …… 组件层检测  ES健康节点/堆内存使用率/...  REDIS内存使用率/内存碎片比率  KAFKA消息积压/topic副本 …… 资源层检测  内存使用率  cpu使用率  磁盘使用率 …… 页面层检测  页面弹窗数  页面JS错误  页面平均响应时长 …… 健康检测引擎 评分与趋势 实时监控体检 风险问题闭环整改 性能对比 隐患报告定时推送 运营闭环管理 1 3 2 容量标准制定 目标容量评估 容量问题优化  全链 路压测 - > 容量标准达标、 链路性能瓶颈评 估...  日常流量方法级 分析 -> 抖动、 不达标率...  指标实时监控 -> 容量风险监控... ……  对照保障目标, 形成容量优化提 升项  制定容量优化方 案计划  容量再评估直至 符合预期容量标 准要求 ……  业务、应用、组件、基础 资源容量水位模型 GOPS 全球运维大会 2023 · 上海站 系统隐患预防:系统健康检查案例 自动获取全层级核心黄金指标,通过AI算法分析,优化层级实体健康度算法模型,进行全层级隐患分析,实现 系统健康状态档案化管理,分析系统潜在问题,保障核心业务连续性。 系统健康实时评分 高、中、低风险隐患压降 隐患派单闭环治理 前 端 触 点 层 、 应 用 层 、 组 件 层 、 资 源 层 系统全层级实时健康度评分 健康度评价详情 系统风险隐患闭环治理 系统风险隐患持续压降 风险项对比 1 0 0 高 风 险隐患项 6 0 0 0 + 高风险隐 患项 压降98%+ cBSS系统高风险隐患治理成效 GOPS 全球运维大会 2023 · 上海站 稳定性测试:端到端全链路压测 增强调用链探针能力,使之具备流量染色与流量隔离能力,实现全链路读、写流量压测能力,有效评估业务 容量水位,全链路节点性能瓶颈定位。 监控压测一体示意图 collector 压力机 service1 one-agent 主要能力 service3 one-agent service2 one-agent MQ 生产Topic 影子Topic mysql 生产库/表 影子库/表 调用链数据 处理 全链路压测 数据处理 数据预处理 流量回放 压测报告档案化管理 发压执行 探针管理 多云环境 调用监控数据、压测数据 压测流量 调用监控数据、压测数据 压测写流量 创建压力机 service4 接口挡板 one-agent 数据统一存储 全流程调用链监控 生产流量 压测 调用链 GOPS 全球运维大会 2023 · 上海站 稳定性测试:全链路隐患分析 定位性能瓶颈节点,结合trace、实例、应用指标进行深度分析,得出优化结论。 链 路 节 点 RT 增 长 指 数 与 抖 动 分 析 定位性能瓶颈节点 节 点 tr a c e 深 度 分 析 下游调用阻塞问题 慢SQL问题 SQL重复调用问题 HTTP连接池配置问题 活跃线程数分析 容器负载分析 主机负载分析 架构维度重复调用问题 GC分析 上下游应用调用分析 实 例 、 应 用 深 度 分 析 方法执行自耗时高问题 GOPS 全球运维大会 2023 · 上海站 变更管理 任务调度 变更追踪 PC +移 动 端 审 批 能 力 在线 流程 绘制 业 务 系 统 API 自 动 化 运 维 统一 流程 申请 入口 OA 数字 化监 控平 台工 作台 任务 调度 平台 钉钉 多平台 审批 自动化 处理 应用层 接入层 业务层 制品层 资源层 组件层  核心业务参数表变更数据  配置中心相关参数变更数据  云平台容器变更数据  核心配置变更数据  实例变化数据  主机核心参数配置变更数据  网络层防火墙、交换机、路由等网络  设备的变更数据 kafk a 数据卸载 Webhook 监听事件总线 k8s-apiserver k8s-kube- eventer 维护方API 组件变更操作 采集器 (自研、官方)  镜像仓库镜像变更数据  流水线变更数据  kong、lb等路由转发平台变更数据  生产运营流程线上化统一管理,实现统一线上化流程制定、申请、审批入口。  IaaS、PaaS、SaaS全层级变更轨迹追踪。 GOPS 全球运维大会 2023 · 上海站 故障闭环整改 故障管理实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数, 提升业务连续可用率。 故障事中调度 故障发现 故障响应与应急 故障改进 故障演练 故障事前预防 故障事后改进 监控告警 自动化巡检 影响判断 是否满足 业务场景SLO 故 障 上 报 问 题 管 理 事 件 上 报
下载文档到本地,方便使用
- 可预览页数已用完,剩余 22 页请下载阅读 -
文档评分
请文明评论,理性发言.