ppt文档 智慧IT自动化运维平台建设解决方案 VIP文档

2.09 MB 34 页 4 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
IT 自动化运维平台建设解决方案 目 录 CONTENTS 2 平台解决方案 1 运维现状及分析 3 应用场景分析 4 资源需求 人工运维 自动化运维 智能化运维 AIOps  运维工作主要由人工完成,运维人 员负责机房、服务器选型、软硬件 初始化,服务上下线,配置监控, 盯监控等,基本上是遇到什么问题 解决什么问题。  自动化运维就是把周期性、重复性、规 律性的工作都交给工具去做,具体来说 有应用系统维护自动化,巡检自动化和 故障处理自动化这三个方面;  自动化运维依赖于管理平台,最可终达 到提升运维效率的目的。  AIOps 利用大数据和机器学习技术, 实现海量数据的异常检测和多维度 关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监 测,服务管理和自动化;  进一步帮助 运维人员准确甄别系统 异常,快速定位故障根因,并对潜 在系统风险进行预警,以实现 IT 和业务的持续洞察和改进。 当前 IT 运维的整体发展趋势是向自动化迭代,并向智能化演化; 目前大部分组织的 IT 运维正处在从人工运维向自动化运维的发展阶段; 有部分组织已经基本实现了自动化运维,正在向智能化运维升级,而也已有少量企 业已经构建了初步的智能化运维体系。 IT 运维的总体发展趋势 1 Part 人工运维 自动化运维 智能化运维 AIOps  运维工作主要由人工完成,运维人 员负责机房、服务器选型、软硬件 初始化,服务上下线,配置监控, 盯监控等,基本上是遇到什么问题 解决什么问题。  自动化运维就是把周期性、重复性、规 律性的工作都交给工具去做,具体来说 有应用系统维护自动化,巡检自动化和 故障处理自动化这三个方面;  自动化运维依赖于管理平台,最可终达 到提升运维效率的目的。  AIOps 利用大数据和机器学习技术, 实现海量数据的异常检测和多维度 关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监 测,服务管理和自动化;  进一步帮助 运维人员准确甄别系统 异常,快速定位故障根因,并对潜 在系统风险进行预警,以实现 IT 和业务的持续洞察和改进。 当前 IT 运维的整体发展趋势是向自动化迭代,并向智能化演化; 目前大部分组织的 IT 运维正处在从人工运维向自动化运维的发展阶段; 有部分组织已经基本实现了自动化运维,正在向智能化运维升级,而也已有少量企 业已经构建了初步的智能化运维体系。 IT 运维的总体发展趋势 1 Part 5 如何向新 IT 架构演进?需要开放、解耦架构方案 运维现状及痛点 2 Part 承担了包括实体机、虚拟机、网络设备、数据库、中间件等 1.5 万台主机和数通设备的基础作业维护和应用故障维护工 作。目前通过 ZABBIX (监控) + 业务网管系统(告警)实现监控收集、上报、处理的闭环流程。具体流程如下: 发生告警 值维监控 运维工程师 研发工程师 告警恢复 zabbix 采集到的信息生成 告警 , 输出至业务网管 通过电话、微信方式通知 运维工程师处理 运维工程师分析处理,或 协调研发工程师处理 运维过程缺乏回溯:缺乏对运维操作过程的 管控。处理结果无痕迹,缺乏经验成果沉淀。 日常运维缺乏自动化:缺乏自动周期性作业巡 检任务及故障处理脚本,日常维护作业依靠每 个运维工程师人为判断并执行脚本。 规范性 技术性 问题分析及解决思路 3 Part 1 2 3 周期性任务执行结果无法监控 周期性定时任务执行脚本和配置均由各运维工程师控 制,执行结果无法监控,无系统化的统一管理配置 告警处理过程缺少监控记录 现阶段由运维工程师对告警信息进行定位分析,根据 故障分析结果进行处理。无系统化的根因和经验沉淀。 若发生人员流动,告警无法处理无法进行平滑交接 被动式的告警处理方式,非工作时间告警处理无法 保证在第一时间被处理 非工作时间告警处理传报响应慢 构建自动化运维平台 1. 周期性任务统一管理: 将周期性的日常任务执行和配置通过自动化运维平台来统一 管理 2. 触发性任务实现自愈: 结合故障场景梳理和告警逻辑关联,实现对故障的自动 处理 3. 部分重要指标实现优化: 针对部分故障没有发生,但是场景已经恶化的指标,自 动进行优化处理。 解决 思路 运维管理 - 理想(目标) 呼叫中心 电话受理,自 动识别来电用 户身份 自助服务台 用户 WEB 登录, 提交服务或故 障请求 事件管理 快速响应,解 决突发故障及 请求,在最短 时间内恢复业 务 知识库 IT 基础设 施监控 数据中心机 房监控 问题管理 根源分析,找出根本原 因,避免故障再次发生 变更管理 控制变更可能产生的风 险 配置管理 资产配置全生命周期管 理 项目管理 开发及重大实施项目周期管理 计划任务管理 周期性任务提醒、执行、监督 SLA 服务级别管理 跟踪事件处理失效,达成与客户的服务约定 KPI 与报表 管理 报表输出,关 键绩效指标分 析 CMDB 服 务 器 服 务 器 服 务 器 用户 - 电话服 务或者故障报 告 用户 - 服务台 或者故障报告 服务台座 席 创建事件 单 客户与 IT 主管 IT 主管决 策、优化 改进 达成服务 级别协议 短信邮件通 知 自动生成事件 单 大屏幕 查询知 识 分派 事件工程 师受理并 快速恢复 升级 项目经理 任务工程师 问题小组分 析并根源解 决 申请变更 指派 变更评审委员会 评估、制定变更 计划 变更工程师 变更实施及 发布 更新 管理 配置工程师 配置项管理 目 录 CONTENTS 1 运维现状及分析 2 平台解决方案 3 应用场景分析 4 资源需求 总体规划方案 · 利用大数据与 AI 技术,构建智能化统一运维平台, 分阶段实现 IT 运维的自动化与智能化 4 Part 统一智能化运维平台 数据整合 任务调度 规则管理 智能监控 智能诊断 自动运维 大数据能力 AI 能力 非结构化数据处理 数据建模 / 标注 机器 / 深度学习 规则模型 基于告警及任务指令 基于告警及任务指令 基于技术与业务规则 基于技术与业务规则 基于机器学习模型 基于机器学习模型 智能化 运维 自主化 运维 自动化 运维 一期 二期 远期 根据故障告警及所配置的周期性 任务等明确的指令自动执行运维 工作 基于趋势型等规则,根据指标数 据自动发现故障并自动执行修复 工作 基于历史故障与日志等数据,通过自学 习模型发现潜在问题与风险并自行处理 业务网管 日志平台 Zabbix 大数据平台 机器学习平台  基于历史重大事件 的自动运维  基于历史数据分析 的主动运维……  基于趋势自 动运维  基于趋势扩 容缩容……  基于故障告警自 动执行修复命令  周期性任务脚本 执行…… CMDB 云管平台 工单系统 总体规划架构 5 Part 数据 整合 数据采集 数据抓取 数据导入 数据过滤 数据清洗 数据标注 CMDB 日志平台 云管平台 大数据平台 机器学习平台 对接 系统 告警数据 指标提取 数据导入 能力对接 基础 能力 任务调度 消息管理 规则管理 趋势识别模型 事件识别模型 机器学习模型 业 务 能 力 中 心 监控管理中心 监控对象管理 监控指标管理 监控任务管理 监控告警管理 运维作业中心 资源管理 参数管理 脚本管理 工单管理 任务调度中心 任务创建管理 任务调度管理 任务执行监控 任务执行报告 智能诊断中心 风险类别管理 趋势识别诊断 事件识别诊断 机器模型诊断 规则管理中心 技术规则管理 业务规则管理 规则作业管理 规则模型管理 运维分析中心 告警故障统计 运维作业分析 故障风险报告 系统优化建议 前端 应用 自动化运维门户 运维管理门户 企业微信 大屏监控 一线运维 值班主管 运维工程师 运维主管 主管领导 一阶段 二阶段 三阶段 总体应用蓝图 6 Part 统一智能化运维平台 IT 互联网 大数据 云计算 智能运维监控 创建运维任务 自动运维作业 数据各项整合 深度分析 & 模型学 习 发现故障 / 风险 自主运维作业 风险综合评估 系统优化建议 智能风险识别 数据整合 任务调度 运维作业 规则配置 模型识别 智能诊断 识别、预测 标准数据 任务调度 跟踪评估 机器学习 数据导入 指标载入 维护工程师 值班主管 一线运维 运维主管 生成报告 日志平 台 工单 系统 Zabbix Server 大数据 平台 机器学 习平台 业务 网管 CMDB 云管 平台 全面提升 IT 运维 效率,降低成本 全面提升 IT 运维 效率,降低成本 保障业务连续性 降低技术性风险 保障业务连续性 降低技术性风险 落地智能化应用 推动智能化升级 落地智能化应用 推动智能化升级 全面精准风险评估 推进系统架构优化 全面精准风险评估 推进系统架构优化 自动化运维平台 Zabbix Server 值维监控 运维工程师 运维管理 职能管理 管理监督 应用运维 告警同步 业务网管 工单系统 脚本下发 执行命令 创建工单 工单状态同步 告警管理服务 脚本管理服务 参数管理服务 任务管理服务 工单管理服务 平台建设目标:实现高效、安全、规范化的运维与管理,提高工作效率,降低人工成本 规则引擎 本期建设方案 7 Part 告警管理服务 告警管理服务  同步业务网管告警信息 脚本管理服务 脚本管理服务  实现自动化脚本集中管理 任务管理服务 任务管理服务  设置定时任务并自动化执行;  责任人对任务执行结果进行确认。 工单管理服务 工单管理服务  针对自动化任务需要沉淀的故障生成工单 参数管理服务 参数管理服务  实现系统接口、邮箱配置等管理服务 流程引擎 消息引擎 系统管理 本期功能架构 8 Part 数据 整合 数据采集 数据抓取 数据导入 业务网管 Zabbix Server 工单系统 对接 系统 告警同步 工单状态同步 基础 能力 用户管理 任务调度 消息管理 日志管理 系统管理 安全管理 业 务 能 力 中 心 监控管理中心 监控指标管理 监控配置管理 告警任务管理 告警列表 任务调度中心 创建任务 任务类型 任务删除 审批管理 告警统计 系统对接 运维作业中心 脚本导入 脚本导出 脚本新增 脚本编辑 脚本查询 关联参数 新建参数 参数编辑 参数删除 导出数据 工单生成 工单查询 任务克隆 任务调度 任务执行 执行监控日志 任务结果确认 任务统计 运维作业统计 运维作业分析 前端 应用 自动化运维门户 运维管理门户 企业微信 大屏监控 一线运维 值班主管 运维工程师 运维主管 脚本下发 执行命令 创建工单 数据采集 整体流程 9 Part ① 业务网管平台收集到告警信息后,将告警信息推送到自动化运维平台; ② 自动化运维平台根据规则服务和调度配置,判断治愈方案; ③ 自动化运维平台调用 zabbix server 发送执行指令,监控执行过程; ★ 对于需要生成故障工单的告警,自动推送至工单系统,工单系统处理完成后完成闭环处理结果。 数据流程 10 Part 反馈执行结果 自动化运维平 台发送指令 业务网管产生 告警信息 发送 告警 业务网管 工单系统 Zabbix 2 2 找到指令 未找到指令 2 2 2 2 需生成工单 被监控对象 发送执行指令 1 1 3 3 自动化运维平台 4 4 值维 / 运维 工程师 5 5 结果确认 执 行 后 的 指 标 获取权限 3 3 4 4 角色分析 11 Part PC 端 企业微信 管理 / 职能 人员 告警推送 告警分析 告警查询 指令下发 任务执行 结果确认 脚本配置 新建任务 脚本配置 任务执行 结果确认 告警推送 告警查询 执行任务审批 执行过程管控 执行结果查看 执行痕迹查看 触发性任务 周期性任务 周期 / 触发性任务 定时设置 值 维 / 运 维工程 师 脚本管理方案 12 Part 方案一 方案二 优点 缺点 优点 缺点 1 、脚本固化,出错概率较低 2 、对 zabbix agent 账号所需 权限较小,无需提前赋权 1 、灵活性低,修改一次需要 再次全网服务器同步 2 、脚本配置变更由运维工程 师控制,需单独赋权后作批量 部署 3 、脚本存放在服务器端,有 被篡改的风险 1 、脚本集中化管理可管可控 2 、灵活高效:脚本需要调整 时,编辑后即时生效 3 、风险高的脚本可先经管理 人员审批后配置 4 、脚本执行过程详细记录, 可追溯 1 、对 zabbix agent 账号所需 较高的执行权限,需提前赋权 Zabbix server 发送指令的方式有两个方案: 方案一:执行脚本提前预置在各服务器端侧,作业平台与 zabbix server 进行指令通讯 方案二:执行脚本在自动化作业平台维护和配置,客户端通过接收 zabbix server 远程命令执行 ★ 建议采用方案二:由自动化维护平台统一负责脚本管理,需要执行时远程命令的方式进行脚本执行。 功能设计 - 任务管理 13 Part 任务管理主要针对周期性任务,设置定时触发策略,并支持执行脚本的关联、执行任务的启用 / 禁用、 执行结果的确认等 功能设计 - 告警管理 14 Part 告警管理中的告警信息来源于业务网管平台,支持执行脚本的关联、执行任务的启用 / 禁用、执行结果 的确认等。 功能设计 - 脚本管理 15 Part 脚本管理实现脚本的统一管理,周期性任务及触发性任务通过关联脚本并触发任务策略,实现脚本的自动化执行, 脚本类型支持: shell 、 bat 、 Perl 、 Python 、 pawershell 。 功能设计 - 工单管理 16 Part 当任务需要生成故障工单时,自动发送工单给工单系统,工单派发的同时,系统根据策略自动执行任务。 功能设计 - 参数管理 17 Part 参数管理主要指系统变量等全局性参数管理。 企业微信能够快速收到任务的执 行情况:  任务开始执行:运维人员通 过企业微信能够及时获取所 设置或所触发的任务开始执 行的时间;  执行结果确认:运维人员能 够通过企业微信进行自动化 执行结果的查看并确认。 功能设计 - 企业微信端 18 Part 目 录 CONTENTS 2 平台解决方案 1 运维现状及分析 3 应用场景分析 4 资源需求 周期型任务业务流程 19 Part Zabbix Server 自动 化运 维平 台 新建周期任务 周期性 脚本配置 获取服务器配 置信息 脚本与执行 用户关联 定时任务设置 任务与脚本 关联 发送执行脚本 及执行周期 任务执行 结果确认 接收指令 执行过程监控 并接收执行结 果 Zabbix 客户端 接收执行指令 脚本执行 运维工程师 主管 / 值 维 / 运维工程 师 周期型任务应用场景 1- 磁盘清理 20 Part 1. 对服务器进行分批执行,可先 10 台服务器进行配置,待运行 1 个周期后获取执行结果 2. 对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。 场景描述 日志、备份文件等根据业务需求超过保存周期,可通过脚本定时清理或迁移至目标服务器 业务流程 1. 运维工程师梳理业务场景:各业务系统运维工程师梳理业务场景、执行脚本、执行周期、执行服务 器、执行预期结果; 2. 云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置 agent 执行用户并拥有执行权 限; 3. Zabbix Server 提供 API 接收指令及周期命令 4. 自动化运维平台提供 API 接收 zabbix server 定时任务执行的结果反馈 执行计划 周期型任务应用场景 2- 时间同步 21 Part 1. 对服务器进行分批执行,可先 10 台服务器进行配置,待运行 1 个周期后获取执行结果 2. 对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。 场景描述 时间同步分为系统时间和硬件时间,时间准确性关系到话单及计费准确性。可通过脚本定时与时间服务器同步 业务流程 1. 运维人员整理各服务器 ntpd 服务服务开启状态 2. 云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置 agent 执行用户并拥有执行权限; 3. Zabbix Server 提供 API 接收指令及周期命令 4. 自动化运维平台提供 API 接收 zabbix server 定时任务执行的结果反馈 执行计划 治愈型任务业务流程 22 Part 业务 网管 自动化运 维平台 Zabbix Server 脚本选择 获取服务器 配置信息 脚本与执行 用户关联 任务与脚本 关联 发送远程指令 任务执行 结果确认 执行过程监控并 接收执行结果 告警接收 规则判断 治愈 是 返回业务网管 否 告警推送 接收指令 Zabbix 客户端 接收指令 脚本执行 生成告警 工单 系统 主管 / 值 维 / 运维工程 师 生成工单 治愈型任务应用场景 1- 微服务重启 23 Part 业务描述 Zabbix 监控到微服务不能正常运行,自动化运营平台重启宕机的服务 业务需求 1. 业务网管推送告警信息至作业平台:包含告警服务器 ip 、告警业务类型、告警联系人、联系方式、 告警级别,针对每一个告警进行治愈配置 2. 运维工程师提供各业务系统部署服务器、部署路径,启动脚本,日志存放位置 3. 自动化运维平台提供告警工单接收接口,业务网管告警信息推送 4. 云管平台提前配置服务器执行用户:需云管平台提前在各服务器配置 agent 执行用户并拥有执行权限; 5.Zabbix Server API : zabbix 提供接口拉取脚本及接收执行指令 6. 自动化运维平台提供 API 接收 zabbix server 定时任务执行的结果反馈 执行计划 1. 治愈性告警第二阶段执行 2. 对服务器进行分批执行,可先 10 台服务器进行配置,待运行 1 个周期后获取执行结果 3. 对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。 治愈型任务应用场景 2- 主机进程重启 24 Part 业务描述 Zabbix 监控到服务器某进程不能正常运行,自动化运营平台重启进程服务 业务需求 1. 业务网管推送告警信息至作业平台:包含告警服务器 ip 、告警业务类型、告警进程名、告警联系人、 联系方式、告警级别,针对每一个告警进行治
下载文档到本地,方便使用
共 34 页, 还有 8 页可预览, 继续阅读
文档评分
请文明评论,理性发言.