企业IT统一智能运营管理解决方案
4.92 MB
33 页
0 下载
17 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
企业 IT 智能化统一运营管理解决方案 -- 企业 IT 系统监控运维管理平台 2 目录 / Contents 业务背景概述 01 02 解决方案概述 1 业务背景概述 4 IT 运维趋势 · 我们正在走入万物互联的数据时代 运维在人类未来的生产生活中的 作用会越来越重要。预计到 2020 年全球将有 500 亿到 1000 亿的 IT 设备,这些设备会承载无数的 服务,涵盖互联网、金融、物联 网、智能制造、电信、电力网络、 政府等等的生产生活的方方面面。 运维要做的是保障业务能够可靠 高速高效安全的运转,因为它会 直接影响到业务的收益和成本。 万物互联 & 数据时代 5 IT 运维重要性 · 运维是企业业务发展的基础保障 IT 系统架构 机房环境 硬件设备 网络 中间件 业务 数据 系统 应用 IT 监控运维 业务运营 人 员 方 法 流 程 工 具 可用性 成本 连续性 性能 体验 设备故障 系统异常 系统故障 系统变更 企业 IT 监控运维是企业业务正常与高效运转的基础保障 系统监控 维修更新 业务保障 应用反馈 6 IT 运维现状 · 被动救火式运维模式,业务风险高、运维人员疲于奔命 基础设施 网络 存储 服务器 虚拟化 数据库 中间件 业务应用 离散式 人工化 被动式 高风险 低评价 • IT 设备规模大且分散、管理非 常困难 • 缺少可视化管理 & 自动化管理 手段 • IT 环境异构、业务系统繁多 • 无法快速适应复杂环境设备 的监管 • 运维人员能力层次不齐,服务 范围广 • 缺少规范的、自动的 IT 运维 流程化管理 • 业务负载逐年增加,无法确定功能完整可用性 • 业务形态更加多种多样,部署环境愈加复杂 • 为了适应发展的需求,业务调整日趋频繁 • 大数据、云计算、物联网、人工智能等技术的 快速演进以及应用,对运维团队提出了更高的 要求 7 IT 运维挑战 · 随着技术以及企业信息化与数字化的迅猛发展,给 IT 运维带来了全新的挑战 业务变化越来越快 系统变更越来越频 新系统上线越来越多 业务访问量快速增长 用户体验要求越来越高 业务处理时效性更高 业务中断容忍度更低 高层对 IT 部门考核更严…… 系统架构越来越复杂 故障类型越来越多 系统负载更大、故障风险高 故障排查、修复更难 技术快速演进与新技术应用 人员技术能力与经验不足 人员成本越来越高 知识经验无法沉淀…… 外部 挑战 内部 挑战 规模更大 要求更高 变化更快 排障更难 外部 挑战 内部 挑战 && 8 IT 运维需求 · 企业对 IT 运维提出新的需求 运维视角 研发视角 业务视角 技术栈越来越复杂,越来越难于监控 各产品线频繁发布,各层面问题不断,传统的监控 系统无法提供问题定位能力 多种类型的监控、告警不统一,反而引出额外的关 注点 提供开箱即用的监控平台,不需要挤占研发成本 提供应用层面的监控能力,帮助研发团队提高业 务平台质量 提供基于日志、链路的监控、告警能力,从而能 无侵入的添加业务监控埋点 面对激烈的市场竞争,希望业务系统更加稳定、迭 代更加快速 提供业务监控、告警能力,从而及时获取业务增长、 业务异常情况 提供异常问题的全生命周期查看、跟踪,从而评估 业务损失等后续改进措施 提供统一的标准,用于衡量业务平台的质量, 从而有针对性的提出规范 提供统一、开放、开箱即用的监控、告警平 台,减少重复投资、提高监控覆盖面,提升 整体运维质量,从而提高企业竞争力 企业视角 9 因此,构建智能化、主动式的 IT 监控与运维能力将成为企业的必然选择 被动救火式维护 智能主动式监控 定时粗略巡查 等待故障报告 人工故障处理 实时全面监控 分散维护系统 集中监控系统 自动故障处理 提前故障预警 随着业务对 IT 运维提出的要求越来越高,原来传统的被动救火式的 IT 运维模式已经不能 满足企业的要求,无法为业务的发展提供保障 只有借助当前先进的技术,构建主动巡防式的 IT 监控与运维体系,能够提前预防并智能 化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对 IT 的要求 高风险 低评价 离散化 人工化 低风险 高价值 一体化 智能化 2 解决方案概述 11 11 设计思路 · 通过体系化 - 自主化 - 自动化 - 智能化设计,助力 IT 运营降本增效 企业 IT 统一智能运营管理平台 一期 二期 远期 业务网管 日志平台 Zabbix 大数据平台 机器学习平台 基于故障告警自动执 行修复命令 周期性任务脚本执行 … 基于趋势自动运维 基于趋势扩容缩容 …… 基于历史重大事件的 自动运维 基于历史数据分析的 主动运维…… 智能化 自主化 自动化 一体化 基于告警及任务指令 基于告警及任务指令 基于技术与业务规则 基于技术与业务规则 基于机器学习模型 基于机器学习模型 根据故障告警及所配置的周期性任 务等明确的指令自动执行运维工作 基于趋势型等规则,根据指标数据 自动发现故障并自动执行修复工作 基于历史故障与日志等数据,通过自 学习模型发现潜在问题与风险并自行 处理 构建 IT 一体化运营能力 构建 IT 一体化运营能力 构建从基础设备、系统、业务的统 一监控,实现业务系统全面运营 CMDB 云管平台 工单系统 一期 12 12 管理体系 · 构建面向业务的主动式统一运营理体系 构建统一 IT 运营管理体系,对基础设备、系统、业务进行统一运营管理,提供 IT 运维监控、业务可视化监控、业务端到端管 理、应用质量保障等多个领域的综合运维管理能力,促进中心 IT 运营降本增效。 统一资源管理能力 资源 数据 采集 日志 统一监控管理能力 监控 规则 告警 推送 统一运维操作能力 流程 工具 操作 配置 运维人员 综合保障 & 精细化运维能力 业务级可视化运维 用户感知 统一运维流程管理能力 流程规范 流程监控 全流程业务管理能力 业务级运维管理 管理人员 构 建 面 向 业 务 的 数 据 驱 动 的 主 动 式 运 维 • 以数据驱动运营管理,辅助 运营运维决策; • 利用数据可视化技术展示综 合运营情况,提供统一运营 管理视图,掌握运营态势。 • 构建闭环运维管理,明确职 责分工,保障系统稳定运行; • 固话化运维流程、实现运维 流程电子化、移动化; • 全链路质量管控,业务服务 实时监控与分析,保障业务 服务稳定运行。 • 对物理、逻辑、应用、业务 资源的全面管理; • 实现对设备、数据、系统等 统一监控运营保障; • 对日常运维操作通过编排, 任务定制形成操作场景,实 现自动化处理故障恢复。 决策人员 统一运营分析管理能力 运营分析 统一运维监控管理视图 管理视图 综合视图 个人视图 数据挖掘 日常报表 流程管理 业务链管理 13 13 建设目标 · 实现 IT 运维工作目标与组织业务目标的融合管理 组织 制度 工具 建设目标 • 统一监控 • 智能运维 • IT 运营管理制度 • IT 运营管理流程 • IT 运营管理技术 规范标准 • …… • IT 服务台 • 服务支撑组 • 服务协调组 通过监控运维人员组织、制度及 工具的建设和完善,构建面向“设 备 - 系统 - 业务” 的主动式统一 IT 运营管理体系,保障各信息系统 稳定性和业务的连续性,实现 IT 监控运维工作目标与组织业务目 标的融合管理。 运维目标:系统稳定性、数 据完备性保障 业务目标:业务持续、稳定、 高效运转 14 14 总体定位 · 利用大数据与 AI 技术,通过 IT 设备与系统运行指标数据的深度挖掘,实现智能化 IT 监控与运维 预防 •查找潜在风险,提供主动预防策略 预测 •构建模型,预测未来趋势 分析 •分析历史数据辅助根源问题分析 整合 •整合历史监控数据,辅助 IT 系统综合管理 监控 •监控当前 IT 系统整体运行的状态 企业 IT 统一智能运营管理 以大数据分析能力支撑的 智能 IT 监控运维管理平 台 机器数据分析 传统 ITSM 、 APM 、 NPM 、 SOC 、 Cloud Management 保 障 业 务 、 降 低 风 险 、 提 效 升 率 构 建 智 能 化 运 维 体 系 自主化 智能化 多维度 精细化 一体化 可视化 15 15 总体蓝图 IT 统一智能运营管理 IT 物联网 大数据 云计算 智能故障分析 大屏统一监控 快速故障修复 信息推送与告警 故障报告 数据汇集 深度分析 发现故障 / 风险 数据分析 可视化展示 信息推送 报表管理 资源管理 智能监控 运维流程管理 操作管理 运营分析 调整算法 查收报告 整体监控 信息配置 处理告警 处理故障 设置任务 数据采集 主动探测 告警、修复 识别、预测 实时任务 定时全面 多维智能 基础能力 CPU 、存 储、网络 资源数据 中间件、 数据库、 应用服务 企业 IT 统一智能运营管理方案基于大数据技术,参照 ITSS 、 ITIL 等技术与行业标准,为企业(单位)注入业务化、规范化、智 能化的系统运营与维护能力,助力构建完善、科学的平台运维体系,以确保整个业务的高效运营。 统一门户 设备 网络 存储 主机 中间件 应用 日志 链路 业务 16 16 总体架构 · 基于“统一技术 + 业务中台”架构设计,支撑“统一规划 + 分步实施“的建设模式 监管 对象 设备 网络 系统 中间件 业务 / 应用 日志… 后台 计算资源 存储资源 网络资源 标准接口 中 台 基础 能力 核心 能力 平台管理 组织管理 用户管理 角色管理 权限管理 配置管理 日志管理 运维管理中心 智能监控中心 资源管理中心 运营分析中心 告警管理中心 AI 算法引擎 流程管理引擎 分布式框架 分布式存储 搜索引擎 分布式缓存 服务调度 流处理引擎 消息引擎 数据共享服务 前 台 统一 门户 PC 端 移动端 大屏 统一运维管控平台采用中台技术架构,整个架构核心由基础能力平台、核心能力平台及统一门户组成。 管理人员 运营人员 运维人员 普通人员 17 17 功能架构 用户管理 系统管理 权限管理 参数配置 流程管理 日志管理 消息管理 指标采集 数据管理 数据清洗 探伤管理 数据管理 数据模型 算法管理 任务调度设置 配置管理 清洗规则配置 监控模型配置 告警规则配置 诊断知识配置 运维知识配置 业务管理 监控应用管理 资源管理 监控系统管理 监控对象管理 监控设备管理 监控任务管理 监控管理 监控模型管理 监控记录管理 监控指标管理 告警消息管理 告警管理 告警事件管理 告警处理分派 告警规则管理 诊断任务管理 诊断管理 诊断知识确认 诊断结果确认 诊断知识管理 运维任务处理 运维管理 自动运维管理 运维记录管理 运维知识管理 故障处理管理 故障管理 人工故障登记 故障汇总管理 告警故障确认 监控告警处理 应用门户 故障管理分析 运维任务管理 大屏监控 大屏监控 数据统计 18 18 总体流程 系统具备智能化的 IT 设备与系统(故障 / 风险)智能化监控,及自主化运维能力,不仅可以及时发现各类故障以及潜在的 故障风险,还可以在确诊故障后进行主动的故障修复处理,实现 IT 运维工作的智能化与自主化。 监控数 据采集 指标数 据清洗 故障告 警监控 设备故 障告警 故障风 险告警 智能故 障诊断 故障原 因确诊 自动故 障修复 人工故 障修复 人工风 险确认 告警事件库 故障库 人工故 障处理 发现 故障 识别 风险 智能风 险诊断 故障原 因疑诊 人工执 行修复 任务 派送 自动执行 任务派送 任务 派送 确认 故障 按照给出的解决 方案执行即可 原因诊断,处理建议 原因诊断,处理建议 清 洗 规 则 监 控 模 型 诊 断 知 识 库 机器学习素材库 自动生成监控等规则 指标数据库 诊 断 知 识 库 19 19 统一门户 · 面向不同角色与场景,提供可视化的集中监控应用,全面感知系统健康度 统一门户以使用角色和场景展现统为主线,面向不同使用者特定场景,实现对业务、系统资源或能力的“可视”、“可控”、 “可追溯”,分角色分权限向决策层、管理、基层维护人员提供统一的运维视图。而数据可视化支持 PC 、大屏、手机等多端 展示,让不同人员可以实现随时、随地的可视化的平台运维管理。 01 统一门户 提升效率 02 数据可视 化,全面 感知 03 移动 APP ,随 时随地高 效办公 20 20 资源管理 · 对系统资源进行全面、全过程规范管控,实现平台资源的可控、可视、可靠 平台资源管理中心通过构建 CMDB ,将企业 / 单位所涉及的资源数据集中、统一标准化管理,实现资源数据全生命 周期的唯一性、准确性、完整性和可维护性,为 IT 运维提供准确的基础资源数据,为业务的高效运行与维护奠定基 础。 Hypervisor 虚拟化 网络 中间件 存储 服务器 数据库 进程资源 各类 IT 与系统资源对象 资源配置维护 资源自动发现 资源关系自动发现 资源关系维护调整 CMDB 标准化 唯一性 准确性 完整性 资源配置管理 资源基线管理 资源下线、报废 资源上线管控流程 资源状态变更管控 资源自动稽核 资源准确性稽核 资源合规性稽核 21 21 智能监控 - 多维监控 · 从多个维度进行运行监控,保障应用与业务的可用和连续性 系统 A 系统 B 系统 C 系统 D 系统 E 系统 F 系统 … 主机 操作系统 数据库 中间件 应用服务 部门 A 部门 B 部门 C 部门主管 业务骨干 技术专家 技术 业务 管理 T 从技术角度发现问题 从技术的角度来对系统运行 状态进行分析,识别、预测 并排除故障,保障系统可用。 B 从业务视角排除故障 从业务的视角来分析故障带 来的影响,排除故障,确保 系统业务的可用与连续性。 M 从管理视角分析风险 从管理的视角来检查使用状 态与分析问题和风险,确保 系统使用符合企业管理要求 与规范。 22 22 智能监控 - 基础监控 · 对基础 IT 资源进行全覆盖实时监控,保障相关设备稳定运行 IT 统一智能运营管理平台 Hypervisor 虚拟化 网络 SNMP SDK 中间件 JMX/CLI 存储 SNMP/SMI-S 服务器 SNMP Agent 数据库 JDBC 新资源 协议 操作系统 网络流量 流量分析 硬件监控 存储监控 基础设施 系统层 中间层 应用层 业务层 vCente Nagios Cacti Zabbix PRTG… 对 象 内 容 层 级 工 具 对 IT 系统所包含的对 象、资源与内容进行细 致的分层与分类 全面连接、监控各类 IT 资源与内容,全面采集 数据 不同类型资源使用不同 的监控与管理工具 通过精细化的数据采 集,实现对 It 系统的多 维度、全面监控与运维 23 23 智能监控 - 应用系统监控 · 分类分层一体化监控实现系统全方位可视 建立统一的应用系统监控视图,实现贯穿物理层、逻辑层、应用层等运行状况统一监控;通过将关联运维数据(性能、 告警、日志等)整合,支持运维人员对于各 IT 应用系统的整体运行情况进行一屏监控。 监控范围 应用系统 A 应用系统 B 应用系统 C 应用系统 D 应用系统 E 应用系统 F ….. 应用全景监控视图,实现系统全方位可视 应用进程 中间件 数据库 底层设备 多层级: 多数据源: 性能、告警、日志… 24 24 智能监控 - 业务监控 · 构建服务链,实现对业务端到端全局监控,精准定位问题,保障业务稳定 业务 / 服务链 A 业务 / 服务链 B 业务 / 服务链 C 业务 / 服务链 D 通过构建服务调用链,实现对业务全局节点所涉及的应用和服务的实时监控与分析,及时发现业务故障、迅速定位问题,全面保障 业务可用性、及时性、准确性等,并大幅提升运维管理效率。 支持调用链数据采集方式,实现在系统内与系统间各个服务的数据采集 支持业务链数据采集方式,实现在不同系统间采集应用数据 提供图形化的界面来配置业务服务调用链关系模型(流程拓扑图) 25 25 告警管理 - 智能化监控模型设计,统一告警策略配置,自动故障与风险告警 配置统一的事件告警策略,在监控过程中,一旦发现符合告警策略的事件,即会自动发出告警,并将告警事件进行统一管理与分析。 可以定义不同 事件 / 风险的 等级,然后根 据事件 / 风险 等级,设置不 同的告警策略 可以定义事件 的告警方式, 告警联系人员 范围,告警内 容等 可以集中配置、 更新、管理告 警策略 实时监控 监控模型库 故障告警 风险告警 系统 监控 数据 实时 数据 监控 发现故障 及时告警 识别风险 潜在问题 告警事件库 状态 预测 趋势 预测 事件汇总 事件汇总 人为设置 机器学习 告警 事件 告 警 规 则 库 告警 方式 告警内 容模版 告警 联系人 人为设置 26 26 告警管理 - 建立标准、细致的 IT 监控指标库,实现一体化、精细化 IT 监控 监 控 指 标 库 主机监控 CPU 使用率 内存 使用率 网络 写入 I/O … 磁盘 使用率 磁盘 写入 I/O 网络 丢包率 前端监控 页面性 能监控 接口性 能监控 数据库 / 中 间件监控 mysql redis mongo nginx tomcat https …… oracle 日志查询 应用 日志 应用错 误日志 组件 日志 服务器 日志… … 监控 27 27 运维管理 · 基于 ITIL 标准,建立规范、标准化的运维管理流程 基于 ITIL 行业标准,结合企业自身信息安全、 IT 运维管理标准及制度,建立标准服务支撑流程,故障定级定界、配套应急响应流程,保障问题、 故障的有序标准化处理。同时,利用各类支撑工具和手段辅助故障与应急处理,实现故障的快速处理,并逐步形成运维知识库,不断管理和技术 优化提升运营服务能力。 应急响应流程 服务支撑流程 工具 & 知识库 监控工具 操作工具 集成工具 经验沉淀 标准方案 应急预案 28 28 运维管理 · 构建智能化的监控分析能力,识别故障并预测风险,实现主动、智能的运维 智能化 标准化 算法化 模型化 建
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
31 页请下载阅读 -
文档评分


企业人力资源管理实践案例集