中国移动IT云智慧运维创新实践(35页 PPT)
8.58 MB
35 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
中国移动 IT 云智慧运维创新实 践 演讲人 程宇 总规模: 29439 东北区域中心 华北区域中心 东北区域中心 总规模: 39585 总规模: 7240 原有资源池 在建资源池 总规模: 9114 华北区域中心 总规模: 19801 华中区域中心 华东区域中心 总规模: 11106 华东区域中心 华中区域中心 总规模: 16353 西部区域中心 华南区域中心 华南区域中心 总规模: 11249 总规模: 2898 总规模: 9171 数据中心 IP 承载网 单点 资源池 直管 资源池 单点 资源池 区域中心 资源池 A 省节点 资源池 B 省节点 资源池 中国移动 IT 云,是由移动总部统一规划建设、统一资源运营、统一集中运维,形成“一云六中心”布局,构筑泛在云边协同 算力体系,为智慧中台、大数据等能力提供灵活调用的算力资源。截至 2022 年 5 月,全网 IT 云服务器规模为 28.4 万台。 端到端溯源 全景监控视图 统一规划建设 “ 一云六中心”整体布局 监控告警 信息采集 统一资源运营 全网纳管,集中运营 统一集中运维 两级协同,统一运维 智能运维 中国移动 IT 云智慧运维创新实 践 IT 云统一门户 区域中心资源池 省节点资源池 自动化运维 告警 监控 流程 配置 标准无 SDN 标准 SDN 省级门户 资源监控 标准化纳管能力 统一服务目录 资源运维 统一服务入口 标准 SDN 运维 随着 IT 云设备数量的快速增长, 一级 IT 云的运营和运维工作面临着越来越大的压力。从业界经验来看,运维人员数量无法随 着设备数量线性增加,每万台服务器运维人员的数量持续下降, 因此亟需引入智能化运维手段, 解决人力不足的矛盾,同时, 也需要借助智能化工具提高资源的可用性, 提升租户的使用体验。今天,由我来分享几个 IT 云 AIOPS 的工具。 云鸽在线 智能沟通机器人 星空雷达 网络 AI 分析平台 云翊 数据中心 精益管理系统 云秤 磁盘健康 检测平台 中国移动 云智慧运维创新实 践 IT 云翊 数据中心 精益管理系统 云鸽在线 智能沟通机器人 云秤 磁盘健康 检测平台 星空雷达 网络 AI 分析平台 中国移动 云智慧运维创新实 践 IT 云翊数据中心精益管理系统 , 依托 3D 数字孪生技术 , 结合数据中心设备资产数据 , 实现对数据中心从 “ 园区 - 楼 - 机房 - 机架 -U 位 - 设备 ” 的多层级 3D 可视化建模能力 , 对数据中心实现虚拟仿真展示。 同时 , 支持 根据客户需求自定义全景视图大屏 , 并提供标准化扩展接口 , 满足对数据中心动环、 视频、 设备性 能数据等 各类数据对接展示 , 帮助客户清晰直观地掌握数据中心运营运维有效信息 , 实现立体式、 透明 化、 可视化的 数据中心“一站式”全景管理。 1. 统一定义标准化扩展接口,可通过 一键式调用接口实现数据统一展示 2. 支持数据中心视频监控、动环、 IT 设备监控等数据对接 3. 支持对数据中心运营运维管理应用 集成扩展,跨系统集中展现。 1. 实现数据中心一体化全景视图大屏 展示。 2. 根据客户大屏尺寸与分辨率定制化 适配展示。 3. 支持客户自定义展示内容,包括图 片、简介等数据中心基础信息。 1. 根据数据中心园区实景照片、机房 CAD 图纸等对数据中心实现多层级、 可下钻 3D 建模。 2. 支持 300 多类 IT 设备标准模板,覆 盖 不同设备品牌、类型、型号。 3. 支持根据设备资产数据自动匹配, 实现“一站式”建模。 一站式 3D 建模 一键式数 据对接 一体化全 景展示 云翊数据中心精益管理系 统 数据中心全景视图大屏 依托数据中心全景视图大屏 , 展示数据中心实景图片、 文字简介等基础信息; 地图弹窗 , 直观呈现 数据中心在本地的相对地理位置;应用扩展入口 ,可跳转至相应能力界面; 3D 入口 , 可下钻至数据中心 3D 场景。 数据中心全景 视图大屏 扩展应用 地图弹窗 云翊数据中心精益管理系统 数据中心 3D 展示 3D 模型可从数据中心园区 - 楼 - 机房 - 机架 -U 位 - 设备 ,逐级下钻查看 , 根据真实环境 1:1 还原。 云翊数据中心精益管理系统 设备监控对接展示 可实时查看设备告警、性能数据 ,对设备及所在机柜高亮显示 ,不同颜色对应不同告警等级 ,并支 持查看历史告警信息。 云翊数据中心精益管理系统 视频监控对接展示 可实时查看机房内监控摄像头视频画面 云翊数据中心精益管理系 统 摄像头视频画面 动环监控对接展示 可实时查看机房内温湿度传感器监测数据 ,并以温度云图方式呈现机房内温度分布情况 ,颜色越接 近红色表示温度越高。 云翊数据中心精益管理系统 提升客户整体的数字化、 智能化、 智慧化管理应 用能力 , 加快整体数字 化转型进程。 形象直观的表达数据中 心的信息状态形式 , 帮 助运维人员及时了解整 新基建推动下 , 数据的 图形化、 可视化展示为 客户提供直观 、 优质 的 实现数据中心各类指标 数据全量管理,使系统 用于生产,提升协同作 战、指挥调度的能力。 运营运维管理服务 , 提 升客户在数据中心运营 领域的差异化竞争力。 体数据中心的整体情况, 缩短排障时间。 云翊数据中心精益管理系 统 星空雷达 网络 AI 分析平 台 云鸽在线 智能沟通机器人 云秤 磁盘健康 检测平台 云翊 数据中心 精益管理系统 中国移动 IT 云智慧运维创新实 践 网络大屏 动态拓扑 网元健康度 路径推演 业务拓扑 批量配置 星空雷达 配置下发 指标预测 异常检测 根因分析 能力封装 统一调度 智能运维 能力开放 互联关系 访问策略 转发路径 网络日志 网元容量 网络质量 网络架构 配置模型 NV/NFV 物理 / 逻辑路径 租户隔离 5 类对象 SDN 控制器 交换路由 防火墙 负载均衡 DNS 星空雷达网络 AI 分析平台 ,依托云网络基础设施 ,结合运维大数据 ,构建数字化网络平面 ,实现机器模型主导的 逻辑推演 ,主要包含网络可视、运维自动、智能诊断、能力开放四个维度能力。 能力开放 构建网络运维开放生态,功能面向 不 同运维角色,同时以标准接口对 外开 放功能与数据 智能诊断 基于机器学习生成动态基线,网络 访 问状态、网元指标智能检测、分 析、 定位恢复 网络可视 网络架构、拓扑、网元状态、访问路 径可视化 运维自动 从网络发现、更新、健康度计算、应 急、配置管理全流程自动化 星 空 雷 达 网 络 AI 分 析 平 台 4个维度 2 大场 景 类数据 3 1 个平 台 星空雷达网络 AI 分析平 台 Underlay/Overlay 网络虚拟化 Defalut/VRF 运行状态 IPv4/IPv6 解析模型 IP 平 面 网元健康评估 多指标智能分析: 对全网所有设备、链路、路径网 元实时展现健康度拓扑, 网元健康度按由小到大排序, 通过标注不同颜色当前网元所处的状态 ,助力运维人 员快速定位。 网络健康态势 探针与拓扑融合:根据探针主机名自动识别 部署的区域 ,所有探针全 MESH 多协议探测, 统一的健康度计算、告警 ,并呈现在态势感 知拓扑。帮助运维人员快速判断应用故障是 否与网络有关。 全局网络拓扑 网元自动发现: 基于网络运行数据生成网 络拓扑 ,从架构、 区域、设备到链路整体可 视化 ,包括网元指标、端口、 日志等视图 , 覆盖边界网络 ,实时发现网络异常接入。 设备响应矩阵 子网聚合展示:对全网所有子网状态进行实时探测, 按网段对资产进行聚合, 以网络存活度、平均响应 时延、平均丢包率等指标进行监测 ,为运维人员提 供实时和历史数据参考。 网络路径发现 端到端路径发现:基于数字化网络平面、进行端到 端路径仿真推演 ,根据网络静态、动态数据等自 动 生成任意 IP 间网络访问所经过的设备、链路 ,回 溯路 径中任意时间的网元监测指标 。 星空雷达网络 分析平 台 AI 网络拓扑: 自动生成全局、局部、子网、 探针等多维度网络拓扑 ,支持 SDN 控制器、 ARP 表、 MAC 表、 LLDP 、 Next-Hop 等多 种方式 数字模型:将网络中的关联关系抽象为数 字模型 ,如映射、策略、主备、隧道等 l 自定义拓扑:基于网元、指标、业务架构、 网络拓扑 ,按需定义融合网络与应用数据 的自定义系统拓扑 l 自定义报表:按需抽取各维度网元指标, 结合计算、汇总规则 ,生成自定义报表 网元健康度:根据实时指标、动态基线、 异常检测、健康度模型自动评估设备、链 路健康度 网络健康度:通过分布在不同网络位置的 端到端拨测指标, 自动生成网络健康度 l 数据查询: 支持 Rest 、 H5 方式开放策略、 指标、状态等数据检索能力 l 消息推送: 支持短信、微信、 邮件等方式 推送告警、诊断、定位等消息 l 路径推演: 基于数字孪生模型自动计算任 意两点网络访问路径及各节点健康状态 l 根因分析: 以健康度评估模型为触点 ,构 建故障场景 , 自动定位故障根因 极简网络发现:基于标准协议, 自动发现 网络设备、连接关系 智能监测: 发现网络后自动采集网络时延、 丢包率、利用率等网元指标 ,动态更新 星空雷达网络 AI 分析平 台 构建数字孪生模型 l l l l l l 自动感知故障 自动发现网络 能力开放 智能分析 故障定界 依托数据中心全景视图大屏 , 实时呈现全局网络运行状态 ,通过大屏展现全局网元及网络是否存在 异常 , 同时支持告警回溯; 以大屏为入口 , 可以下钻至多维度网络拓扑、 全网网元健康状态的明细页面 , 直观的回溯任意时刻网络组网结构、 运行状态。 全景 视图大屏 多维网络 拓扑 全网网元健 康状态 星空雷达网络 分析平 台 AI 通过大屏呈现网元、 网络、 网段实时健康状态, 同时可根据需求展示、 回溯各类关键日志、 Top 指标、告警趋势, 通过大屏可下钻到各个维度拓扑、健康度、负载均衡等相关功能。 星空雷达网络 分析平 台 AI 星空雷达网络 分析平台 模拟网络中运行的业务,通过 ICMP 、 TCP 、 HTTP等协议,所有探针 Full-Mesh 多协议探测,统一的健康度计算、 告警 ,并呈现在态势感知拓扑中。 AI 自动从 SDN 控制器、设备 ARP 等表项同步全网存活的 IPv4 、 v6 地址进行实时探测 ,按网段对设备 IP 进行全量拨测 以及聚合展示 ,以网络存活度、平均响应时延、平均丢包率等指标对批量设备的 IP 进行监测 ,星空雷达关注的重点不 再 是单个网元的故障 ,而是可能引起大规模故障的异常网元集合。 星空雷达网络 分析平 台 AI 将网络抽象为设备、链路、路径三类网元 ,而网元健康度基于不同的计算因子采用扣分机制 ,结合历史波动、 异常样本, 自动分辨计算指标的异常状态 ,代入多维度的计算模型 ,形成网元健康值 ,如指标异常持续波动 ,采 用 梯度下降的方式 ,有效规避瞬间波动产生的误判。 星空雷达网络 分析平 台 AI 根据任意源目 IP , 自动计算实时、历史的两点访问路径及经过网元的健康状态 ,支持 Overlay 路径下钻。基于路由表 实现任意源目 IP 秒级发现路径 ,支持回溯故障点源目 IP 路径、指标、状态、健康度等数据重放快速定位异常节点或链路。 星空雷达网络 分析平 台 AI 产品基于网络可视、运维自动、智能诊断、能力开放 4 个维度逐步演进 ,下一版本主要包含自动定位、 自动演练、 租户网络、流属性可视化等主要模块 ,实现更细粒度的故障感知、定位、变更自动化, 同时推进租户网络可视化 ,覆盖 网络、主机、混合 Overlay 路径 ,基于知识图谱实现智能化的定界、定位能力建设 ,进一步推进网络自动驾驶。 运行网元 组网拓扑 访问路径 流属性 数据开放 功能开放 应急能力 异常检测 场景化自动分析 自动定位 自动发现 配置下发 自动演练 能力开放 网络可视 智能诊断 运维自动 星空雷达网络 分析平 台 AI 显性价值 提升业务连续性: 星空雷达基于数字化模型 ,通过网元、 网络及端到端健康度评估 ,实时感知网络故障、风险隐患, 降低故障发生率 ,缩短故障持续时长 ,提升业务连续性。 提高运维效率: 通过智能检索、分析、诊断等自动任务 ,有效提升运维人员工作效率 ,如服务咨询、问题分析、 故障协同、割接变更等。 降低人工经验依赖性: 产品从全局网络、局部网络、 网元、路径高度可视化 ,结合数字化方法 ,有效降低人工经验 依赖性。 隐性价值 推动网络能力开放: 星空雷达相关数据、功能通过标准接口、页面形式对外开放 ,提高数据利用率 ,释放更大的数据 价值。 提升故障协同沟通效率: 通过负载均衡监测、业务拨测等方式 ,有效提升故障协同处理时的沟通效率。 推进企业数字化转型: 基于星空雷达屏蔽底层网络设备、组网架构差异性 ,提升运维自动化比率 ,运维人员可专注更具 价值事务。 星空雷达网络 分析平台 AI 云鸽在线 智能沟通机器人 星空雷达 网络 AI 分析平台 云秤 磁盘健康 检测平台 云翊 数据中心 精益管理系统 中国移动 IT 云智慧运维创新实 践 “ 云鸽在线 ”智能沟通机器人 ,依托 IM 平台实现信息调度能力 ,代替人工的信息转发稽核过程。用户在消息群内 按照模板规则发送文本信息 ,即可启用机器人的推送、转发、稽核等功能 ,实现信息的智能、快效的传递共享。主要提 供信息监控 ,信息核验、表单提交、数据推送四类维度服务。 数据推送 通过机器人自动定时获取运维信息数据,归一化后定向推送至相关人员处,由此解放人工巡检劳力,丰富工单审批提醒、设备 指标自动巡检等信息的推送途径。 表单提交 结合以上服务能力,向具备权限的用户,提供平台流程表单的请求提交途径,实现诸如工单快速创建、巡检脚本执行一键下发 等服务。 信息监控 根据使用方提供平台开放能力或基于微信客户端,实现用户发送信息的实时监控与调度收发的基本功能。 信息核验 交付程序支持,提供文本信息的格式稽核、账号权限的配置审核,构建信息出入方式的智能控制途径。 “ 云鸽在线 ”智能沟通机器 人 工单流程轮询 对告警、割接工单流程进行自动化轮询 ,实现每日割 接操作的自动更新汇总上报;并提供超时告警提醒、 割接审批流程提醒等服务 ,提升关键工单的接单、审 批及时率。 工单一键创建 基于信息权限稽核及数据表单提交能力 ,运维人员 可快速、批量创建系统事件跟踪或全网故障上报工 单并反馈工单号或错误信息。 由此 ,保证工单创建 的规范性、及时性、正确性。 良 运维信息查询 通过内部系统开放能力 API ,提供告警、工单审批流 程、待办工单清单、运维知识库等方面的自助查询 服务 ,为租户与运维人员提供随时随地的信息关 注 途径。 智慧运维大屏 实时同步系统日志记录, 通 过 大 屏 可视化 割接日历、属地值班 人 员 清单、系统调用 历史等关键运维信息 ,快速定位相关人 员 联系方式 ,提供运维信息可读途径。 自动巡检推送 基于自动化指令平台能力 ,代替运维人员 获取、分析设备指标巡检结果 ,避免人工 疏漏; 或一键下发设备巡检脚本执行指令 并反馈结果 ,提升运维应急响应效率。 “ 云鸽在线 ”智能沟通机器 人 通过对接内部系统开放 API ,可支持随时主动查询系统使用模板、所属区域告警数量、 账号待办工单清单、工单流转过程等功能。或通过系统登记及稽核服务 ,提供值班人员信息 登记及租户查询功能。 通过对接内部系统开放 API ,推送当日割接操作的清单记录并定时进行更新; 或定时、手动下发设备脚本巡检指令 ,反馈本次巡检结果 ,并分析上报异常报告; 工单信息查询 值班登记查询 “ 云鸽在线 ”智能沟通机器
| ||
下载文档到本地,方便使用
共 35 页, 还有
1 页可预览,
继续阅读
文档评分


华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告