基于AIops的智慧运营大脑探索与实践-
8.20 MB
26 页
0 下载
119 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
基于AIops的智慧运营大脑 探索与实践 中国电信湖北公司 GOPS 全球运维大会 2023 · 上海站 个人介绍 张遴 中国电信湖北IBOC云平台与安全保障室经理 中国电信集团高级专家、 云架构师和内训师 目 录 CONTENTS 研发背景 从融合监控到智能监控 应用案例 1 2 3 研发背景 GOPS 全球运维大会 2023 · 上海站 IT上云后对运维的挑战 传统Oracle架构演变为全云化、全分布式架构,监控对象几何级增长, 调用承载关系日趋复杂,原先分散的监控手段已经不能满 足上云后系统运维的要求 分布式架构带来的挑战 IT系统上混合云的挑战 业务生态圈带来的挑战 n 维护对象:从几个到上千个; n 监控对象关系:从简单对应到极其复杂,人力维护无法胜任; n 数据分片、异地存储,传统维护模式难以为继; n 上云系统PaaS层用自有研发的组件,IaaS层上混合云,原属地化维护变为 多个单位维护; n IaaS/PaaS/SaaS层的故障难以关联分析,快速定位; n 采用云原生架构,原有基于Oracle及传统架构的运维手段、经验不可用; n 应用间调用关系复杂,传统监控模式无法做到先于客户发现问题,先于 投诉解决故障 监控对象:几何级数增长,人力维护不能胜任 调用承载关系极其复杂,亟待引入运维工具 应用软件: 硬件: 上千个 微服务 几套Oracle 19类42种清单,将 追随行业更新 可数 小型机 成千上万 硬件 中间件: 几个 Jar包 GOPS 全球运维大会 2023 · 上海站 云上IT运维需求 n 工具集市:支持低代 码开发运维工具,形 成工具集市并共享; n 知识共享:建立企业 级运维知识库 n 关联监控:通过主数据治理, 拉通从应用到组件、主机的关 联关系,实现故障根因快速定 位 n AI注智:引入AI算法,实现动态 告警阈值及故障趋势预测、关 联分析、根因分析 n 统一监控:按系统/场景/专 业等维度,整IaaS/PaaS/SaaS 的监控手段,实现全省IT系 统监控统一纳管 n 统一调度:固化常见故障自 动化处理手段,探索实现故 障自动发现、自动调度、自 动修复;集中管控日常巡检 等作业计划 n 统一展现:建设可视化大屏, 数据、系统可视 监控赋能 运维赋智 运维生态 从融合监控 到智能监控 GOPS 全球运维大会 2023 · 上海站 总体目标:云-网-业-数-安融合监控体系 统一采集 统一调度 融平台 融云 天翼云 腾讯云 阿里云 华为云 融网 专线 专网 网络拓扑 网络安全 融AI 知识图谱 故障自愈 故障预测 数字孪生 IaaS PaaS SaaS 各类IT系统、平台 统一展现 统一监控 自研融合监控平台-智慧运营大脑 自研目标 p 急用先行:统一监控各类IT系统和场景, 解决IT监控分层割裂、故障根因定位难、 手段少的问题,提升系统稳定性; p All In One :一个底座,统一纳管云/网/ 数/业/安监控,涵盖IaaS/PaaS/SaaS各层 面,支持各类常见监控手段; p 监控四融:融云、融网、融平台、融AI p 对内对外:对内做深做广,云网自智, 对外能力外化,服务政企客户产数; GOPS 全球运维大会 2023 · 上海站 总 体 架 构 总体架构:六中心一门户 统一门户 PC门户 元宇宙监控中心 多租户 手机门户(建设中) 微信机器人 …… 基础配置中心 CMDB 数据源 任务调度框架 数据字典 监控配置 组织机构 角色权限 云网 指标 智能监控中心 拨测 监控 接口 监控 投诉 监控 日志 监控 主机 监控 智能工具中心 可视化开发 授权单表维护 API配置 能力开放 专用场景维护 服务编排 SQL配置 动态 阈值 AI中心 大模 型 趋势 预测 关联 分析 自然 语言 知识 图谱 智能调度中心 事件 侦测 告警 收敛 处置 策略 协同 推送 自动 巡检 作业 计划 机房 监控 服务 监控 智能知识中心 智能 采编 知识 图谱 认知 搜索 智能 推荐 汇聚库 日志平台 kafka 大网网元 云眼北向 接口 大数据平台 …… 智慧运营 核心能力 数据来源 p 统一门户 − 多租户PC门户 − 元宇宙虚拟监控中心 p 基础配置中心 − 内置多种监控源配置模版、零代码 配置监控点、CMDB p 智能监控中心 − 跨IaaS/PaaS/SaaS的聚合监控 − 低代码可视化大屏 p 智能调度中心 − 故障自愈、告警调度、自动巡检 p AI中心 − 动态阈值、故障趋势预测、知识图 谱、NLP、大模型 p 智能工具中心 − 自研运维工具集市 p 智能知识中心 − 基于大模型的运维知识库 GOPS 全球运维大会 2023 · 上海站 总体部署模式:1+X两级部署 智慧运营大脑 行业运营大脑 行业运营大脑 … 电信 侧部 署 监控告警上传 故障预测下发 支持SaaS版本(智慧运营大脑)和私有化部署(行业运营大脑)两种版本,根据客户网络等不同场景灵活选择适用的版本. 客户 侧部 署 1:智慧运营大脑 X:行业运营大脑 平台部署 运营商侧集中部署 客户内网单独部署一套,独立运行 服务模式 SaaS应用,多租户模式 本地监控,只服务当前客户 安全保障 不同客户的接入、采集、业 务和数据均物理隔离 监控数据不出客户机房 网络需求 无需客户侧提供服务器,监 控点需与电信侧网络打通 需客户提供主机等运行环境,无需 对外部网络开放 适用场景 使用电信天翼云、专线等云 网融合产品的客户 安全保密要求高,非天翼云为主, 私有云客户 能力特性 快速投产,故障自愈、预测、 图谱等AI功能丰富 轻量化部署,积木式按需搭建组件 天翼云网管 资源中心 综合网管 … 智慧运营大脑多租户架构 GOPS 全球运维大会 2023 · 上海站 配置中心-整合多维监控数据源,CMDB主数据治理 应用系统 研发云 应用模块 容器实例 云翼(普罗米修斯) ccse 内存使用率 CPU使用率 teledb 云眼(北向接口) telepg dbproxy Ctg_cache 集群实例 Ctg_mq zookeeper …… Cpu使用率 主机监控(Zabbix) 内存使用率 磁盘IO 文件系统 微服务 专线 网络监控(综告/snmp) 网络时延 吞吐量 链路关系 API调用成功 率 日志监控(ES) API调用次 数 API耗时 慢SQL 机柜温度 数据中心动环 业务发展 业务发展 客户投诉 卡单错单 … 话务量 客户感知 接通率 投诉量 派单量 校园营销 重点场景 停复机 营业效能 …… 空调状态 机房湿度 机房流量等 CRM接口拨测 业务能力 计费接口拨测 编排接口拨测 ……. SQL脚本 业务环节 服务编排 业务埋点 ……. 监 控 底 座 统 一 采 集 CMDB 主 数 据 治 理 打通集团翼龙、省内主机、网络、日志、动环、业务等,汇聚整合142个系统、2545个saas指标、15753个paas指标、3631个 iaas指标,120个其他指标,共计2.2万余个监控点,并纳入CMDB资产库统一管理 …… 实例数 指标数 Saas 1965 2545 PaaS 2721 15753 IaaS 790 3631 其它 119 120 Pp埋点日志 应用性能 服务调用路径 服务慢请求 服务异常请求 GOPS 全球运维大会 2023 · 上海站 配置中心-监控及告警规则零代码配置 内置100余种监控点零代码配置模版,采用零代码方式进行SQL脚本、API接口、服务拨测等监控指标、阀值、告警规则配置,降 低入门门槛。 指标源 监控来源 采集对接方式 业务能力 省内各业务系统 API接口拨测,网页拨测,EOP日志 业务环节 省内各业务系统 多数据源的SQL脚本 微服务 省内各业务系统 Pinpoint埋点数据 慢SQL清单 省内平台 数据库慢SQL日志 集团PaaS组件 北向接口 Kafka,ES 容器 云翼平台,省内平台 Prometheus脚本,自研拨测Agent 主机 省内平台 Zabbix 内网 省内平台 远程Shell脚本Ping拨测 交换机、防火墙 省内平台 SNMP协议 存储系统 省内平台 Kafka,API对接 动力环境 省内平台 Socket对接 云 天翼云/腾讯云/阿里云/华为云管 API对接 传输大网 资源中心/告警中心/专业网管 API对接 GOPS 全球运维大会 2023 · 上海站 监控中心-实现监控客户端统一,无需安装多个采集进程 • 系统日志、CPU、MEM、I/O • 磁盘使用率、文件句柄、 • 网络通断、网络流量、网络性能 环境层面监控 • 进程、端口监听、网络联通、日志刷新 • Web应用返回码(页面是否返回200)、关键服务探 测(模拟调用) 应用可用性监控 • 集群状态、监听、会话、节点状态、消息队列 • JDBC数据源(状态、使用率)、等待连接等等 • 其他各类中间件系统关键指标监控 中间件层面监控 • 状态、监听、会话、锁、逻辑I/O • 表空间、慢SQL、容量、等待事件、备份 数据库层面监控 • 服务响应时长、应用负载监控(会话数、会话连接)、TPS监控 • JVM堆使用率、GC情况、OOM、线程状态 业务性能监控 • 核心接口访问量、响应时长监控统计 • 业务成功率、耗时统计分析 • 应用交易超时、服务排队等异常情况监控统计 应用交易监控 • Crontab定时任务执行监控 • 计划性自动化备份、清理执行情况监控 计划性任务监控 • 接口超时、订单创建失败、接口参数异常、各类 ERROR、DEBUG日志日志关键字监控 应用日志监控 Agent支持插件式扩展采集能力,包揽所有监控项数据采集,支持批量下发及安装、批量配置监控、批量配置运维 GOPS 全球运维大会 2023 · 上海站 监控中心-关联监控 实施方案 p 建立数字孪生模型:打通各监控来源,构建 从业务-模块-容器/组件-主机的关联关系模 型以及核心业务的调用链模型; p 核心业务场景端到端监控:联通各系统关键 接口,实现停开机、携号转网和客户充值等 核心生产场景的全流程监控; p 通过应用找故障:SaaS出现告警,通过SaaS- >PaaS->IaaS关联关系快速定位故障根因; p 通过故障找应用: PaaS/IaaS告警后,通过 IaaS-->PaaS-->SaaS反向预警,找到可能受影 响的SaaS应用; 打通原SaaS/PaaS/IaaS各自为政的独立监控,构建从应用到主机的数字孪生关联关系模型,实现IaaS/PaaS/SaaS关联监控 跨三层的关联监控模型示例 GOPS 全球运维大会 2023 · 上海站 监控中心-低代码大屏展示平台 场景应用 p “1+N+1”架构:搭建完成1底座(大脑)+N大屏+ 统一调度运营的“1+N+1”监控可视化架构,所 有大屏内容作为监控指标纳入大脑整体监控 体系 p 大屏应用:已实现云/网/数/业/安等20余个大 屏应用,如:校园营销监控大屏、跨域订单 运营监控大屏、省市两级业务运营大屏,客 户IT投诉大屏,ITSM工单处理实时监测、DCN 网络监控、IDC业务运营监控、网信安监控等, 直观展现各专题监控指标 大屏指标纳入大脑统一监控运营 GOPS 全球运维大会 2023 · 上海站 调度中心-告警自愈 将智慧运营大脑监控同低代码开发平台打通,通过监控告警,智能匹配自愈规则,自动调度执行基于低代码开发平台服务编排 的自愈能力。 1.大脑监控告警 2.匹配自愈策略 3.调度执行自愈业务能力 4.大脑确认故障已清除 GOPS 全球运维大会 2023 · 上海站 AI中心-动态阈值/故障趋势预测 引入统计检验、KNN、孤立森林,以及Facebook开源的Prophet等算法,采用时间序列分解,通过模型训练得到模型库,实时采 集的指标数据通过读取最新模型获取动态阈值来判单是否异常告警。 配置是否启用动态阈值 得到趋势预测告警 动态阈值算法主要步骤 GOPS 全球运维大会 2023 · 上海站 利用图数据库,基于资产-事件的IT运维知识,构建从SaaS到IaaS的全流程端到端监控图谱,在此基础上引入机器学习和算法模 型,实现告警归并和收敛、故障根因分析和快速定位,最终实现智能决策和自动处置。 CRM监控图谱一级视图 CRM监控图谱二级视图 全流程端到端监控图谱 AI中心-知识图谱:故障根因定位 GOPS 全球运维大会 2023 · 上海站 IT服务台智能问答机器人 故障告警自动微信通知 自然语言对话巡检 微信告警自动语音外呼 点击播放 利用NLP自然语言交互,打造IT服务台智能问答机器人、微信告警通知、微信对话交互、微信告警自动语音外呼等多模态的运营交互能力 AI中心-NLP自然语言交互 GOPS 全球运维大会 2023 · 上海站 输入关键词 关键词匹配 数据库查询 返回结果 用户提问 问题向量化 读取文档 文本向量化 计算相似度 检索相关 文本 生成回答 ChatGLM (清华开源大 语言模型) 生成提示 信息 主要流程 传统方式 基于大模型 为了解决传统OA公文仅能按照标题关键字搜索的局限性,探索利用大语言模型强大的语言理解和文本生成能力,通过语义索引、向量匹配、融 合生成等技术手段,以自然语言问答的方式实现IT运维规范等公文内容的智能搜索,提升搜索效率和准确性的同时提供更好的用户体验 知识中心-企业大模型探索 GOPS 全球运维大会 2023 · 上海站 在已初步实现运营监控可视化、自动化、AI化 基础上,进一步利用元宇宙技术突破监控室狭小等 物理空间制约,实现线下监控中心整体数字孪生, 打造云上第二监控现场,确保极端情况下IT运营监 控安全不中断,线上线下联动,提高自智处置效率。 突破限制,监控上云 打造面向未来的数字化运营新体验。通过人 员孪生、空间孪生、在线监控、在线调度和在线 互动,为物理办公地点分散的IT运营人员及合作 伙伴提供沉浸式的虚拟线上协同体验,开展基于 元宇宙的重保值班、技术讲座、在线会议等。 拥抱变革,创新体验 搭建元宇宙应用平台,打造元宇宙样板间, 通过元宇宙在内部生产运营中的应用,如培训、 会议、会展等,逐步摸索积累经验,为后续对外 服务奠定基础。 打造样板,专业赋能 元宇宙IBOC虚拟园区 应用案例 GOPS 全球运维大会 2023 · 上海站 (一)某市卫健委融合监控-云专线监控 大脑同新一代资源中心打通,基于用户的整体云网部署架构,可视化呈现用户云网结构全貌,实现对多云资源、网络专线的一体化监控;利用 图数据库,基于资源中心资源开通数据,动态生成物理链路端到端拓扑图;同新一代告警子中心打通,叠加设备及端口告警展示,并收敛到链 路层级,从而实现客户云网融合告警监控。 GOPS 全球运维大会 2023 · 上海站 某市政务云基于腾讯云底座搭建,湖北智慧运营大脑通过对接腾讯云的基础设施、云哨、御见等多个运营端以及租户端平台,涵盖云内的政务外 网区和互联网区,监控了127平台宿主机和13个租户共242台云主机和漏洞情况,实现云内一体化的融合监控。 (二)某市政务云融合监控 GOPS 全球运维大会 2023 · 上海站 市民热线专线、云上主机及主要业务系统指标(如接通率等)进行融合监控 (三)政府热线监控 GOPS 全球运维大会 2023 · 上海站 Thanks 因为相信,所以看见 敢想、敢干、敢胜利
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
24 页请下载阅读 -
文档评分


基于数字孪生的核电主设备智能制造探索与实践