华为:2025践行深度用云:主机上云运维现代化核心能力报告求。 除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有 效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能 力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而 大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协 同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安 全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。 华为 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界 2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平 2.3 基于先进的单元化设计理念达成核心应用N个9的可 靠性也是IT管理者面临的难题。 最后,服务SLA(Service Level Agreement, 服 务水平协议)的达成还需要有相匹配的管理手段与工 具,如故障模式库、演练工具等资源作为支撑,不但 要能有效跟踪度量SLA的实际效果,还需要持续、 主动发现可用性风险的机制与工具,在可用性管理的 过程中实现数据积累和能力演进。 挑战2:云平台技术栈快速增厚,如何0 积分 | 46 页 | 2.36 MB | 2 月前3
企业IT统一智能运营管理解决方案机房环境 硬件设备 网络 中间件 业务 数据 系统 应用 IT 监控运维 业务运营 人 员 方 法 流 程 工 具 可用性 成本 连续性 性能 体验 设备故障 系统异常 系统故障 系统变更 企业 IT 监控运维是企业业务正常与高效运转的基础保障 系统监控 维修更新 业务保障 应用反馈 6 IT 运维现状 · 被动救火式运维模式,业务风险高、运维人员疲于奔命 新系统上线越来越多 业务访问量快速增长 用户体验要求越来越高 业务处理时效性更高 业务中断容忍度更低 高层对 IT 部门考核更严…… 系统架构越来越复杂 故障类型越来越多 系统负载更大、故障风险高 故障排查、修复更难 技术快速演进与新技术应用 人员技术能力与经验不足 人员成本越来越高 知识经验无法沉淀…… 外部 挑战 内部 挑战 规模更大 要求更高 变化更快 定时粗略巡查 等待故障报告 人工故障处理 实时全面监控 分散维护系统 集中监控系统 自动故障处理 提前故障预警 随着业务对 IT 运维提出的要求越来越高,原来传统的被动救火式的 IT 运维模式已经不能 满足企业的要求,无法为业务的发展提供保障 只有借助当前先进的技术,构建主动巡防式的 IT 监控与运维体系,能够提前预防并智能 化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对10 积分 | 33 页 | 4.92 MB | 7 月前3
2025年6G“零中断”网络设计白皮书-中移智库技术在全球范围内的商用推广,通信网络的规模和复杂性急剧 增长。近年来,全球通信网络中的重大故障事件也屡屡发生,给运营商和用户带 来了严重的影响。根据互联网公开数据和行业报告不完全统计,在 2021 年至 2024 年期间,全球通信行业发生了超过 66 起重大网络事故,影响范围广、恢复时间长、 经济损失严重。如何提高网络设备的容错性、提升整网抗信令风暴的鲁棒性以及 故障自愈的高效性是 6G 网络必须优先考虑和解决的问题。 图 图 1 2021年至2024年4/5G商用事故统计 事故诱因复杂,以网络故障和动网操作为主。4G/5G网络的故障呈现出软硬结 合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设 计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传 输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升 级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 语音和数据业务会同时受影响。占比约88%,因语音和数据业务强耦合设计, 一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受 牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 事故诱因 事故现象 业务影响 中断时长 3 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过 5个小时,主要0 积分 | 36 页 | 2.50 MB | 1 月前3
AI+工业设备预测性维护解决方案(34页 PPT),并依据该状态发展趋势和可能的故障模式 ,预先制定维修计划 ,确定机器应该修 理的时间、 内容、方式。预测性维护可以为企业带来以下效益: ☐ 降低维保成本 ☐ 延长设备寿命 ☐ 提高设备使用率 ☐ 减少库存成本 ☐ 提升生产安全 维护触发点 固定周期,不考虑设备实际 状态,可能带来过度维护 必要时,预留足够应对时间 给一线人员在故障前做出应对 维护方式 根据零部件的平均损坏率进行维护, 遵从操作手册(凭经验) 有计划无目标 事后维护 故障发生后 最昂贵的维护 事后维修比事前预防的成本高约 50% 以 上 状态监测 健康评估 异常监测 故障预测 故障诊断 维修决策 图形 1 解决方案 解决思路 将数据和知识库进行深入融合,构建 AI 模型库: 如整合设备传感器数据与知识库中的故障案例,预测 剩余使用寿命(如“轴承预计 AI+ 设备管理(预测性维护) 基于设备运行状态——实时监测与数据分析的主动维护策略: 持续采集设备运行参数(如振动、温度、电流等); 利用机器学习或物理模型预测设备劣化趋势; 在故障发生前,精准定位风险点并制定干预计划。 全面设备管理体系的三类方式比较 模式 特点 事后维护 " 不坏不修,坏了才修 " ,缺乏事前准备,易导致停工时间延长并扰乱生产计划。 预防性维护 按照10 积分 | 34 页 | 3.98 MB | 1 月前3
智慧校园数据中心建设方案(157页).......... 91 5.3.3 客户故障处理流程......................................................................................................................................... 92 5.3.4 故障受理..................... ..... 92 5.3.5 故障处理......................................................................................................................................................... 93 5.3.6 故障解决.............. 断扩展的需求,必须追求系统的开放性和灵活性。 (4) 高可靠性 在考虑技术先进性和开放性的同时,还应从系统结构、技术措施、设备性能、系统管理、 厂商技术支持及维修能力等方面着手,确保系统运行的可靠性和稳定性,达到最合适的平均无 故障时间。 (5) 实用性和经济性 系统建设应始终贯彻面向应用,注重实效的方针,坚持实用、经济的原则。 (6) 安全性和保密性 在系统设计中,既考虑信息资源的充分共享,更要注意信息的保护和隔离,因此系统应分20 积分 | 157 页 | 5.66 MB | 1 月前3
智慧电力运维平台建设技术方案..................16 3.2.2.2.5 以区域(全省)维度展示用电企业故障统计.......................................................................17 3.2.2.2.6 以区域(全省)维度展示用电企业故障展示............................................. ..................23 3.2.2.2.15 以区域(自定义)维度展示用电企业故障统计.................................................................24 3.2.2.2.16 以区域(自定义)维度展示用电企业故障展示............................................... ...................37 3.2.2.3.7 全省运维故障详情信息查询.................................................................................................38 3.2.2.3.8 全省运维故障详情列表展示................................60 积分 | 229 页 | 385.39 KB | 6 月前3
某区生活驿站大数据平台系统维保项目实施方案(45页 WORD)某区生活驿站大数据平台系统维保项目实施方案 双方协商确定。 1.3.2 系统优化分析方案 系统的优化、数据的整理、常见故障的排除;计算机病毒的查、杀、防毒 软件的定期升级;根据使用人员的要求、提供系统软件的升级。系统数据的备 份与恢复。服务小组的工程师将利用母盘克隆、网络备份、存储备份等方法把 重要部门的系统和数据安全备份,出现故障时在最短时间内进行数据的恢复。 1.3.3 应用健康检查方案 服务团队基于软件健康检查 未达到。如果在 7 天或与我们书面达成共识的更长的期间之内,客户既不接受 所提交的文档,也不给我们拒绝接受的通知,所提交的文档将被视为已接受, 并且求助电话的状态将变为已结束。 我们将不对直接或间接因系统故障或系统不足够所造成的拖延承担责任。 16 某区生活驿站大数据平台系统维保项目实施方案 1.3.8.3 每月的总结 每月的第五个工作日,客户和我们将召开会议(或者通过电话或面对面) 回顾企业 并记录服务台事件处理结果。 技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文 档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故 障级别,如果不能于 1 个工作日内解决故障,公司将在 3 个工作日内提出应急 方案,确保业务系统的运行。故障解决后 24 小时内,提交故障处理报告。说明 故障种类、故障原因、故障解决中使用的方法及故障损失等情况。 1.3.9.2 行为规范10 积分 | 67 页 | 309.31 KB | 23 天前3
【标准】5G智慧港口网络建设规范DB4403/T 442—2024 5 小区的网络需求。一条链路传输操控维护数据,当传输操控维护数据的端口或链路故障时,操 控维护数据能够使用另一条链路,避免单端口、单链路故障造成业务中断; b) BBU 至传输设备采用双路由主备加固方案,当其中一条链路、端口或单板故障时,业务能够使 用另一条链路。 5.4.5 核心网高可靠 5.4.5.1 核心网控制面轻量级下沉-应急容灾方案 在港区内用户面 ,当港区用户面 UPF 与大网 5GC 之间故障失联时,通过内置的“本地应急控制面”服务提供应急容灾能力,保障港区已接入的稳态 业务不掉线,惯性运行,并支持用户重新接入。 5.4.5.2 用户面 UPF 容灾方案 港口内部可部署两台或以上 UPF,支持负荷分担或主备模式,包括同局址容灾(同机房)、异局址 容灾,因同局址网元级容灾出现“局房级”故障时存在业务中断风险,推荐异局址(不同机房)容灾。 网络通报:对于网络或系统升级、调整、优化,供应商应提前通知需求方; e) 故障响应:提供 7×24 小时故障服务受理,故障服务响应时间应小于 1 小时; f) 专网 SIM 卡:提供业主所需的专网 SIM 卡及 IMSI 等信息。 7.1.2.2 业务投诉及故障处理时限 业务故障指影响需求方业务正常使用的故障,包括业务中断故障和一般故障。业务故障处理时限指 自收到故障投诉时或出现监控告警时起,至需求方业务恢复正常所需要的时间,业务恢复时限要求见表20 积分 | 19 页 | 631.63 KB | 1 月前3
新型电力系统电力扰动及其数据分析应用(29页PPT-四川大学2025)124 学 = 划 新 庭 在 次 自 e 术语 定义 测量 特征 评估 诊断 治理 关注电能质量本身 的诊断与抑制 电源 电网 响应 拓扑 负荷 故障 态势 特性 诊断 推演 预测 协同 控制 调控 挖掘与扰动相关联的 设备级 - 系统级信息 不断涌现的复杂扰动模式难以 定义和表征。 监测数据中蕴含的系统级、设 备级感知信息未充分利用。 10ns- 10ms- 100ns- 1-6sec- 15xin —IMHz 100kHz —10kHz —IKH —0.1kHz -0.01kHz 0001AHz DR: 故障录設仪 PQV: 电能质母监测装置 PVU: 同步相量单元 SCADA: 数据采集与监视 校制系统 1MHz 0.00Ims- 100Hz 10kHz n 事件触发记录设备 连续记录装置 数据获取、数据治理、隐私保护、价值挖掘 向 S (1) 电谎设备故障坟动波展 空 7 用 (3) 要压径套管故障 299858 同 (2) 树模磁线故障 码案 (4) 雷醒故障枕助渡影 幅值 /kV 15 10 5 0 5 -10 -15 0 10 20 多源数据采样 / 上报 率 3020 积分 | 29 页 | 10.63 MB | 23 天前3
电力行业数字化转型智慧电力一体化监管云平台整体解决方案硬件设备及软件采用冗余配置、集群、虚拟化、容灾备用等技术手段, 消除单点故障,确保不因部分软硬件故障而影响系统功能的正常运行。 1.2.2.3 安全性要求 一体化电网运行智能系统主站应满足信息系统安全等级保护及电力 二次系统安全防护相关标准、规范的要求。 一体化电网运行智能系统主站在运行过程中应不影响电力系统的安 全性,不因系统本身的故障或错误导致电网安全事故。 1.2.2.4 集约化要求 一体 复杂的培训 即可掌握并使用此系统。 1.2.2.6 可维护性要求 主站系统应具备系统自检、性能预警、事件告警、故障诊断等功能, 可对系统软硬件设备进行全面的监测,并具备统一的管控界面,方便 11 电力行业数字化一体化监管平台建设方案 管理人员及时发现并排除系统隐患及故障。 1.2.2.7 可管理性要求 主站系统应具备软硬件设备集中管控能力,所采用的软硬件设备应 具有良好的可管理 一体化电网运行智能系统主要通过网络方式(包括调度数据网、综 合数据网及网络专线)实现主站与厂站及各级主站间的通信,并兼容 现有点对点模拟/数字串行通道及网络专线通道。 支持使用无线公网实现主站与配电终端、故障指示器的通信。 1.2.6 信息采集要求 信息采集应支持厂站及配电终端综合数据交换,纵向主站间综合数 据交换,横向业务数据交换,动态数据采集,视频信息采集,水雨情 15 电力行业数字化一体化监管平台建设方案20 积分 | 1383 页 | 7.42 MB | 6 月前3
共 874 条
- 1
- 2
- 3
- 4
- 5
- 6
- 88
