华为:2025践行深度用云:主机上云运维现代化核心能力报告求。 除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有 效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能 力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而 大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协 同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安 全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。 华为 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界 2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平 2.3 基于先进的单元化设计理念达成核心应用N个9的可 靠性也是IT管理者面临的难题。 最后,服务SLA(Service Level Agreement, 服 务水平协议)的达成还需要有相匹配的管理手段与工 具,如故障模式库、演练工具等资源作为支撑,不但 要能有效跟踪度量SLA的实际效果,还需要持续、 主动发现可用性风险的机制与工具,在可用性管理的 过程中实现数据积累和能力演进。 挑战2:云平台技术栈快速增厚,如何0 积分 | 46 页 | 2.36 MB | 19 天前3
企业IT统一智能运营管理解决方案机房环境 硬件设备 网络 中间件 业务 数据 系统 应用 IT 监控运维 业务运营 人 员 方 法 流 程 工 具 可用性 成本 连续性 性能 体验 设备故障 系统异常 系统故障 系统变更 企业 IT 监控运维是企业业务正常与高效运转的基础保障 系统监控 维修更新 业务保障 应用反馈 6 IT 运维现状 · 被动救火式运维模式,业务风险高、运维人员疲于奔命 新系统上线越来越多 业务访问量快速增长 用户体验要求越来越高 业务处理时效性更高 业务中断容忍度更低 高层对 IT 部门考核更严…… 系统架构越来越复杂 故障类型越来越多 系统负载更大、故障风险高 故障排查、修复更难 技术快速演进与新技术应用 人员技术能力与经验不足 人员成本越来越高 知识经验无法沉淀…… 外部 挑战 内部 挑战 规模更大 要求更高 变化更快 定时粗略巡查 等待故障报告 人工故障处理 实时全面监控 分散维护系统 集中监控系统 自动故障处理 提前故障预警 随着业务对 IT 运维提出的要求越来越高,原来传统的被动救火式的 IT 运维模式已经不能 满足企业的要求,无法为业务的发展提供保障 只有借助当前先进的技术,构建主动巡防式的 IT 监控与运维体系,能够提前预防并智能 化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对10 积分 | 33 页 | 4.92 MB | 6 月前3
2025年6G“零中断”网络设计白皮书-中移智库技术在全球范围内的商用推广,通信网络的规模和复杂性急剧 增长。近年来,全球通信网络中的重大故障事件也屡屡发生,给运营商和用户带 来了严重的影响。根据互联网公开数据和行业报告不完全统计,在 2021 年至 2024 年期间,全球通信行业发生了超过 66 起重大网络事故,影响范围广、恢复时间长、 经济损失严重。如何提高网络设备的容错性、提升整网抗信令风暴的鲁棒性以及 故障自愈的高效性是 6G 网络必须优先考虑和解决的问题。 图 图 1 2021年至2024年4/5G商用事故统计 事故诱因复杂,以网络故障和动网操作为主。4G/5G网络的故障呈现出软硬结 合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设 计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传 输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升 级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 语音和数据业务会同时受影响。占比约88%,因语音和数据业务强耦合设计, 一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受 牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 事故诱因 事故现象 业务影响 中断时长 3 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过 5个小时,主要0 积分 | 36 页 | 2.50 MB | 1 天前3
AI+工业设备预测性维护解决方案(34页 PPT),并依据该状态发展趋势和可能的故障模式 ,预先制定维修计划 ,确定机器应该修 理的时间、 内容、方式。预测性维护可以为企业带来以下效益: ☐ 降低维保成本 ☐ 延长设备寿命 ☐ 提高设备使用率 ☐ 减少库存成本 ☐ 提升生产安全 维护触发点 固定周期,不考虑设备实际 状态,可能带来过度维护 必要时,预留足够应对时间 给一线人员在故障前做出应对 维护方式 根据零部件的平均损坏率进行维护, 遵从操作手册(凭经验) 有计划无目标 事后维护 故障发生后 最昂贵的维护 事后维修比事前预防的成本高约 50% 以 上 状态监测 健康评估 异常监测 故障预测 故障诊断 维修决策 图形 1 解决方案 解决思路 将数据和知识库进行深入融合,构建 AI 模型库: 如整合设备传感器数据与知识库中的故障案例,预测 剩余使用寿命(如“轴承预计 AI+ 设备管理(预测性维护) 基于设备运行状态——实时监测与数据分析的主动维护策略: 持续采集设备运行参数(如振动、温度、电流等); 利用机器学习或物理模型预测设备劣化趋势; 在故障发生前,精准定位风险点并制定干预计划。 全面设备管理体系的三类方式比较 模式 特点 事后维护 " 不坏不修,坏了才修 " ,缺乏事前准备,易导致停工时间延长并扰乱生产计划。 预防性维护 按照10 积分 | 34 页 | 3.98 MB | 1 天前3
智慧校园数据中心建设方案(157页).......... 91 5.3.3 客户故障处理流程......................................................................................................................................... 92 5.3.4 故障受理..................... ..... 92 5.3.5 故障处理......................................................................................................................................................... 93 5.3.6 故障解决.............. 断扩展的需求,必须追求系统的开放性和灵活性。 (4) 高可靠性 在考虑技术先进性和开放性的同时,还应从系统结构、技术措施、设备性能、系统管理、 厂商技术支持及维修能力等方面着手,确保系统运行的可靠性和稳定性,达到最合适的平均无 故障时间。 (5) 实用性和经济性 系统建设应始终贯彻面向应用,注重实效的方针,坚持实用、经济的原则。 (6) 安全性和保密性 在系统设计中,既考虑信息资源的充分共享,更要注意信息的保护和隔离,因此系统应分20 积分 | 157 页 | 5.66 MB | 1 天前3
智慧电力运维平台建设技术方案..................16 3.2.2.2.5 以区域(全省)维度展示用电企业故障统计.......................................................................17 3.2.2.2.6 以区域(全省)维度展示用电企业故障展示............................................. ..................23 3.2.2.2.15 以区域(自定义)维度展示用电企业故障统计.................................................................24 3.2.2.2.16 以区域(自定义)维度展示用电企业故障展示............................................... ...................37 3.2.2.3.7 全省运维故障详情信息查询.................................................................................................38 3.2.2.3.8 全省运维故障详情列表展示................................60 积分 | 229 页 | 385.39 KB | 4 月前3
【标准】5G智慧港口网络建设规范DB4403/T 442—2024 5 小区的网络需求。一条链路传输操控维护数据,当传输操控维护数据的端口或链路故障时,操 控维护数据能够使用另一条链路,避免单端口、单链路故障造成业务中断; b) BBU 至传输设备采用双路由主备加固方案,当其中一条链路、端口或单板故障时,业务能够使 用另一条链路。 5.4.5 核心网高可靠 5.4.5.1 核心网控制面轻量级下沉-应急容灾方案 在港区内用户面 ,当港区用户面 UPF 与大网 5GC 之间故障失联时,通过内置的“本地应急控制面”服务提供应急容灾能力,保障港区已接入的稳态 业务不掉线,惯性运行,并支持用户重新接入。 5.4.5.2 用户面 UPF 容灾方案 港口内部可部署两台或以上 UPF,支持负荷分担或主备模式,包括同局址容灾(同机房)、异局址 容灾,因同局址网元级容灾出现“局房级”故障时存在业务中断风险,推荐异局址(不同机房)容灾。 网络通报:对于网络或系统升级、调整、优化,供应商应提前通知需求方; e) 故障响应:提供 7×24 小时故障服务受理,故障服务响应时间应小于 1 小时; f) 专网 SIM 卡:提供业主所需的专网 SIM 卡及 IMSI 等信息。 7.1.2.2 业务投诉及故障处理时限 业务故障指影响需求方业务正常使用的故障,包括业务中断故障和一般故障。业务故障处理时限指 自收到故障投诉时或出现监控告警时起,至需求方业务恢复正常所需要的时间,业务恢复时限要求见表20 积分 | 19 页 | 631.63 KB | 1 天前3
电力行业数字化转型智慧电力一体化监管云平台整体解决方案硬件设备及软件采用冗余配置、集群、虚拟化、容灾备用等技术手段, 消除单点故障,确保不因部分软硬件故障而影响系统功能的正常运行。 1.2.2.3 安全性要求 一体化电网运行智能系统主站应满足信息系统安全等级保护及电力 二次系统安全防护相关标准、规范的要求。 一体化电网运行智能系统主站在运行过程中应不影响电力系统的安 全性,不因系统本身的故障或错误导致电网安全事故。 1.2.2.4 集约化要求 一体 复杂的培训 即可掌握并使用此系统。 1.2.2.6 可维护性要求 主站系统应具备系统自检、性能预警、事件告警、故障诊断等功能, 可对系统软硬件设备进行全面的监测,并具备统一的管控界面,方便 11 电力行业数字化一体化监管平台建设方案 管理人员及时发现并排除系统隐患及故障。 1.2.2.7 可管理性要求 主站系统应具备软硬件设备集中管控能力,所采用的软硬件设备应 具有良好的可管理 一体化电网运行智能系统主要通过网络方式(包括调度数据网、综 合数据网及网络专线)实现主站与厂站及各级主站间的通信,并兼容 现有点对点模拟/数字串行通道及网络专线通道。 支持使用无线公网实现主站与配电终端、故障指示器的通信。 1.2.6 信息采集要求 信息采集应支持厂站及配电终端综合数据交换,纵向主站间综合数 据交换,横向业务数据交换,动态数据采集,视频信息采集,水雨情 15 电力行业数字化一体化监管平台建设方案20 积分 | 1383 页 | 7.42 MB | 4 月前3
金融业AI大模型智算网络研究报告训练期间如果出现网络不稳定的问题,会影响整个训练任务的进 度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如 Meta OPT-175B训练,故障定位平均时长约11小时,复杂应用故 障定位长达80小时。因此需要一套具备精细化监控、端网一体化 的,且可一键故障定界、定位及自愈的技术手段,来提升智算网 络易用性。 四是高安全模型保障。在推理和训练的各个阶段,大模型都 可能成为网络攻击的对象,因此需要采取额外的安全措施来保护 EQDS:端侧 SMarTTrack: 端侧+网络侧 端侧 五是以 OTT 厂商为代表打造可运维网络,减轻运维成本。OTT 厂商通过采用交换机双归方法来缓解光电端口闪断等常见故障 问题,探索光模块故障快速定位定界、快速自恢复等全新方法, 尝试建立有效的网络性能观测和风险预警机制。整体上,业界对 网络运维能力提升对保障算力运营效率的重要性已形成共识,但 目前仍然缺乏成熟有效的运维手段,常规的流量采集方案在智算 算力效率的充分发挥依赖高可用网络基础,需构建快速故障 恢复能力的高可用网络,减少因网络故障中断、网络拥塞低效等 问题带来的算力资源浪费,保障分布式计算任务的稳定进行。 1.高可靠传输网络 相较于传统网络,大模型训练网络对丢包中断等异常情况的 容忍度更低,对故障敏感度更高,收敛时间要求更严,有更高的 可靠性要求。传统网络依赖控制面协议探测协商,故障中断时可 能产生百毫秒左右的短暂中断,但是这百毫秒中断若发生在数据10 积分 | 33 页 | 1.70 MB | 1 天前3
某织染项目(含SCADA及MES)综合建议书(83页 WORD)................................................................................ 35 2 3.5.6 设备故障管理 ............................................................................................ 36 系统,由各自的账户权限和安全等级来确定其所能访问的系统功能范围。 建立 SCADA 系统的意义就是为了方便管理层以及使用者对于产线的生产情况有一 定程度的了解,所以,在除了基础数据的展示外。KS 平台还提供故障报警,自定义报 表简单的数据统计分析等功能。以此来满足企业的基础需求。 2.3.数据的转发 KS 中存储和展示的数据,不仅可以供于其自身使用,还可以通过相应的接口提供 给其它软件使用,这主要 影响生产的因素采 取一些可控的管理手段,在规范生产管理的同时减少因人员问题导致的生产异常 情况发生; l 设备方面,如果没有科学的管理手段,将会导致设备的维护保养计划可能无法按 时到位,设备故障也就无法短时间内解决。从而在根本上影响生产,所以,对于 设备的管理,需要制定一些直接有效且全面的管理手段; l 报警预警方面,一般情况下的报警只能起到提示的作用(如 SCADA 系统中的报 警10 积分 | 85 页 | 10.84 MB | 19 天前3
共 797 条
- 1
- 2
- 3
- 4
- 5
- 6
- 80
