技术故障应急协同机制的探索技术故障 应急协同机制的探索 目录 技术故障重要性及定义 技术故障的全生命周期 如何落地应急协同机制 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 小结及展望 技术故障的重要性及定义 01 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 京 站 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 技术故障重要性 海恩法则,也被称为Heinrich‘s law,是由德国飞机 涡轮机的发明者帕布斯·海恩提出的一个关于飞行安 全的法则。这一法则强调,每一起严重事故的背后, 必然有29次轻微事故和300起未遂先兆以及1000起事 故隐患。这表明,任何严重事故的发生都是经过了一 峰 会 2 0 2 4 · 北 京 站 什么是故障? 问题? 风险? 故障? 事故? 事件? 影响了业务的才是故障? G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 技术故障在ITIL中的定义 ITIL定义:“服务的意外中断或服务质量的降低” 故障 问题 ITIL定义:为“问题”、“已知错误”,问题意味着隐患风险,已10 积分 | 23 页 | 5.34 MB | 5 月前3
2025年基于同期暂态录波的配网故障早期预警技术研究与实践报告0 积分 | 30 页 | 2.29 MB | 5 月前3
2025年制造行业精选案例集构数据、跨平台服务交互等问题导致运维风险攀升,传统监 控手段难以精准定位故障与性能瓶颈。在此背景下,构建端 到端可观测性能力,实现全链路洞察成为制造企业保障系统 稳定性、提升生产效率的必由之路。 可观测性技术为制造业注入新动能。博睿数据凭借一体化智 能可观测平台领先的全栈数据采集与智能分析能力,可真正 实现全栈、全链路、全场景的可观测性,精准定位故障根因、 预判风险并优化资源配置。显著缩短MTTR、降低运维成本, 同时以数据驱动生产流程优化,为质量管控、供应链协同等 场景提供敏捷支持,最终转化为可持续的竞争力优势。 本案例集收录了制造业多家精选客户实践,系统梳理了近年 来博睿数据服务制造企业的典型经验,聚焦生产系统监控、 故障智能诊断、性能持续优化等核心场景,为制造企业数字 化转型提供可参考、可复制的实战指南。 01 02 03 04 05 06 07 08 09 10 11 12 13 14 博睿数据成立已有十余年,在IT运维领域拥有独 特的优势 产品应用领域广泛 博睿数据产品已广泛应用于银行、证券、保险、 高端制造等领域 应用效果 深度剖析业务交互数据,快速 定位问题根因 快速锁定故障业务操作人员,时效性 由原来2小时缩短至5分钟 优化代码质量,提高应用性能 有针对性的优化代码执行效率,协助 开发人员将SCM生产管理系统的响应 时间降低46.2% 降低运维难度,提高运维效率10 积分 | 65 页 | 16.70 MB | 5 月前3
2025年基于LTE-V2X预警类应用的功能安全分析白皮书H#1 由于 TxV 的 V2X 模块硬件故障(例 如宕机),导致 TxV 没有发出 V2X 消息 RxV 的驾驶员无法收到 V2X 预警 因此,RxV 驾驶员只能依赖下一步的视觉判断以识别危害。 当驾驶员依靠视觉看到 TxV 后,可能无充足的时间刹车或变 道 RxV 与 TxV 发生碰撞 H#2 由于 RxV 的 V2X 模块硬件故障(例 如宕机),RxV 没有收到 TxV 发出的 Exposure Severity Controllability ASIL 分 析 (ASIL 的可能范 围) H#1 H#2 H#3 H#4 由于 TxV 或 RxV 的 V2X 模块故障, 导致 TxV 没 有发出 V2X 消息或 RxV 没有收到 V2X 消息 Exposure: E1 在高速路以 120km/h 的速 度驾驶发生概 率 > 10% RxV 跟车距离 1(SG1)提出的功能安全要求 表 6 前向碰撞预警的安全目标 1 的功能安全要求 故障位 置 故障类别 潜在的功能安全要求 TxV FC1:由于 TxV 的原 因,V2X 消息未正常 发出 故障避免策略: PSFR-FC1-1(对 TxV 的要求):TxV 发送的 V2X 消息应准确及时,时延满 足相关标准要求 故障容错策略: PSFR-FC1-2(对 TxV 的要求):TxV 应在硬件或软件层面具备一定的冗余机10 积分 | 34 页 | 3.26 MB | 5 月前3
中国移动IT云智慧运维创新实践(35页 PPT)部署的区域 ,所有探针全 MESH 多协议探测, 统一的健康度计算、告警 ,并呈现在态势感 知拓扑。帮助运维人员快速判断应用故障是 否与网络有关。 全局网络拓扑 网元自动发现: 基于网络运行数据生成网 络拓扑 ,从架构、 区域、设备到链路整体可 视化 以健康度评估模型为触点 ,构 建故障场景 , 自动定位故障根因 极简网络发现:基于标准协议, 自动发现 网络设备、连接关系 智能监测: 发现网络后自动采集网络时延、 丢包率、利用率等网元指标 ,动态更新 星空雷达网络 AI 分析平 台 构建数字孪生模型 l l l l l l 自动感知故障 自动发现网络 能力开放 智能分析 故障定界 依托数据中心全景视图大屏 以及聚合展示 ,以网络存活度、平均响应时延、平均丢包率等指标对批量设备的 IP 进行监测 ,星空雷达关注的重点不 再 是单个网元的故障 ,而是可能引起大规模故障的异常网元集合。 星空雷达网络 分析平 台 AI 将网络抽象为设备、链路、路径三类网元 ,而网元健康度基于不同的计算因子采用扣分机制 ,结合历史波动、 异常样本, 自动分辨计算指标的异常状态20 积分 | 35 页 | 8.58 MB | 1 天前3
中兴-面向智算场景的高性能网络白皮书2025........................................................................................ 19 5.2.1 故障无感恢复:硬件检测,多级保障..............................................................19 中兴通讯版权所有未经许可不得扩散 5 为了满足数十万卡乃至更大规模的组网需求,在交换机支持端口数短期无法跃升的情况 下,传统的CLOS架构需要采用更多的网络层次,更多的网络层次意味着转发跳数增加,在 带来更大时延的同时,更多跳数的路径也增大了故障发生的概率和定位难度,使得网络难以 中兴通讯版权所有未经许可不得扩散 4 运维;同时,各层级之间用于互联的端口数量剧增,若采用光纤连接,光模块部分的成本增 加也不容忽视。 3)异构网络的互通挑战 AI和HPC均是典型的分布式系统,网络作为分布式系统的连接底座,网络的故障或者性 能波动会影响集群计算效率,因此网络自身的稳定性是整个系统稳定运行的基础。此外大规 模训练或计算任务可能持续数周或数月时间,因此要求网络需具备长期持续的稳定性。 高性能网络的稳定性可采用如下两方面的指标衡量: 1)网络可用性:即网络无故障运行的时间,该指标主要与故障间隔时间以及故障恢复 时间相关; 2)性能一致性:即在不同网络10 积分 | 41 页 | 1.89 MB | 6 月前3
基于AIops的智慧运营大脑探索与实践-上云系统PaaS层用自有研发的组件,IaaS层上混合云,原属地化维护变为 多个单位维护; n IaaS/PaaS/SaaS层的故障难以关联分析,快速定位; n 采用云原生架构,原有基于Oracle及传统架构的运维手段、经验不可用; n 应用间调用关系复杂,传统监控模式无法做到先于客户发现问题,先于 投诉解决故障 监控对象:几何级数增长,人力维护不能胜任 调用承载关系极其复杂,亟待引入运维工具 应用软件: 硬件: 关联监控:通过主数据治理, 拉通从应用到组件、主机的关 联关系,实现故障根因快速定 位 n AI注智:引入AI算法,实现动态 告警阈值及故障趋势预测、关 联分析、根因分析 n 统一监控:按系统/场景/专 业等维度,整IaaS/PaaS/SaaS 的监控手段,实现全省IT系 统监控统一纳管 n 统一调度:固化常见故障自 动化处理手段,探索实现故 障自动发现、自动调度、自 动修复;集中管控日常巡检 腾讯云 阿里云 华为云 融网 专线 专网 网络拓扑 网络安全 融AI 知识图谱 故障自愈 故障预测 数字孪生 IaaS PaaS SaaS 各类IT系统、平台 统一展现 统一监控 自研融合监控平台-智慧运营大脑 自研目标 p 急用先行:统一监控各类IT系统和场景, 解决IT监控分层割裂、故障根因定位难、 手段少的问题,提升系统稳定性; p All In One :一个底座,统一纳管云/网/10 积分 | 26 页 | 8.20 MB | 5 月前3
中兴通讯自智网络白皮书2025自动化案例:核心网升级全流程自动化 27 4.2 智能化案例:网络云故障智能化处理 28 4.3 智能化案例:移网业务投诉智能化处理 Deutsche Telekom:面向 L4,提出 Dark NOC 的观点。定义网络运维的目标是一个无人工干预即可高度自 运转的网络运营中心,希望实现 Dark NOC 的无人化、数字化。 南非 MTN:聚焦故障管理和 IP 质量优化场景,开展自智网络创新实践,并同时进行流程穿越和能力提升变革。 泰国 AIS:将自智纳入“Cognitive Techco”战略,面向L4,聚焦客户投诉管理、网络优化、配置变更等高价值场景,利 围绕价值场景,持续提升端到端自动化智能化能力。 通过数据开放,能力开放,应用大模型及Agent等技 术,实现业务开通,网络变更,故障处理,网络优化 等各种场景的自动化运维运营。 孪 生 全栈数字孪生,通过创建网络的数字副本,实现对 网络状态的实时监 控、故障预测和性能优化,将达 到以虚映实,以虚控实,从而实现网络的可感可视 可控。 这六个方面持续演进,运营商能够提供更高效、更智能的10 积分 | 41 页 | 7.03 MB | 6 月前3
智慧酒店信息化建设整体解决方案(48页 Word)定制。网络管理的目的不限于对设备的管理,而是在设备管理的基础上,实现各类系统、模块的 统一调度和一体化操控,并形成跨系统、跨平台的,涵盖结构性数据和非结构性数据的综合运行 维护日志,为酒店及时消除故障、整体平稳运行和挖掘商业机会提供实时数据和参考依据。 综合网络管理平台的建设,需要充分考虑在集成众多系统和设备之后,如何处理随之而来的 海量信息,并如何对海量数据进行有效的提取和过滤。图像智能分析和大数据技术的发展,让这 意部分的网络事件和故障,有可能是来自不同厂家跨平台的信息,也有可能是同一厂家的不同类 型与型号的设备;所以必须部署相应的故障管理工具,进行相关网络设备的故障管理,及时掌握 全网的健康状况。综合网络管理平台的故障管理必须包含能针对故障可以进行分级别、分类别, 提供实时的条件查询(按时间、级别、类别等条件查询);当故障发生时提供声音形式的网络告 警并可以实时发送电子邮件和手机短信;针对后台的网络故障,可以实时地发现并报警(在 5 分 钟之内);当某个系统产生故障的报警并在告警页面上显示出来以后,必须先要经过管理员的确 认以后,才能清除此告警;提供系统日志以及本软件系统各个部分的日志的接收和处理;针对各 种网络事件和告警定义实现了不同的级别并以不同颜色相对应;对所有的网络告警和事件提供实 时显示,并默认存储在数据库中。 在日常的运行维护中,不仅需要作为事后补救措施的故障发现和故障消除,综合网络管理平 台更需要具20 积分 | 45 页 | 8.92 MB | 1 天前3
2025年金融业新一代数据中心创新发展案例集-金科创新社交付。多云管理平台基于服务蓝图可以连接、编排、分析异构的多云环境。按照容量、故障域、运维管理规范等相 关的调度策略,实现对资源池的动态调度。将管理理念和业务流程实现在技术工具中,提升数据中心治理水平。 平台具备日常的合规巡检、软件安装与发布、补丁分发及安装等强大的自动化管控能力,与监控系统联动,可 实现故障的闭环自动化修复。 平台实现云资源的全生命周期管理和成本管理,减少资源浪费,通过服务的自助交付,合规检查、软件安装等 平台、x86 裸金属服务器、 SDN、SDS 等在内的多云环境,可按照容量、故障域、运维管理规范等相关的服务调度策略,实现对资源池的动态 调度。 从基础架构到业务应用,可用性和性能状态一体化监控、自动化运维和巡检、协助用户保证业务的连续性;通 过对告警数据的关联分析,快速定位业务薄弱点。并根据监控指标可实现故障的闭环自动化修复。 通过云管平台实现对多云环境进行统一资源管控,包括资源配额、 使得 IT 部门能够轻松地对各种设备和系统进行 集中管理。无论设备种类多么繁杂、品牌多么不同,都可以通过云平台进行统一的监控和维护。这不仅简化了运维流程, 还大大提高了管理效率和响应速度。当出现故障或问题时,IT 部门可以迅速定位并解决,减少了业务中断的风险。 此外,通过信创云平台的改造,我行还实现了业务系统的国产化替代,提高了信息安全性和自主可控能力。同时, 一云多芯的支持也为我们带来了20 积分 | 142 页 | 10.95 MB | 1 天前3
共 189 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19
