技术故障应急协同机制的探索技术故障 应急协同机制的探索 目录 技术故障重要性及定义 技术故障的全生命周期 如何落地应急协同机制 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 小结及展望 技术故障的重要性及定义 01 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 京 站 G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 技术故障重要性 海恩法则,也被称为Heinrich‘s law,是由德国飞机 涡轮机的发明者帕布斯·海恩提出的一个关于飞行安 全的法则。这一法则强调,每一起严重事故的背后, 必然有29次轻微事故和300起未遂先兆以及1000起事 故隐患。这表明,任何严重事故的发生都是经过了一 峰 会 2 0 2 4 · 北 京 站 什么是故障? 问题? 风险? 故障? 事故? 事件? 影响了业务的才是故障? G O P S 全 球 运 维 大 会 暨 X O p s 技 术 创 新 峰 会 2 0 2 4 · 北 京 站 技术故障在ITIL中的定义 ITIL定义:“服务的意外中断或服务质量的降低” 故障 问题 ITIL定义:为“问题”、“已知错误”,问题意味着隐患风险,已10 积分 | 23 页 | 5.34 MB | 5 月前3
2025年基于LTE-V2X预警类应用的功能安全分析白皮书H#1 由于 TxV 的 V2X 模块硬件故障(例 如宕机),导致 TxV 没有发出 V2X 消息 RxV 的驾驶员无法收到 V2X 预警 因此,RxV 驾驶员只能依赖下一步的视觉判断以识别危害。 当驾驶员依靠视觉看到 TxV 后,可能无充足的时间刹车或变 道 RxV 与 TxV 发生碰撞 H#2 由于 RxV 的 V2X 模块硬件故障(例 如宕机),RxV 没有收到 TxV 发出的 Exposure Severity Controllability ASIL 分 析 (ASIL 的可能范 围) H#1 H#2 H#3 H#4 由于 TxV 或 RxV 的 V2X 模块故障, 导致 TxV 没 有发出 V2X 消息或 RxV 没有收到 V2X 消息 Exposure: E1 在高速路以 120km/h 的速 度驾驶发生概 率 > 10% RxV 跟车距离 1(SG1)提出的功能安全要求 表 6 前向碰撞预警的安全目标 1 的功能安全要求 故障位 置 故障类别 潜在的功能安全要求 TxV FC1:由于 TxV 的原 因,V2X 消息未正常 发出 故障避免策略: PSFR-FC1-1(对 TxV 的要求):TxV 发送的 V2X 消息应准确及时,时延满 足相关标准要求 故障容错策略: PSFR-FC1-2(对 TxV 的要求):TxV 应在硬件或软件层面具备一定的冗余机10 积分 | 34 页 | 3.26 MB | 5 月前3
中兴-面向智算场景的高性能网络白皮书2025........................................................................................ 19 5.2.1 故障无感恢复:硬件检测,多级保障..............................................................19 中兴通讯版权所有未经许可不得扩散 5 为了满足数十万卡乃至更大规模的组网需求,在交换机支持端口数短期无法跃升的情况 下,传统的CLOS架构需要采用更多的网络层次,更多的网络层次意味着转发跳数增加,在 带来更大时延的同时,更多跳数的路径也增大了故障发生的概率和定位难度,使得网络难以 中兴通讯版权所有未经许可不得扩散 4 运维;同时,各层级之间用于互联的端口数量剧增,若采用光纤连接,光模块部分的成本增 加也不容忽视。 3)异构网络的互通挑战 AI和HPC均是典型的分布式系统,网络作为分布式系统的连接底座,网络的故障或者性 能波动会影响集群计算效率,因此网络自身的稳定性是整个系统稳定运行的基础。此外大规 模训练或计算任务可能持续数周或数月时间,因此要求网络需具备长期持续的稳定性。 高性能网络的稳定性可采用如下两方面的指标衡量: 1)网络可用性:即网络无故障运行的时间,该指标主要与故障间隔时间以及故障恢复 时间相关; 2)性能一致性:即在不同网络10 积分 | 41 页 | 1.89 MB | 6 月前3
中兴通讯自智网络白皮书2025自动化案例:核心网升级全流程自动化 27 4.2 智能化案例:网络云故障智能化处理 28 4.3 智能化案例:移网业务投诉智能化处理 Deutsche Telekom:面向 L4,提出 Dark NOC 的观点。定义网络运维的目标是一个无人工干预即可高度自 运转的网络运营中心,希望实现 Dark NOC 的无人化、数字化。 南非 MTN:聚焦故障管理和 IP 质量优化场景,开展自智网络创新实践,并同时进行流程穿越和能力提升变革。 泰国 AIS:将自智纳入“Cognitive Techco”战略,面向L4,聚焦客户投诉管理、网络优化、配置变更等高价值场景,利 围绕价值场景,持续提升端到端自动化智能化能力。 通过数据开放,能力开放,应用大模型及Agent等技 术,实现业务开通,网络变更,故障处理,网络优化 等各种场景的自动化运维运营。 孪 生 全栈数字孪生,通过创建网络的数字副本,实现对 网络状态的实时监 控、故障预测和性能优化,将达 到以虚映实,以虚控实,从而实现网络的可感可视 可控。 这六个方面持续演进,运营商能够提供更高效、更智能的10 积分 | 41 页 | 7.03 MB | 6 月前3
英特尔公有云和互联网创新实践等 AI 引擎提供的加速能力,中国电信网络大模型能通过分类预测、 知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。 大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力, 在流量预测、异常检测、故障管理等云网场景中实现隐患自动 发现与维护、故障自动隔离以及云网事件自动处置等网络运营 智能化能力。各级运维人员接入后,可以通过知识问答、信息 筛选和总结等交互方式,直接使用大模型的推理结果。 隐患自动发现与维护 故障推理引擎 英特尔® 深度学习加速 ( 英特尔® DL Boost) 英特尔® 高级矢量扩展 512 ( 英特尔® AVX-512) 英特尔® 高级矩阵扩展 ( 英特尔® AMX) 英特尔® 软件防护扩展 ( 英特尔® SGX) 流量预测 中国电信网络大模型 英特尔® 至强® 可扩展处理器 异常检测 故障管理 智能交互 智能调度 … 故障自动隔离 业务逻辑引擎 阿里云携手英特尔合作改进 DDR5 内存可靠性,联合开发了面向 DDR5 的内存故障预测和预 防解决方案,帮助提升服务器的可靠性和业务的正常运行。 • 方案在 BMC 中集成英特尔® MRT 技术提供 AI 辅助的实时预测和内存故障分析,其利用多维模型和人工智 能算法,在微观层面检测内存故障,使得数据中心提前预警和主动预测潜在的内存故障风险; • 在平台中引入第五代至强® 可扩展处理器,助力阿里云数据10 积分 | 38 页 | 12.52 MB | 5 月前3
中国移动:云智算技术白皮书(2025)5.2.1 训练并行优化 .......................... 14 2.5.2.2 低精度训练 ............................ 14 2.5.2.3 故障容错 .............................. 15 2.5.2.4 异构混训 .............................. 15 2.5.3 推理框架 .. GPU 服务器两大不同类型服务器组网需求。围绕两大场景对应 的两类关键芯片,攻关 GSE 交换芯片及网卡芯片引入基于 PKTC 的多路径喷洒、 基于 DGSQ 的拥塞避免以及基于66B 原子码块的故障检测与通告等三大原创技术, 实现从技术标准到商用产品转化,满足超十万卡 GPU 集群组网需求。 12 面向中远期,引入 GSE 通信库优化,利用网络拓扑的天然聚合特性实现梯度 聚合的高效卸载 术研究,面向智算推理场景,开展集中式、分布式部署方案验证,验证算力路由 在模型感知、推理实例选择的灵活性和高效率。 面向中远期,攻关面向大模型训练场景的多维算力信息融合路由机制,综合 感知网络拓扑、网络故障、节点算力状态、检查点等多维信息,构建稳定高效的 智算训练网络,充分发挥算力路由的性能潜力。 2.4.2 在网计算 云智算应用对带宽等通信资源更为敏感,智算训练、推理中存在大量的跨节 130 积分 | 30 页 | 716.31 KB | 5 月前3
华为云安全白皮书3.7Backup and Recovery, CBR)为云上的 弹性云服务器、 裸金属服务器、 云硬盘和云下 VMware 虚拟化 环境,提供简单 易用的备份服 务,针对病毒入 侵、人为误删 除、软硬件故障 等场景,可将数 据恢复到任意备 份点。 加密盘的备份数据自动加 密,保证数据安全。 备份数据跨数据中心保 存,数据持久性高达 99.999999999%。 OBS 对象存储服务是 一种基于对象的 库服务。 通过静态加密、表空间加 密、同态加密对数据进行加 密。华为云关系型数据库服 务支持对存储到数据库中的 数据加密后存储,加密密钥 由 KMS 进行管理。 关系型数据库服务采用热 备架构,故障系统 1 分钟 自动切换。每天自动备份 数据,上传到 OBS 桶, 备份文件保留 732 天,支 持一键式恢复。 IMS 镜像服务提供灵 活的自助服务和 完善的镜像管理 能力,用户可以 从丰富的公共镜 Computing)方式远程访问虚拟机, 使用账号口令进行身份认证,采用 TLS 1.2 版本进行加密传输,确保数据传输安 全。 ⚫ 事件管理功能:在弹性云服务器日常运维中,华为云会对实例所在底层宿主机的 软硬件故障进行预测和主动规避。当宿主机上的故障风险无法规避时,为避免因 ECS 实例的资源可用性或性能受损对用户的业务造成的更大影响,系统会对受影 响的实例生成事件并进行上报。您可以对系统上报的事件进行响应操作。 7.1.220 积分 | 92 页 | 2.74 MB | 5 月前3
2025年智算中心液冷整机柜服务器开放架构多样化算力兼容研究报告件架构、管理体系、组网架构以及运维习惯。最后体现不同之处仅在单柜功率密度 有所不同,并且具有相同厂商 AI 加速器跨代演进支持能力。 2、 服务器组件盲插运维便利性:部件运输可以盲插操作。在更换故障部件过 程中,可以降低单点运维时间,降低人为运维难度,减少运维人为故障因素提高部 署和运维效率,从而提高集群 MFU 利用率。 3、 液冷原生安全性:三级漏液监测和防护系统,3U 灵活子框 UBB 载板液冷 检测和自动关断、4U 检测和自动关断、4U 服务器节点级漏液检测,Manifold 盲插防喷溅,机柜级漏液 导流,机柜级漏液监控。 4、 水电隔离的安全性:采用上水下电,左水右电,机箱内水电隔离等布局, 防止发生因水路系统组件有故障不扩散不扩大到供电系统。 5、 降低 AI 集群总体功耗:通过主要芯片热源覆盖冷板,减少风扇数量降低 AI 服务器总功耗 10%,通过液冷散热系统降低机房总体 PUE。 3.2 硬件架构 BMC、CPLD 等固件。 34 图 5-5 管理系统升级界面 5. 排障:结合故障告警、性能数据及硬盘和内存的故障预测,实现整机柜的故障 定位。 图 5-6 管理系统告警界面 5.2 BMC 软件适配 单板管理软件对智算模组的散热管理、故障管理、资产管理等运维管理功能是保障算力 正常运行的先决条件,面对多样化算力的浪潮,不同的智算部件管理接口存在多样化的特征,0 积分 | 40 页 | 3.21 MB | 5 月前3
华为ASG2000系列上网行为管理产品技术白皮书(1)议负责在主/备设备之间备份关键配置和会话表状态信息,从而确保主用设备出现 故障时能由备用设备平滑地接替工作。 负载分担方式组网时,两台设备互为主备,正常情况下两台设备同时处理业务。当 其中一台设备发生故障时,另外一台设备会立即承担其业务,保证原来需要通过这 台设备转发的业务不中断。相对于主备备份方式来说,主用设备和备用设备共同处 理业务流量,可以提高网络的转发效率,降低主用设备发生故障的几率。 硬件Bypass ASG2600/2800 支持插入电 Bypass 接口卡和光 Bypass 接口卡,当设备出现故障时, Bypass 接口卡将上下游设备直接相连,保证业务不中断;当故障排除后,所有流 量恢复由设备处理后再发送,保证业务的安全性。 软件Bypass 启用软件 Bypass 功能后,ASG 不对业务做控制和审计,相当于上下游设备直接连 接。 引擎失效、过载保护 当 URL 件的附件。 3.6 威胁防护 大多数企业均面临着恶意软件的威胁,IDC预计75%的办公电脑在不知情的情况下感染了间 谍软件,间谍软件和其他类型的恶意软件可能导致机密信息外泄、办公电脑或网络故障、降低员 工工作效率、以及昂贵的桌面维护成本。 ASG提供业界最为先进的恶意流量检测技术和病毒检测技术,可以识别变形和新型攻击, 有效抵御针对上网用户的恶意软件威胁。 3.6.1 基于签名的恶意流量检测技术0 积分 | 23 页 | 977.80 KB | 5 月前3
中国建筑业企业数字化研究报告(2024)-北京中建协认证中心智能电网与智能设备管理:随着智能电网和智能设备的快速发展,电力行 业的数字化技术已深入到电力生产、输配、调度、运行等各个环节。智能电网 通过实时数据传输和远程控制技术,实现自我优化调节和故障检测。利用大数 据分析技术,对电网运行中的设备进行健康监测,提前预测设备故障,及时进 行维护,减少停电时间,提高电网的可靠性和稳定性。 二、细分专业的数字化应用现状 中国建筑业企业数字化研究报告 5 在建筑 化施工平台实时获取施工进度、材料使用情况等信息,提升施工效率。 智能化设备管理与运维:在智能建筑中,安装行业的设备管理与运维逐渐 向数字化、智能化方向发展。通过物联网技术,建筑中的各类设备实现实时数 据采集和监控,预警设备故障,提前进行维护。智能控制系统根据建筑实际使 用情况,自动调节空调、照明、电力等设施,提高能源利用效率。 (三)房屋体检的数字化应用 房屋体检领域借助先进的检测技术和数据分析手段,提高房屋健康状况评 10-20%。 在运营维护方面,通过分析建筑使用数据和设备运行数据,实现预测性维 护和能耗优化,延长设备使用寿命,降低运营成本。统计表明,基于大数据的 预测性维护策略可降低维护成本 20-30%,设备故障率降低 40-50%。 此外,大数据分析还在绿色建筑设计、建筑碳排放管理、劳动力资源优化 等方面展现出巨大价值。通过挖掘隐藏在数据中的规律和模式,大数据分析正 成为建筑企业创新业务模式、提升核心竞争力的关键工具,推动建筑业从经验20 积分 | 115 页 | 10.19 MB | 5 月前3
共 35 条
- 1
- 2
- 3
- 4
