华为:2025践行深度用云:主机上云运维现代化核心能力报告求。 除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有 效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能 力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而 大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协 同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安 全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。 华为 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界 2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平 2.3 基于先进的单元化设计理念达成核心应用N个9的可 靠性也是IT管理者面临的难题。 最后,服务SLA(Service Level Agreement, 服 务水平协议)的达成还需要有相匹配的管理手段与工 具,如故障模式库、演练工具等资源作为支撑,不但 要能有效跟踪度量SLA的实际效果,还需要持续、 主动发现可用性风险的机制与工具,在可用性管理的 过程中实现数据积累和能力演进。 挑战2:云平台技术栈快速增厚,如何0 积分 | 46 页 | 2.36 MB | 2 月前3
A级数据中心建设运营汇报方案(29页 PPT)检测仪器:编制与施工进度计划相匹配的检测仪器使用计划,特别是各 系统的测试和验证,应提前做好资料收集,仪器准备,包括福禄克网络 测试仪,温湿度计,热像仪,气流计、照度计等。 物资调配 调试与测试 运维 测试 故障切 换 灾难预 演 运维应 急流程 验证 功能 测试 ATS 系 统联调 UPS 系 统联调 柴油发 电机系 统联调 BMS 测试 散热系 统联调 精密空 调系统 联调 冷机系 / 工单)考核与验收结果的审批;负责整个项目执行过程的管控(进度、质量、文档、成本、验收等),确保项目任务 按时交付 运维工程师:常驻现场,通过不同的方式响应客户的需求,现场及远程为客户诊断、排除故障,对客户的问题进行汇总、分析,并提 出合理的解决办法;负责项目任务的分析、工单拆分与下发,负责服务厂商服务的定期考核 专家顾问组:由多名资深技术专家组成,主要负责对数据中心的规划设计,对用户提供安全评估、性能评估、稳定性评估、可靠性评 全评估、性能评估、稳定性评估、可靠性评 估、可用性评估,隐患预警报告;高级技术培训 技术资源部:由几十名资深专业技术人员组成,负责项目的规划;项目工程的实施;日常运营维护的远程、现场支持服务;用户故障 的诊断排查; 服务支持手段 心 为 客 户 提 供 7×2 4 小 时 响 应 的 服 务 平 台, 客 户 若 对 本 项 目 产 品、 技10 积分 | 29 页 | 11.70 MB | 1 月前3
2025年6G“零中断”网络设计白皮书-中移智库技术在全球范围内的商用推广,通信网络的规模和复杂性急剧 增长。近年来,全球通信网络中的重大故障事件也屡屡发生,给运营商和用户带 来了严重的影响。根据互联网公开数据和行业报告不完全统计,在 2021 年至 2024 年期间,全球通信行业发生了超过 66 起重大网络事故,影响范围广、恢复时间长、 经济损失严重。如何提高网络设备的容错性、提升整网抗信令风暴的鲁棒性以及 故障自愈的高效性是 6G 网络必须优先考虑和解决的问题。 图 图 1 2021年至2024年4/5G商用事故统计 事故诱因复杂,以网络故障和动网操作为主。4G/5G网络的故障呈现出软硬结 合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设 计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传 输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升 级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 语音和数据业务会同时受影响。占比约88%,因语音和数据业务强耦合设计, 一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受 牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 事故诱因 事故现象 业务影响 中断时长 3 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过 5个小时,主要0 积分 | 36 页 | 2.50 MB | 1 月前3
华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告战,这些挑战涉及日常运维、主动预防以及故障恢 图1.1 混合云现代化运维顶层设计参考架构 运维体系 现代化 统一化 运维体系 运维体系升级 IT架构演进升级 平台运维现代化 极简性 运维体验 极简信息汇聚 极简运维操作 极简管理决策 预见性 风险治理 风险预防管理 变更风控管理 混沌工程演练 确定性 故障恢复 可用性指标构建 全链路可观测 故障感知与快恢 云网定位定界 应用运维 应用数据治理 运维故障分析 安全运维现代化 无死角 安全管控 用户授权可控制 作业过程可信赖 合规遵从高等级 体系化 租户安全 云原生安全 全栈端到端安全 智能安全管控 混合云现代化运维设计参考架构 数字资产&运维能力迭代 云运维团队组建 运维团队管理流程经验 运维人才培养机制 运维团队能力沉淀 运维专家经验知识库 运维脚本、故障模式库 智能客服 运维资产智能转型 复等方方面面,华为在每个领域都提出了运维现代 化改进的方案:极简性的运维体验应对政企混合云 运维投入人力有限的场景,保证混合云运维效率; 预见性风险治理帮助政企客户实现风险的提前感知 与预防;确定性故障恢复则给出了在云与业务耦合 度日益加深的背景下的最佳答案。 应用运维现代化 当前,越来越多的用户将关注点从云与设备运维转 向应用的运维,尤其是承载着经济乃至国计民生的 05 核心应用的运维受到运维管理者额外的重视。将应20 积分 | 53 页 | 8.80 MB | 1 月前3
2025年算力运维体系技术白皮书-中国信通服务法规强化带来的合规压力, 以及人工智能技术催生的智能化运维需求,共同构成了算力运维的复杂技术生态。据 行业研究显示,算力中心的非计划停机每小时可能造成数百万美元损失,而高效的运 维体系可使设备故障率降低 40%以上,能源利用率提升 20%以上,凸显出科学运维体系 的核心价值。 本白皮书旨在系统梳理算力运维的技术框架与实践路径,为行业提供兼具前瞻性 与可操作性的参考指南。基于我们在算力基础设施领域多年的技术积累与项目经验, ......................................................................................- 13 - 2.2.3 故障预测与主动运维............................................................................................ 传统运维管理模式标准化,流程成熟,侧重流程合规与故障快速恢复;团 队需掌握服务器部署、网络排障等基础技能,对硬件底层原理深入理解要求较 低;算力运维管理模式动态化,需结合业务负载实时调整资源分配;团队需掌 握芯片级知识、能耗建模、分布式系统调度等技能,甚至需与算法工程师协作 优化算力使用效率。 算力运维体系技术白皮书 - 4 - (3). 传统运维故障多表现为单节点或单业务中断,影响范围较小,应对策略以10 积分 | 74 页 | 1.36 MB | 22 天前3
AI+工业设备预测性维护解决方案(34页 PPT),并依据该状态发展趋势和可能的故障模式 ,预先制定维修计划 ,确定机器应该修 理的时间、 内容、方式。预测性维护可以为企业带来以下效益: ☐ 降低维保成本 ☐ 延长设备寿命 ☐ 提高设备使用率 ☐ 减少库存成本 ☐ 提升生产安全 维护触发点 固定周期,不考虑设备实际 状态,可能带来过度维护 必要时,预留足够应对时间 给一线人员在故障前做出应对 维护方式 根据零部件的平均损坏率进行维护, 遵从操作手册(凭经验) 有计划无目标 事后维护 故障发生后 最昂贵的维护 事后维修比事前预防的成本高约 50% 以 上 状态监测 健康评估 异常监测 故障预测 故障诊断 维修决策 图形 1 解决方案 解决思路 将数据和知识库进行深入融合,构建 AI 模型库: 如整合设备传感器数据与知识库中的故障案例,预测 剩余使用寿命(如“轴承预计 AI+ 设备管理(预测性维护) 基于设备运行状态——实时监测与数据分析的主动维护策略: 持续采集设备运行参数(如振动、温度、电流等); 利用机器学习或物理模型预测设备劣化趋势; 在故障发生前,精准定位风险点并制定干预计划。 全面设备管理体系的三类方式比较 模式 特点 事后维护 " 不坏不修,坏了才修 " ,缺乏事前准备,易导致停工时间延长并扰乱生产计划。 预防性维护 按照10 积分 | 34 页 | 3.98 MB | 1 月前3
智慧校园数据中心建设方案(157页).......... 91 5.3.3 客户故障处理流程......................................................................................................................................... 92 5.3.4 故障受理..................... ..... 92 5.3.5 故障处理......................................................................................................................................................... 93 5.3.6 故障解决.............. 断扩展的需求,必须追求系统的开放性和灵活性。 (4) 高可靠性 在考虑技术先进性和开放性的同时,还应从系统结构、技术措施、设备性能、系统管理、 厂商技术支持及维修能力等方面着手,确保系统运行的可靠性和稳定性,达到最合适的平均无 故障时间。 (5) 实用性和经济性 系统建设应始终贯彻面向应用,注重实效的方针,坚持实用、经济的原则。 (6) 安全性和保密性 在系统设计中,既考虑信息资源的充分共享,更要注意信息的保护和隔离,因此系统应分20 积分 | 157 页 | 5.66 MB | 1 月前3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云障,数据库运维的可靠性与效率,直接决定了业务价值的实现能力。 当前,AI等新技术的发展为数据库可靠运维带来新的机遇与挑战。机遇方面,自然语言交互让非 技术人员也能便捷操作数据库,智能诊断与预测式运维将被动故障处置转化为主动风险防控,自 动化部署与调优大幅降低人工成本。挑战方面,AI幻觉导致的准确性风险、多技术栈(尤其是国产 数据库与云架构)带来的管理复杂度、数据爆炸式增长对灾备能力的更高要求,以及数据安全合 方式提升召回准确率和 稳定性,此外,也可以通过数据预处理矫正出问题的数据。 智能化部署:AI基于用户需求,自动生成配置文件并完成数据库部署,简化传统部署流程。 �.� AI对传统运维的影响 故障诊断与智能运维:根据不同数据库特性,利用AI生成巡检、监控、处置脚本和工具,协助完成 日常运维的巡检、监控、告警等操作,生成巡检报告以及事件总结报告。也可以构建AI Agent,将 运维排查和维 提升后再逐步引入。 �.� 运维应当如何拥抱AI � 稳定可靠 运维面临的挑战 第二章 随着数智化转型推进,海量数据爆发式增长,数据库作为数据底座,重要性越发凸显。对数据库可 靠性、灾备体系能力建设、故障恢复响应速度等提出了更高的要求。 数据库稳定可靠运维面临需求、逻辑实现不可控的挑战。 数据库稳定运行的最大挑战就是需求的合理性。一方面,在源头需求上,可能存在多个需求互斥、 技术无法实现或不合20 积分 | 89 页 | 2.06 MB | 1 月前3
中国联通:中国联通自智网络白皮书(2025)......................................................................................... 28 6.1 故障运维以业务为中心,提升客户体验 ................................................................................... Tech-Co”战略,2024年起,聚焦故障处理 和投诉处理两个高价值场景,充分利用LLM和Digital Twin技术构建L4能力;2025-2026年, 计划在网络优化、网络配置变更、网络规划等更多高价值场景打造L4能力。 Singtel集团:将自智网络视为未来战略,已在集团成立自智网络 Program,加强子网间 的经验分享与协作,共同迈向自智网络L4。目前聚焦于故障管理、投诉管理、无线节能和无线 none”的少人化/无人化的自智网络愿景,致力于成为自智网络先锋。目前聚焦家宽体验保障、 无线节能优化、无线故障处理、无线网络优化等高价值场景。 Orange: 自智网络是集团“Lead The Future 2030”战略的5个重点工作之一。明确了 向自智网络L4演进的目标,目前聚焦网络变更、故障管理等高价值场景。 Telefónica:发布公司级战略“AN Journey”,聚焦于网络O&M等高价值场景,以全网10 积分 | 46 页 | 4.28 MB | 1 月前3
某区生活驿站大数据平台系统维保项目实施方案(45页 WORD)某区生活驿站大数据平台系统维保项目实施方案 双方协商确定。 1.3.2 系统优化分析方案 系统的优化、数据的整理、常见故障的排除;计算机病毒的查、杀、防毒 软件的定期升级;根据使用人员的要求、提供系统软件的升级。系统数据的备 份与恢复。服务小组的工程师将利用母盘克隆、网络备份、存储备份等方法把 重要部门的系统和数据安全备份,出现故障时在最短时间内进行数据的恢复。 1.3.3 应用健康检查方案 服务团队基于软件健康检查 未达到。如果在 7 天或与我们书面达成共识的更长的期间之内,客户既不接受 所提交的文档,也不给我们拒绝接受的通知,所提交的文档将被视为已接受, 并且求助电话的状态将变为已结束。 我们将不对直接或间接因系统故障或系统不足够所造成的拖延承担责任。 16 某区生活驿站大数据平台系统维保项目实施方案 1.3.8.3 每月的总结 每月的第五个工作日,客户和我们将召开会议(或者通过电话或面对面) 回顾企业 并记录服务台事件处理结果。 技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文 档,力争恢复到故障点前的业务状态。对于“系统瘫痪,业务系统不能运转”的故 障级别,如果不能于 1 个工作日内解决故障,公司将在 3 个工作日内提出应急 方案,确保业务系统的运行。故障解决后 24 小时内,提交故障处理报告。说明 故障种类、故障原因、故障解决中使用的方法及故障损失等情况。 1.3.9.2 行为规范10 积分 | 67 页 | 309.31 KB | 23 天前3
共 713 条
- 1
- 2
- 3
- 4
- 5
- 6
- 72
