华为:2025践行深度用云:主机上云运维现代化核心能力报告求。 除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有 效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能 力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而 大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协 同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安 全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。 华为 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界 2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平 2.3 基于先进的单元化设计理念达成核心应用N个9的可 靠性也是IT管理者面临的难题。 最后,服务SLA(Service Level Agreement, 服 务水平协议)的达成还需要有相匹配的管理手段与工 具,如故障模式库、演练工具等资源作为支撑,不但 要能有效跟踪度量SLA的实际效果,还需要持续、 主动发现可用性风险的机制与工具,在可用性管理的 过程中实现数据积累和能力演进。 挑战2:云平台技术栈快速增厚,如何0 积分 | 46 页 | 2.36 MB | 19 天前3
企业IT统一智能运营管理解决方案机房环境 硬件设备 网络 中间件 业务 数据 系统 应用 IT 监控运维 业务运营 人 员 方 法 流 程 工 具 可用性 成本 连续性 性能 体验 设备故障 系统异常 系统故障 系统变更 企业 IT 监控运维是企业业务正常与高效运转的基础保障 系统监控 维修更新 业务保障 应用反馈 6 IT 运维现状 · 被动救火式运维模式,业务风险高、运维人员疲于奔命 新系统上线越来越多 业务访问量快速增长 用户体验要求越来越高 业务处理时效性更高 业务中断容忍度更低 高层对 IT 部门考核更严…… 系统架构越来越复杂 故障类型越来越多 系统负载更大、故障风险高 故障排查、修复更难 技术快速演进与新技术应用 人员技术能力与经验不足 人员成本越来越高 知识经验无法沉淀…… 外部 挑战 内部 挑战 规模更大 要求更高 变化更快 定时粗略巡查 等待故障报告 人工故障处理 实时全面监控 分散维护系统 集中监控系统 自动故障处理 提前故障预警 随着业务对 IT 运维提出的要求越来越高,原来传统的被动救火式的 IT 运维模式已经不能 满足企业的要求,无法为业务的发展提供保障 只有借助当前先进的技术,构建主动巡防式的 IT 监控与运维体系,能够提前预防并智能 化处理系统的各类故障,才为业务的快速发展保驾护航,满足企业对10 积分 | 33 页 | 4.92 MB | 6 月前3
金融业AI大模型智算网络研究报告训练期间如果出现网络不稳定的问题,会影响整个训练任务的进 度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如 Meta OPT-175B训练,故障定位平均时长约11小时,复杂应用故 障定位长达80小时。因此需要一套具备精细化监控、端网一体化 的,且可一键故障定界、定位及自愈的技术手段,来提升智算网 络易用性。 四是高安全模型保障。在推理和训练的各个阶段,大模型都 可能成为网络攻击的对象,因此需要采取额外的安全措施来保护 EQDS:端侧 SMarTTrack: 端侧+网络侧 端侧 五是以 OTT 厂商为代表打造可运维网络,减轻运维成本。OTT 厂商通过采用交换机双归方法来缓解光电端口闪断等常见故障 问题,探索光模块故障快速定位定界、快速自恢复等全新方法, 尝试建立有效的网络性能观测和风险预警机制。整体上,业界对 网络运维能力提升对保障算力运营效率的重要性已形成共识,但 目前仍然缺乏成熟有效的运维手段,常规的流量采集方案在智算 算力效率的充分发挥依赖高可用网络基础,需构建快速故障 恢复能力的高可用网络,减少因网络故障中断、网络拥塞低效等 问题带来的算力资源浪费,保障分布式计算任务的稳定进行。 1.高可靠传输网络 相较于传统网络,大模型训练网络对丢包中断等异常情况的 容忍度更低,对故障敏感度更高,收敛时间要求更严,有更高的 可靠性要求。传统网络依赖控制面协议探测协商,故障中断时可 能产生百毫秒左右的短暂中断,但是这百毫秒中断若发生在数据10 积分 | 33 页 | 1.70 MB | 1 天前3
IT运维管理解决方案治理投入缺乏 合规审计要求越来越高,运行风险越来越大 被动服务导向,服务满意度差 经验式和离散的服务流程,服务过程缺乏管理 IT 部门和维护人员的工作绩效难以考核 缺乏有效的知识管理,容易产生人员单点故障 外包服务趋势,服务质量难评估 2 ITIL 和 IT 运维治理 ITILv1 Created ITIL Created ITIL ITILv2 ITILv3 1980s 1990s 2023 ITIL 概览 -- ITIL V2 效劳支持、效劳供给框架 IT Customer Relationship Management 公布治理 变更治理 配置治理 效劳水平治理 大事〔故障〕治理 问题治理 效劳供给 Service Delivery 效劳支持 Service Support Service Desk 效劳台 容量〔力气〕治理 IT 效劳连续性治理 可用性治理 部门面对客户恳求时,没有统一的效劳 ,客户往往直接联系工程师。恳求没有被记录下 来,很难后续追踪和统计。虽然看似很高效很便利,但客户怎么还不满足? 建立分层的故障支持体系,增加 IT 部门整体联动性 当 IT 部门在处理故障时,往往设计到几个部门 / 组同时诊断,导致扯皮现象发生,最终延误了故障 处理的时间,如何才能有效避开此类状况?如何让整个 IT 组织高效运转起来? 用户 用户 上级支持机构 上级支持机构 供给商 供给商10 积分 | 28 页 | 3.37 MB | 6 月前3
智慧园区&园区IOC平台&大数据管理平台&可视化指挥平台&运维管理平台解决方案(194页 WORD)全网设备资产,进行分类运维统 计,流程式维修引导,保障视频监控系统的业务质量,实时监测系统安全性和 稳定性,极大程度提高了视频监控系统的运行维护水平和效率。本次建设运维 管理系统,集设备管理、故障管理、资产管理、网络管理、视频诊断、录像巡 检等诸多功能于一身。 第三章 高清视频监控系统设计 高清视频监控系统主要由视频前端、传输、存储、解码显示、管理应用平 台等几个部分组成。 视频前 我们一般建议按照每个区域进行 VLAN 资源的划分,所有 IPC 使用的 VLAN 均遵从所在区域的 VLAN 规划。 尽管在不同的汇聚设备上使用相同的 VLAN 并不冲突,但是不允许这样的 做法,会对后期的维护和故障的排除造成很大的困难。 如果建设网络所使用的设备不能直接在端口上配置互联用的 IP 地址,需要 绑定相应的 VLAN 的话,还需要单独划分出来一大段 VLAN 资源用于设备互联, 强烈建议全网设备互联用 网络设备的可靠性主要通过关键部件冗余备份、设备冗余备份、传输告警 抑制和快速链路故障检测来进行保障。 关键部件冗余备份是指网络设备提供主控、电源等关键部件的 1+1 冗余备 份;另外系统各单板及电源、风扇模块均具有热插拔功能。这些设计使得设备 或网络出现严重异常时,系统能够快速地恢复和作出反应,从而提高系统的平 均无故障运行时间,尽可能地降低不可靠因素对正常业务的影响。 设备冗余备份是指通过双40 积分 | 290 页 | 42.01 MB | 19 天前3
自动智慧运维管理平台技术方案..................39 2.4.4. 故障管理....................................................................................................................39 2.4.4.1. 及时有效捕获故障.............................. ............................................................39 2.4.4.2. 分析故障历史提高运维成效...........................................................................40 2.4.4.3. 处置知识管理..................... 传统的运维管理虽然具备一定的设备管理能力,但从实践中有发现了很多弊端。这些弊端包 括管理设备究竟该管那些关键指标(KPI)?确定 KPI 后运维管理给出的具体数值又代表什么含义? 设备是正常的?故障的?还是只是需要注意下?最痛苦的是用户会发现管设备节约的人力都投入 到使用运维管理系统中,那么运维管理系统带给用户的价值在哪里呢? 综上所述,传统运维管理软件的弊端必然带来新的变革,这种变革趋势包含以下三个方向:10 积分 | 82 页 | 36.64 MB | 6 月前3
总部基地智能一体化运维和系统建设方案运维系统 • 建设集中一体 化运维监控管 理平台 ( OSS ) • 统一使用云数据 公司本部的运维 生产管理系统 • 完成各类工单操 作、故障报告、 数据上报等工作 一体化运维生产体系的界面 • 负责基地与 IP 骨 干网、传输网间 的故障响应、处 理 • 负责基地与 IP 骨 干网、传输网间 的资源配置、资 源调度 • 集团网运电子运 维系统支持(生 产指挥调度系 统、资源调度系 • 监控与值守 • 应急处置与演练 • 节假日和重保 工程配合 • 工程施工随工配合 • 工程验收 • 资产盘点 • 网络调整、割接配合 • 测试 故障处理 • 客服响应 • 告警分析 • 故障处理 • 故障反馈 运维管理 • 资源管理与调度开通 • 备品备件管理 • 维护质量管理 • 流程制度优化 • 成本管理 安全管理 • 生产运行安全 • 网络安全 •机房 •网络 …… IT 系统和平台 •资源和资产 管理 •系统监控 •软硬件维护 •信息安全 •备份与容灾 …… 业务上线运行 •业务受理 •业务开通 •业务运行 •售后服务 •故障处理 •客户回访 …… 基地维护方式 自 维 外 包 资源管理与开通 机房值守和巡检 集中监控 IT 系统维护与配置 网络系统维护与配置 空调制冷系统 供配电系统 采用自维与代10 积分 | 21 页 | 2.49 MB | 6 月前3
大型制造数字化研发项目方案数字化转型项目方案 智能互联服务的主要需求和预期效果包括: a. 通过与智能设备传感器的连接,实现装备的远程监控与记载软件管理。 b. 通过大数据和机器学习,提前预测设备故障 c. 通过知识库,自动分析远程设备故障,提出解决方案 2.5 管理 结合企业“两型三化九力”的发展战略及业务应用现状,对跨专业、跨部门的通用业务过程及管理过 程,期望在以下几方面进行规划和建设。 1) 需求管 不断通过大数据分析优化工艺参数和工艺设计,提高产品的生产质量,同时降低废品率。 解决方案 a) 实时可视化的生产监控与绩效 多维度整合效率、质量等数据源;基于工位/生产线的工厂实时状态监控,任务工时,完工率, 故障率统计等;可视化监控工位/生产线的作业情况;统计汇总设备运行绩效;统计汇总生产线 /工厂运行绩效。 b) 一站式作业指导 基于统一平台获取数据、可视化、文档等信息;实时并动态地链接各种系统,自动提供所需的 ________________ 54 数字化转型项目方案 c) 基于实时数据统计的质量预警与问题反馈 快速提交产线问题并进行故障预测,现场质量监控(质量问题统计汇总等),产线 KPI 统计分 析(运行时间,产能平衡,设备故障率,返工率等),处理产线问题及故障预测警告和实际发 生的质量,设备等问题,数据被记录于大数据分析平台的学习经验积累。 d) 基于现场大数据分析的工艺改进 实时采集设备10 积分 | 102 页 | 24.71 MB | 6 月前3
北塔BTSO智慧运维平台方案4. 客户化分析策略定制.............................................................................30 2.3.4. 故障管理................................................................................................. 传统的运维管理虽然具备一定的设备管理能力,但从实践中有发现了很多弊端。这些弊端包 括管理设备究竟该管那些关键指标(KPI)?确定 KPI 后运维管理给出的具体数值又代表什么含义? 设备是正常的?故障的?还是只是需要注意下?最痛苦的是用户会发现管设备节约的人力都投入 到使用运维管理系统中,那么运维管理系统带给用户的价值在哪里呢? 综上所述,传统运维管理软件的弊端必然带来新的变革,这种变革趋势包含以下三个方向: 于正常和故障两种状态。然而事实上,阀值管理很难对实际的运维管理工作有指导意义。这是因 为由于各类设备都承载了各种业务,由于每个用户实际业务不同,即便完全相同的设备的运行指 标也呈现出不同的负载变化。另外运维管理系统的核心价值体现是“防患于未然”,采用固定阈值的 结果是走向两个极端,要么设备故障了才告警,要么一堆告警而设备完全正常。这两种极端会导 致用户被动处理各种故障或者对故障提醒麻木。10 积分 | 70 页 | 12.52 MB | 6 月前3
危化企业安全风险智能化管控平台解决方案(52页 PPT)运行参数 ,当发生异常时自动提醒和推送预 警消息,当连续运行时长达到标准时长,提醒推送检维修并根据经验库推荐维修方案,提升预防性维修水平。支持对设备发生的故障或者存在的隐 患进行登记,根据故障的程度及故障后果影响,采取相应的措施以消除故障,形成闭环并纳入经验库,防止此类事故重复发生。 - 37 - 2.10 核心功能 | 设备完整性管理与预测性维修 设备全生命周期管理 通过设备 从设计 数据采集 p 加速度 p 速度 p 位移 p 转速 p 温度 p 压力 故障知识库 p p p p p p p p p 专家经验 机理模型 数据模型 故障树 特征提取 时域特征 频域特征 轴心轨迹特征 工艺参量特 征 泵机、离心压缩机典型故障 往复压缩机典型故障 Ø 撞缸 Ø 连杆断裂 Ø 活塞环断裂 Ø 缸套磨 损 Ø 火花塞异常 - 2.10 核心功能 | 设备完整性管理与预测性维修 绩效看板 l 完好率 l 故障率 l 投用率 l 密封点泄漏率 l 特种设备取证率 l 强检设备检定率 l 计划执行率 l 维修工时 l …… 多维度对设备运行各阶段进行综合统计分析,快速定位设备完好率、故障率、投用率、密封点泄漏率、特种设备取证率、强检设 备检定率、维修保养计划执行率、检定计划执行率等关键指标,为企业决策提供依据10 积分 | 52 页 | 13.39 MB | 19 天前3
共 54 条
- 1
- 2
- 3
- 4
- 5
- 6
