华为：2025践行深度用云：主机上云运维现代化核心能力报告

语言	格式	评分
中文（简体）	.pdf	3
概览
践行深度用云主机上云运维现代化核心能力华为云计算技术有限公司尚海峰胡玉海贡青刘征辉林丽鑫支新辉王飞徐俊郭晓征耿丽丽马晓明毛明强张志炯张毅王进行马韬石松黄征彬熊洪槐钱沛秦丹涛张瀚文闻涛张江王珂石沛李松李晋彭永红胡堃程紫东姚博田应军席彬王乐晓刘杰张任远张凯关建峰赵静敏王瑞编制委员会 P R E P A R A T I O N C O M M I T T E E 主编单位编委顾问编审组成员主编人员参编人员责任编辑（排名不分先后）去三四十年，金融核心系统主要采用集中式主机架构进行建设。随着金融业务数字化转型需求的不断深化，云计算技术的持续演进，金融机构普遍采用了云原生相关技术进行业务改造，更有不少头部大行作为先行者，率先将主机承载的核心系统业务也迁移上云，加速了金融行业数智化、自主创新进程。目前，大部分国有银行和股份制银行已经完成了从一般类业务上云到核心类业务上云改造的试点工作，进入到核心业务批量上云改造阶段。柜面系统、网银系统、信贷系统、投资理财系统、信用卡系统等核心交易系统陆续迁移到云上，使得金融云平台承载的业务规模不断扩大，重要性不断攀升。随之而来的是，业务对持续高可用的要求更加苛刻，尤其是核心业务上云后，任何业务中断都会引发重大的影响。金融对公众开放的核心业务一旦中断会造成严重的社会影响甚至引发信用危机。除业务中断外，业务的劣化，如卡顿、报错等，也会造成最终用户的不满和投诉。这就对承载核心业务的云平台提出了更高的稳定性、可靠性要求。除了稳定的产品外，强大的运维体系是保障云平台稳定性最直接、最有效的手段。在主机核心业务逐步上云后，如何加强运维全链路监控能力，快速定位、定界和解决问题，如何变被动运维为主动故障预防从而大幅减少潜在故障与运维投入，如何将应用运维与平台运维进行有效协同从而保障系统性业务高可靠高可用，如何应对平台运维安全与租户安全带来的双重挑战等问题，成为了摆在金融运维人面前的关键挑战。华为云基于自身云平台运维经验，以及服务上百家金融客户数字化转型的实践，持续积累主机上云场景的运维核心能力，并沉淀了一套全面构建稳定可靠的现代化运维能力的路径和方法，期望助力金融企业加快实现主机业务的全面云化。过序言 P R E A M B L E 尚海峰华为主机上云军团CEO、混合云总裁目录 C O N T E N T S 结语 443 主机上云运维现代化核心能力 09-43 2.1 平台运维现代化 2.1.1 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段，业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系，实现业务故障实时感知定界 2.2.3 面向故障全生命周期，全方位提升故障感知、诊断、恢复智能化水平 2.3 安全运维现代化 2.3.1 全视角运维安全体系设计构筑金融云运维安全堤坝 2.3.2 体系化、智能化安全运营为云上业务保驾护航 2 主机上云带来的运维新挑战 05-08 1.1 挑战1：如何基于应用视角设计高可用上云方案与高可靠运维保障方案 1.2 挑战2：云平台技术栈快速增厚，如何有效进行全链路可视监控 1.3 挑战3：云网深度融合，如何快速发现、定位、恢复问题 11.4 挑战4：如何应对运维安全与租户安全的双重挑战主机上云带来的运维新挑战挑战1：如何基于应用视角设计高可用上云方案与高可靠运维保障方案主机上云的最大挑战就是核心应用上云后的可用性管理。随着原来运行在大机上的应用不断迁移上云，云上的业务可用性等级要求被提升到了新的高度，传统的运维手段已经无法满足核心业务N个9的可用性目标。可用性管理前置到了系统设计乃至应用设计阶段。即便如此，可用性管理依然面临着成本、技术和管理的三重挑战。首先，无论是备份、主备、多活还是业务单元化改造，所有的高可用的架构设计都需要投入高昂的成本，高可用的效果和技术方案的投入成本成正相关关系。如何平衡高可用的投入与产出就成为IT管理者在高可用管理过程中的重要难题。其次，高可用设计是一系列技术方案的组合，从底层网络设计、到云服务的有效运用以及高可用技术工具的选型，从业务部署架构的改造到上层业务的单元化改造，每个层次都涉及多种技术的使用与配合。如何让现有的技术手段以及云服务发挥最大的效能，如何基于先进的单元化设计理念达成核心应用N个9的可靠性也是IT管理者面临的难题。最后，服务SLA（Service Level Agreement, 服务水平协议）的达成还需要有相匹配的管理手段与工具，如故障模式库、演练工具等资源作为支撑，不但要能有效跟踪度量SLA的实际效果，还需要持续、主动发现可用性风险的机制与工具，在可用性管理的过程中实现数据积累和能力演进。挑战2：云平台技术栈快速增厚，如何有效进行全链路可视监控随着主机上云和业务云化转型的持续深入，分布式数据库、中间件、AI、大模型等各种云原生技术被广泛应用。新服务、新技术的迭代加速，犹如一柄双刃剑，在助力业务快速发展、快速创新的同时，也带来了系统技术栈复杂度的急剧提升，给传统的IT运维方式带来巨大冲击。例如，应用的微服务化改造，带来微服务数量的指数级增长，应用的调用层次和调用关系变得冗长；分布式云原生的深度应用，使得业务链路更加复杂。当上层业务应用出现故障时，排障过程可能涉及从应用到网络的完整链路，这其中包含业务应用、云服务实例、云基础设施和服务器、网络、存储等物理设备。典型的业务流量路径如：应用>容器>PaaS实例>虚拟机>服务器>虚拟网络>物理网络。在针对这个路径的运维实际工作中，应用、虚拟机软件提供方、服务器和网络设备提供方常常是各管一段，整个业务从上到下的全栈调用路径往往是个黑盒，导致故障定位定界困难，或者恢复时长无法控制。面对IT系统复杂的技术栈及海量的运维对象，做到软硬件运维对象的统一管理，指标、告警、日志、调用链、拓扑等运维数据的统一汇聚和分析，构建全链路故障感知、全栈故障可视的运维体验，对于金融主机上云过程中的运维工作至关重要。挑战3：云网深度融合，如何快速发现、定位、恢复问题过去一年，在互联网领域发生过多起颇为严重的宕机事故： 2023年3月，某互联网服务商发生机房故障，多个互联网核心应用受到影响，事故持续7个小时，影响约十几亿用户。 2023年11月，某云服务商旗下多款应用出现无法登录故障，事故持续4个小时，这是该云服务商时 06 隔一年之后第二次出现严重故障。 2023年11月，某互联网服务公司核心应用业务瘫痪接近12个小时，流失千万订单，直接损失上亿元，引发了广泛的社会关注。总结上述这些事故，它们都具备了如下几个特点：事故影响范围巨大，社会反响强烈，更有甚者还会对社会的衣食住行产生严重影响。事故影响时间较长，业务恢复周期以数小时计，严重者故障恢复时长达到了12小时。造成巨额经济损失，负责人被处分、问责。随着上云进程的逐渐深入，金融企业开始将核心应用搬迁上云。核心应用一般有着规模大、分布式、架构复杂等特点，这一点和互联网业务非常相似，上述互联网的故障也在时刻给金融核心应用的运维敲响警钟。在此背景下，近年来金融领域客户提出了核心业务的“1-5-10”目标，即：1分钟发现故障、5分钟定位、10分钟恢复。要实现这个目标必须要解决以下关键问题：如何尽可能地少出问题首先，需要有一个完善的运维规范和流程来保障运维流程合规；其次，核心应用需要全局的高可用设计，从架构层面避免单点故障；最后，企业还应具备完善的风险管理体系，可以对识别到的风险举一反三快速闭环，持续提升核心应用的韧性。如何快速恢复故障基于核心应用黄金指标的秒级故障感知是故障恢复的前提；基于调用链分析、日志解析、云服务实例快速诊断的分钟级故障定位是故障恢复的基础；基于应急处理预案的一键式故障恢复是行之有效的手段。如何解决云网络问题在云网络和物理网络深度融合的场景下，应用级的网络可视、云网络端到端的故障探测是解决云网络问题的关键所在。挑战4：如何应对运维安全与租户安全的双重挑战主机上云的过程中，应用与云平台的运维会同时受到运维安全和租户安全的双重挑战。在运维安全方面常见的挑战包括：运维安全意识不足运维管理者缺乏对运维安全的完整规划，在制度、流程和技术规范方面缺少对变更的严格管控。在缺乏对变更的严格审控机制的情况下，随意的变更为引发后续事故埋下了隐患。运维安全管控的技术手段不足主要表现为，对运维操作入口没有进行技术管控，缺乏对运维操作过程的有效监管，缺乏对高危操作的拦截，缺乏对运维操作的记录与审计，缺乏识别恶意操作的评估手段。权责不匹配运维人员的权限过大或者超越自己的职责范围，很容易引发超出职责范围的误操作，从而带来不必要的运维风险。在租户安全方面的挑战包括：安全攻击无法避免希望一劳永逸地解决租户安全问题是不切实际的。人类的操作永远无法做到完美，系统和技术总在不断演进，新的漏洞会不断出现，完全消除漏洞是不可能的。所以，0日攻击、钓鱼攻击以及账户被破解都无法被避免。 07 租户安全防护难以全局统筹现代企业和组织的网络环境越发复杂，涉及众多设备、应用、数据类型。同时安全威胁也在不断演变，包括网络攻击、钓鱼、木马、病毒、社会工程学攻击等多种形式。安全团队需要同时跟踪多种威胁情报，及时调整安全策略和措施，以应对各种各样的威胁。安全威胁处置缓慢安全威胁普遍具有隐蔽性强的特点，不易被及时发现。现代安全威胁越来越复杂和多样化，攻击手段和方式不断演变，安全团队需要花费更多时间来分析和理解威胁的本质，以制定有效的处置策略。有时候安全团队还会面临技术上的限制，从而需要花费更多时间来研究和实施解决方案。在实际业务场景中，由于安全管理不善造成重大事故和业务损失的案例并不鲜见，如误删数据库账户造成结算业务失效，误删虚拟机造成业务中断，租户权限管理不当误删OBS桶等等。云化、集中化虽然提升了业务的创新速度，也让运维安全的管控以及租户安全的治理变得更加复杂，所以运维安全是业务可靠性保障的基石，也是运维现代化的基础。主机上云运维现代化核心能力主机上云运维现代化旨在围绕核心系统云平台运维、应用运维及安全运维三大领域系统性构建上云后的云运维保障能力，全面支撑金融核心应用通过平迁、改造或核心重构三种方式迁移上云后的稳定可靠运行，助力金融机构平滑稳健地深化数智业务创新，构筑面向自主创新的高质量发展基座。平台运维现代化平台运维的现代化转型重点要考虑如下三方面的能力建设：全链路运维监控核心业务上云的过程中，云与应用的耦合度逐步提高，应用与云平台的关系愈加复杂，因而云运维必须实现应用到云平台乃至物理设备的全链路覆盖。同时需要梳理出应用与云平台间的依赖关系，当应用出现故障的时候能够基于应用的视角快速感知和诊断故障。确定性故障恢复快速创新的金融业务场景增加了云平台技术栈复杂度，也因此提升了故障定界、故障快速恢复的难度。华为云给出了通过全链路检测、故障模式库和云网结合快速定界故障的思路，以此提升核心应用上云后云平台故障恢复的确定性。预见性风险治理实现风险的提前感知与预防始终是运维管理者长期的期望，也是运维人员一直面临的难题。这个问题同样摆在华为面前。在十多年运维工作中，华为云通过大量项目实践摸索出了一套预见性风险治理的思路，不但覆盖了运行时的风险治理，也覆盖了对变更的风险治理方法，以及对未知风险的识别与预防手段，本文将详细阐释通过数字化到自动化的转换实现云平台风险预见性治理的思考。 10 图2.1 运维现代化三大核心能力存贷款支付结算现金管理理财管理运行稳定主动预防安全可靠应用改造上云应用平迁上云核心重构资金交易中间业务消费信贷 2. 应用运维现代化主机上云新基座 1. 平台运维现代化 3. 安全运维现代化全链路可观测面向应用运维极简信息汇聚云网定位定界故障精准诊断一键故障恢复主动风险预防变更风控管控混沌工程演练高可用SLA规划应用高可用设计持续高可用治理运维数据治理可用性指标构建运维故障分析用户授权可控制作业过程可信赖潜在风险可识别立体防御体系主动智能安全全面安全运营全链路运维监控确定性故障恢复预见性风险治理智能化应用运维全视角运维安全体系化安全运营高可用架构设计应用运维现代化当前，越来越多金融云运维管理者的关注点从以云与设备为核心的运维转向以应用为核心的运维，尤其是核心应用的运维受到格外的重视。在应用运维领域，存在多种多样的工具与技术，然而工具之间数据割裂无法形成全局视野，因而会直接影响应用运维的效率与效果。只有打破各个工具间的数据孤岛才能统筹洞察应用的完整运行态势，对应用进行全方位的监控与分析。在本文中，华为云提出要将应用的可靠性保障前置到设计阶段，通过高可用设计提升应用的可靠性，同时也给出了应用高可用设计的思路，帮助金融企业选择合适的高可用方案平衡成本与效益的矛盾。安全运维现代化运维安全是保障业务可靠性的基石，也是运维现代化的基础。在运维安全领域需要通过对运维过程无死角的安全管控来保障运维安全，具体来说，需要实现事前对权限的有效规划和管理，事中对运维操作的严格管控，以及事后对运维操作的审计与分析，减少由于运维误操作给云业务带来的风险。除了云平台本身的安全保障，在租户安全维度，也应构建完整的安全防护体系，端到端保障云租户的安全。 2.1 平台运维现代化核心能力 2.1.1 全链路监控构建从应用到云平台的全栈感知能力从应用视角到平台视角，构建全面的指标体系，快速感知故障核心应用部署上云，从上到下可以分为四层，分别为终端层、应用层、PaaS实例层和IaaS基础设施层。如下图：终端层严格意义上并不在云上部署，主要部署在端侧，通过APP或者浏览器实现应用访问；图2.2 典型云上应用部署模型简单应用访问流程示例微服务架构复杂应用访问流程示例终端层应用层订单处理 ELB 数据库 APP APPS APP APPS APP APPS api-gw product-mgr cache-mgr user-mgr RabbitMQ Redis MySQL 120ms 102ms 200ms 102ms 102ms 102ms 102ms paas 实例层缓存容器节点云硬盘云主机数据库 laas 层缓存云硬盘容器节点云主机数据库宿主机宿主机网元存储池宿主机宿主机网元存储池物理主机网元存储池云数据中心1 云数据中心2 传统数据中心应用层通过在容器集群、弹性云服务器、裸金属服务器上部署复杂的应用，实现某些业务功能； PaaS实例层主要是指云平台提供的容器集群、中间件、数据库等实例资源； IaaS基础设施层主要指提供计算、存储、网络的基础资源池，如云数据中心的存储池、虚拟网元、计算资源池或者传统数据中心的服务器、网络设备、存储设备等。 12 如上图所示，针对简单应用（绿色线条），可以直接以应用云上部署架构来构建全链路监控；针对微服务架构的复杂应用（红色线条），需要借助APM工具解析微服务间交互流程来构建全链路监控。构建核心应用可观测体系，需要根据应用部署层级分别进行设计：终端可观测终端层需重点关注用户的使用体验，采集终端应用运行报告、访问成功率、接口延时等体验类指标，通过终端内置的软件工具包(SDK)上报到应用可观测平台。必要时需要部署一定数量的云拨测终端，对应用进行周期性拨测，快速感知边缘网络故障。终端层常见指标举例： a. APP体验指标：如下载成功率、安装成功率、用户搜索耗时、用户下载速率等表征最终用户体验的指标 b. API性能指标：调用成功率、调用量、时延等 c. 边缘网络性能指标：丢包率、延时、带宽、流量消耗等应用可观测应用层需要根据应用的核心功能，构建表征功能健康度的黄金指标。不同应用功能存在差异，梳理出的指标不尽相同，指标越能精细表征健康度，越能快速感知故障，反之亦然。以某互联网视频应用为例，需要基于应用接口日志定义接口请求量、接口成功率、接口时延、播放卡顿率等指标，针对指标数据进行治理，最终呈现不同时间维度的视图，同时支持针对流量的趋势进行动态阈值调整，准确产生指标告警。 App/Server APP体验指标 API性能指标边缘网络指标图2.3 典型终端指标设计流程 Kit Account kit Audio kit … 边缘网络应用详情耗时 … 用户搜索耗时用户下载速率首页图片耗时首页打开耗时安装成功率下载成功率 Internet/骨干网&CDN 图2.4 指标设计流程示例视频登录请求成功次数/ 视频登录请求次数指标叠加公式维度：APP版本、视频分类度量：请求结果标识、时延逻辑主体 APP 版本 1.0.1 1.0.2 1.0.1 1.0.3 请求结果成功成功成功失败时延 30 50 35 40 视频分类长视频短视频短视频长视频 ... ... 视频登录请求次数基础指标视频登录请求次数 X（次）视频登录请求成功次数派生指标视频登录请求成功次数 X（次）视频登录请求成功率组合指标视频登录请求成功率 XX（%）长视频登录请求成功率派生组合指标长视频登录请求成功率 XX（%） 13 … 成功率调用量 API时延 CDN … 速率流量带宽应用指标定义完成之后，还需要构建应用全链路拓扑视图，发生故障时，能够在拓扑视图中