华为:2025践行深度用云:主机上云运维现代化核心能力报告
2.36 MB
46 页
0 下载
19 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
践行深度用云 主机上云 运维现代化核心能力 华为云计算技术有限公司 尚海峰 胡玉海 贡 青 刘征辉 林丽鑫 支新辉 王 飞 徐 俊 郭晓征 耿丽丽 马晓明 毛明强 张志炯 张 毅 王进行 马 韬 石 松 黄征彬 熊洪槐 钱 沛 秦丹涛 张瀚文 闻 涛 张 江 王 珂 石 沛 李 松 李 晋 彭永红 胡 堃 程紫东 姚 博 田应军 席 彬 王乐晓 刘 杰 张任远 张 凯 关建峰 赵静敏 王 瑞 编 制 委 员 会 P R E P A R A T I O N C O M M I T T E E 主 编 单 位 编 委 顾 问 编 审 组 成 员 主 编 人 员 参 编 人 员 责 任 编 辑 (排名不分先后) 去三四十年,金融核心系统主要采用集中式主机架构进行建设。 随着金融业务数字化转型需求的不断深化,云计算技术的持续演 进,金融机构普遍采用了云原生相关技术进行业务改造,更有不少头部 大行作为先行者,率先将主机承载的核心系统业务也迁移上云,加速了 金融行业数智化、自主创新进程。 目前,大部分国有银行和股份制银行已经完成了从一般类业务上云到核 心类业务上云改造的试点工作,进入到核心业务批量上云改造阶段。柜 面系统、网银系统、信贷系统、投资理财系统、信用卡系统等核心交易 系统陆续迁移到云上,使得金融云平台承载的业务规模不断扩大,重要 性不断攀升。随之而来的是,业务对持续高可用的要求更加苛刻,尤其 是核心业务上云后,任何业务中断都会引发重大的影响。金融对公众开 放的核心业务一旦中断会造成严重的社会影响甚至引发信用危机。除业 务中断外,业务的劣化,如卡顿、报错等,也会造成最终用户的不满和 投诉。这就对承载核心业务的云平台提出了更高的稳定性、可靠性要 求。 除了稳定的产品外,强大的运维体系是保障云平台稳定性最直接、最有 效的手段。在主机核心业务逐步上云后,如何加强运维全链路监控能 力,快速定位、定界和解决问题,如何变被动运维为主动故障预防从而 大幅减少潜在故障与运维投入,如何将应用运维与平台运维进行有效协 同从而保障系统性业务高可靠高可用,如何应对平台运维安全与租户安 全带来的双重挑战等问题,成为了摆在金融运维人面前的关键挑战。 华为云基于自身云平台运维经验,以及服务上百家金融客户数字化转型 的实践,持续积累主机上云场景的运维核心能力,并沉淀了一套全面构 建稳定可靠的现代化运维能力的路径和方法,期望助力金融企业加快实 现主机业务的全面云化。 过 序 言 P R E A M B L E 尚海峰 华为主机上云军团CEO、混合云总裁 目 录 C O N T E N T S 结语 443 主机上云运维现代化核心能力 09-43 2.1 平台运维现代化 2.1.1 全链路运维监控构建从应用到云平台的全栈感知能力 2.1.2 基于故障模式库和云网一体化运维实现确定性故障恢复 2.1.3 基于一体化风险库和混沌工程进行预见性风险治理 2.2 应用运维现代化 2.2.1 运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合 2.2.2 借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界 2.2.3 面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平 2.3 安全运维现代化 2.3.1 全视角运维安全体系设计构筑金融云运维安全堤坝 2.3.2 体系化、智能化安全运营为云上业务保驾护航 2 主机上云带来的运维新挑战 05-08 1.1 挑战1:如何基于应用视角设计高可用上云方案与高可靠运维保障方案 1.2 挑战2:云平台技术栈快速增厚,如何有效进行全链路可视监控 1.3 挑战3:云网深度融合,如何快速发现、定位、恢复问题 11.4 挑战4:如何应对运维安全与租户安全的双重挑战 主机上云带来的运维新挑战 挑战1:如何基于应用视角设计高可用 上云方案与高可靠运维保障方案 主机上云的最大挑战就是核心应用上云后的可用性管 理。随着原来运行在大机上的应用不断迁移上云,云 上的业务可用性等级要求被提升到了新的高度,传统 的运维手段已经无法满足核心业务N个9的可用性目 标。可用性管理前置到了系统设计乃至应用设计阶 段。 即便如此,可用性管理依然面临着成本、技术和管理 的三重挑战。 首先,无论是备份、主备、多活还是业务单元化改 造,所有的高可用的架构设计都需要投入高昂的成 本,高可用的效果和技术方案的投入成本成正相关关 系。如何平衡高可用的投入与产出就成为IT管理者在 高可用管理过程中的重要难题。 其次,高可用设计是一系列技术方案的组合,从底层 网络设计、到云服务的有效运用以及高可用技术工具 的选型,从业务部署架构的改造到上层业务的单元化 改造,每个层次都涉及多种技术的使用与配合。如何 让现有的技术手段以及云服务发挥最大的效能,如何 基于先进的单元化设计理念达成核心应用N个9的可 靠性也是IT管理者面临的难题。 最后,服务SLA(Service Level Agreement, 服 务水平协议)的达成还需要有相匹配的管理手段与工 具,如故障模式库、演练工具等资源作为支撑,不但 要能有效跟踪度量SLA的实际效果,还需要持续、 主动发现可用性风险的机制与工具,在可用性管理的 过程中实现数据积累和能力演进。 挑战2:云平台技术栈快速增厚,如何 有效进行全链路可视监控 随着主机上云和业务云化转型的持续深入,分布式数 据库、中间件、AI、大模型等各种云原生技术被广 泛应用。新服务、新技术的迭代加速,犹如一柄双刃 剑,在助力业务快速发展、快速创新的同时,也带来 了系统技术栈复杂度的急剧提升,给传统的IT运维方 式带来巨大冲击。 例如,应用的微服务化改造,带来微服务数量的指数 级增长,应用的调用层次和调用关系变得冗长;分布 式云原生的深度应用,使得业务链路更加复杂。当上 层业务应用出现故障时,排障过程可能涉及从应用到 网络的完整链路,这其中包含业务应用、云服务实 例、云基础设施和服务器、网络、存储等物理设备。 典型的业务流量路径如:应用>容器>PaaS实例>虚 拟机>服务器>虚拟网络>物理网络。在针对这个路径 的运维实际工作中,应用、虚拟机软件提供方、服务 器和网络设备提供方常常是各管一段,整个业务从上 到下的全栈调用路径往往是个黑盒,导致故障定位定 界困难,或者恢复时长无法控制。 面对IT系统复杂的技术栈及海量的运维对象,做到软 硬件运维对象的统一管理,指标、告警、日志、调用 链、拓扑等运维数据的统一汇聚和分析,构建全链路 故障感知、全栈故障可视的运维体验,对于金融主机 上云过程中的运维工作至关重要。 挑战3:云网深度融合,如何快速发 现、定位、恢复问题 过去一年,在互联网领域发生过多起颇为严重的宕机 事故: 2023年3月,某互联网服务商发生机房故障,多 个互联网核心应用受到影响,事故持续7个小时, 影响约十几亿用户。 2023年11月,某云服务商旗下多款应用出现无法 登录故障,事故持续4个小时, 这是该云服务商时 06 隔一年之后第二次出现严重故障。 2023年11月,某互联网服务公司核心应用业务瘫 痪接近12个小时,流失千万订单,直接损失上亿 元,引发了广泛的社会关注。 总结上述这些事故,它们都具备了如下几个特点: 事故影响范围巨大,社会反响强烈,更有甚者还 会对社会的衣食住行产生严重影响。 事故影响时间较长,业务恢复周期以数小时计, 严重者故障恢复时长达到了12小时。 造成巨额经济损失,负责人被处分、问责。 随着上云进程的逐渐深入,金融企业开始将核心应用 搬迁上云。核心应用一般有着规模大、分布式、架构 复杂等特点,这一点和互联网业务非常相似,上述互 联网的故障也在时刻给金融核心应用的运维敲响警 钟。在此背景下,近年来金融领域客户提出了核心业 务的“1-5-10”目标,即:1分钟发现故障、5分钟 定位、10分钟恢复。要实现这个目标必须要解决以 下关键问题: 如何尽可能地少出问题 首先,需要有一个完善的运维规范和流程来保障运维 流程合规;其次,核心应用需要全局的高可用设计, 从架构层面避免单点故障;最后,企业还应具备完善 的风险管理体系,可以对识别到的风险举一反三快速 闭环,持续提升核心应用的韧性。 如何快速恢复故障 基于核心应用黄金指标的秒级故障感知是故障恢复的 前提;基于调用链分析、日志解析、云服务实例快速 诊断的分钟级故障定位是故障恢复的基础;基于应急 处理预案的一键式故障恢复是行之有效的手段。 如何解决云网络问题 在云网络和物理网络深度融合的场景下,应用级的网 络可视、云网络端到端的故障探测是解决云网络问题 的关键所在。 挑战4:如何应对运维安全与租户安全 的双重挑战 主机上云的过程中,应用与云平台的运维会同时受到 运维安全和租户安全的双重挑战。 在运维安全方面常见的挑战包括: 运维安全意识不足 运维管理者缺乏对运维安全的完整规划,在制度、流 程和技术规范方面缺少对变更的严格管控。在缺乏对 变更的严格审控机制的情况下,随意的变更为引发后 续事故埋下了隐患。 运维安全管控的技术手段不足 主要表现为,对运维操作入口没有进行技术管控,缺 乏对运维操作过程的有效监管,缺乏对高危操作的拦 截,缺乏对运维操作的记录与审计,缺乏识别恶意操 作的评估手段。 权责不匹配 运维人员的权限过大或者超越自己的职责范围,很容 易引发超出职责范围的误操作,从而带来不必要的运 维风险。 在租户安全方面的挑战包括: 安全攻击无法避免 希望一劳永逸地解决租户安全问题是不切实际的。人 类的操作永远无法做到完美,系统和技术总在不断演 进,新的漏洞会不断出现,完全消除漏洞是不可能 的。所以,0日攻击、钓鱼攻击以及账户被破解都无 法被避免。 07 租户安全防护难以全局统筹 现代企业和组织的网络环境越发复杂,涉及众多设 备、应用、数据类型。同时安全威胁也在不断演变, 包括网络攻击、钓鱼、木马、病毒、社会工程学攻击 等多种形式。安全团队需要同时跟踪多种威胁情报, 及时调整安全策略和措施,以应对各种各样的威胁。 安全威胁处置缓慢 安全威胁普遍具有隐蔽性强的特点,不易被及时发 现。现代安全威胁越来越复杂和多样化,攻击手段和 方式不断演变,安全团队需要花费更多时间来分析和 理解威胁的本质,以制定有效的处置策略。有时候安 全团队还会面临技术上的限制,从而需要花费更多时 间来研究和实施解决方案。 在实际业务场景中,由于安全管理不善造成重大事故 和业务损失的案例并不鲜见,如误删数据库账户造成 结算业务失效,误删虚拟机造成业务中断,租户权限 管理不当误删OBS桶等等。云化、集中化虽然提升 了业务的创新速度,也让运维安全的管控以及租户安 全的治理变得更加复杂,所以运维安全是业务可靠性 保障的基石,也是运维现代化的基础。 主机上云运维现代化核心能力 主机上云运维现代化旨在围绕核心系统云平台运维、应用运维及安全运维三大领域系统性构建上云后的云运维 保障能力,全面支撑金融核心应用通过平迁、改造或核心重构三种方式迁移上云后的稳定可靠运行,助力金融 机构平滑稳健地深化数智业务创新,构筑面向自主创新的高质量发展基座。 平台运维现代化 平台运维的现代化转型重点要考虑如下三方面的能力 建设: 全链路运维监控 核心业务上云的过程中,云与应用的耦合度逐步提 高,应用与云平台的关系愈加复杂,因而云运维必须 实现应用到云平台乃至物理设备的全链路覆盖。同时 需要梳理出应用与云平台间的依赖关系,当应用出现 故障的时候能够基于应用的视角快速感知和诊断故 障。 确定性故障恢复 快速创新的金融业务场景增加了云平台技术栈复杂 度,也因此提升了故障定界、故障快速恢复的难度。 华为云给出了通过全链路检测、故障模式库和云网结 合快速定界故障的思路,以此提升核心应用上云后云 平台故障恢复的确定性。 预见性风险治理 实现风险的提前感知与预防始终是运维管理者长期的 期望,也是运维人员一直面临的难题。这个问题同样 摆在华为面前。在十多年运维工作中,华为云通过大 量项目实践摸索出了一套预见性风险治理的思路,不 但覆盖了运行时的风险治理,也覆盖了对变更的风险 治理方法,以及对未知风险的识别与预防手段,本文 将详细阐释通过数字化到自动化的转换实现云平台风 险预见性治理的思考。 10 图2.1 运维现代化三大核心能力 存贷款 支付结算 现金管理 理财管理 运行稳定 主动预防 安全可靠 应用改造上云 应用平迁上云 核心重构 资金交易 中间业务 消费信贷 2. 应用运维现代化 主机上云新基座 1. 平台运维现代化 3. 安全运维现代化 全链路可观测 面向应用运维 极简信息汇聚 云网定位定界 故障精准诊断 一键故障恢复 主动风险预防 变更风控管控 混沌工程演练 高可用SLA规划 应用高可用设计 持续高可用治理 运维数据治理 可用性指标构建 运维故障分析 用户授权可控制 作业过程可信赖 潜在风险可识别 立体防御体系 主动智能安全 全面安全运营 全链路 运维监控 确定性 故障恢复 预见性 风险治理 智能化 应用运维 全视角 运维安全 体系化 安全运营 高可用 架构设计 应用运维现代化 当前,越来越多金融云运维管理者的关注点从以云与设备为核心的运维转向以应用为核心的运维,尤其是核心应用 的运维受到格外的重视。在应用运维领域,存在多种多样的工具与技术,然而工具之间数据割裂无法形成全局视 野,因而会直接影响应用运维的效率与效果。 只有打破各个工具间的数据孤岛才能统筹洞察应用的完整运行态势,对应用进行全方位的监控与分析。在本文 中,华为云提出要将应用的可靠性保障前置到设计阶段,通过高可用设计提升应用的可靠性,同时也给出了应 用高可用设计的思路,帮助金融企业选择合适的高可用方案平衡成本与效益的矛盾。 安全运维现代化 运维安全是保障业务可靠性的基石,也是运维现代化的基础。在运维安全领域需要通过对运维过程无死角的安 全管控来保障运维安全,具体来说,需要实现事前对权限的有效规划和管理,事中对运维操作的严格管控,以 及事后对运维操作的审计与分析,减少由于运维误操作给云业务带来的风险。除了云平台本身的安全保障,在 租户安全维度,也应构建完整的安全防护体系,端到端保障云租户的安全。 2.1 平台运维现代化核心能力 2.1.1 全链路监控构建从应用到云平台的 全栈感知能力 从应用视角到平台视角,构建全面的指标体系,快速 感知故障 核心应用部署上云,从上到下可以分为四层,分别为 终端层、应用层、PaaS实例层和IaaS基础设施 层。如下图: 终端层严格意义上并不在云上部署,主要部署在 端侧,通过APP或者浏览器实现应用访问; 图2.2 典型云上应用部署模型 简单应用访问流程示例 微服务架构复杂应用访问流程示例 终端层 应用层 订单处理 ELB 数据库 APP APPS APP APPS APP APPS api-gw product-mgr cache-mgr user-mgr RabbitMQ Redis MySQL 120ms 102ms 200ms 102ms 102ms 102ms 102ms paas 实 例 层 缓存 容器节点 云硬盘 云主机 数据库 laas 层 缓存 云硬盘 容器节点 云主机 数据库 宿主机 宿主机 网元 存储池 宿主机 宿主机 网元 存储池 物理主机 网元 存储池 云数据中心1 云数据中心2 传统数据中心 应用层通过在容器集群、弹性云服务器、裸金属 服务器上部署复杂的应用,实现某些业务功能; PaaS实例层主要是指云平台提供的容器集群、中 间件、数据库等实例资源; IaaS基础设施层主要指提供计算、存储、网络的 基础资源池,如云数据中心的存储池、虚拟网 元、计算资源池或者传统数据中心的服务器、网 络设备、存储设备等。 12 如上图所示,针对简单应用(绿色线条),可以直接以应用云上部署架构来构建全链路监控;针对微服务架构的复杂应用(红色线条),需要借助APM工具解析微服务间交互流 程来构建全链路监控。 构建核心应用可观测体系,需要根据应用部署层级分 别进行设计: 终端可观测 终端层需重点关注用户的使用体验,采集终端应用 运行报告、访问成功率、接口延时等体验类指标, 通过终端内置的软件工具包(SDK)上报到应用可 观测平台。必要时需要部署一定数量的云拨测终 端,对应用进行周期性拨测,快速感知边缘网络 故障。 终端层常见指标举例: a. APP体验指标:如下载成功率、安装成功率、 用户搜索耗时、用户下载速率等表征最终用户体 验的指标 b. API性能指标:调用成功率、调用量、时延等 c. 边缘网络性能指标:丢包率、延时、带宽、流 量消耗等 应用可观测 应用层需要根据应用的核心功能,构建表征功能 健康度的黄金指标。不同应用功能存在差异,梳 理出的指标不尽相同,指标越能精细表征健康 度,越能快速感知故障,反之亦然。 以某互联网视频应用为例,需要基于应用接口日 志定义接口请求量、接口成功率、接口时延、播 放卡顿率等指标,针对指标数据进行治理,最终 呈现不同时间维度的视图,同时支持针对流量的 趋势进行动态阈值调整,准确产生指标告警。 App/Server APP体验指标 API性能指标 边缘网络指标 图2.3 典型终端指标设计流程 Kit Account kit Audio kit … 边缘网络 应用详情耗时 … 用户搜索耗时 用户下载速率 首页图片耗时 首页打开耗时 安装成功率 下载成功率 Internet/骨干网&CDN 图2.4 指标设计流程示例 视频登录请求成功次数/ 视频登录请求次数 指标叠加公式 维度:APP版本、视频分类 度量:请求结果标识、时延 逻辑主体 APP 版本 1.0.1 1.0.2 1.0.1 1.0.3 请求 结果 成功 成功 成功 失败 时延 30 50 35 40 视频 分类 长视频 短视频 短视频 长视频 ... ... 视频登录请求次数 基础指标 视频登录 请求次数 X(次) 视频登录请求成功次数 派生指标 视频登录 请求成功次数 X(次) 视频登录请求成功率 组合指标 视频登录 请求成功率 XX(%) 长视频登录请求成功率 派生组合指标 长视频登录 请求成功率 XX(%) 13 … 成功率 调用量 API时延 CDN … 速率 流量 带宽 应用指标定义完成之后,还需要构建应用全链路拓扑视图,发生故障时,能够在拓扑视图中
| ||
下载文档到本地,方便使用
共 46 页, 还有
1 页可预览,
继续阅读
文档评分


智慧能源与运维云平台解决方案(63页PPT)
IT运维管理平台解决方案