2025年6G“零中断”网络设计白皮书-中移智库潜在风险,部分关键场景存在业务中断隐患。 6G 作为下一代移动通信技术,对网络稳定性与可靠性提出了更高要求。 本白皮书聚焦核心网领域,汇聚行业专家的研究成果与实践经验,深度剖析 4/5G 商用网络事故带来的启示、前瞻性预判 6G 网络面临的可靠性挑战, 提出6G “零中断”网络(Zero-Outage Network, ZON)愿景和目标、设计“零 中断”网络三体架构,即网络本体原生抗毁、灾备护体物理止损、高稳智能体 硬结 合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设 计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传 输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升 级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 过载是主要现象。占比约69%,通常因局域异常未能及时恢复或隔离,再加上 4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受 牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 事故诱因 事故现象 业务影响 中断时长 3 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过 5个小时,主要因为发现异常耗时长、人工定界、诊断、恢复耗时长。 1.2 4/5G 商用事故启示 1.2.1 技术演进启示 5G网络在商用与能0 积分 | 36 页 | 2.50 MB | 1 天前3
【标准】5G智慧港口网络建设规范发选收方案。接入端路由器对信号进行包 复制、双链路传输,核心侧路由器择优选用,以保证在一条无线链路完全中断情况下,信号传 输正常业务不中断; b) 双 CPE 主备:针对视频回传业务大带宽、高可靠需求,通过在接入路由器上配置双活主备路由, 利用 BFD 检测机制触发倒换,当主用 CPE 链路中断时,视频信号将切换至备用 CPE 链路回传, 应用侧视频秒级卡顿后恢复正常。 5.4.3 基站高可靠 宽满足 DB4403/T 442—2024 5 小区的网络需求。一条链路传输操控维护数据,当传输操控维护数据的端口或链路故障时,操 控维护数据能够使用另一条链路,避免单端口、单链路故障造成业务中断; b) BBU 至传输设备采用双路由主备加固方案,当其中一条链路、端口或单板故障时,业务能够使 用另一条链路。 5.4.5 核心网高可靠 5.4.5.1 核心网控制面轻量级下沉-应急容灾方案 业务不掉线,惯性运行,并支持用户重新接入。 5.4.5.2 用户面 UPF 容灾方案 港口内部可部署两台或以上 UPF,支持负荷分担或主备模式,包括同局址容灾(同机房)、异局址 容灾,因同局址网元级容灾出现“局房级”故障时存在业务中断风险,推荐异局址(不同机房)容灾。 5.5 网络切片方案 港口内不同业务配置独立专用切片 DNN 加以隔离,专网 SIM 卡绑定配置高优先级 5QI,特殊场景可 考虑特定 5QI 或 RB 资源预留等方案。20 积分 | 19 页 | 631.63 KB | 1 天前3
未来网络发展大会:2025卫星互联网承载网技术白皮书单 3 跳传输延迟仅为数毫秒,跨洲通信延迟甚至可优于部分跨洋光缆路径, 满足对低时延敏感的应用需求。与此同时,卫星互联网承载网具备高 度的动态路由与自适应调度能力,能够应对卫星轨道变化、链路中断、 业务突发等复杂情况,保障业务连续性。此外,星座规模和节点分布 的高度冗余赋予了网络极强的抗毁性和弹性,在单点故障或区域性灾 害中仍能维持通信链路畅通,这对于应急通信、国防安全等领域具有 战略意义。 转 发,保障网络的基本通信功能。例如,在受到空间碎片撞击导致部分 卫星节点故障的情况下,分布式架构的卫星互联网承载网能够通过其 他正常节点的自主调整,维持网络的连通性,确保关键业务的通信不 中断。而且,分布式架构能够更好地适应卫星互联网承载网拓扑动态 时变、链路频繁切换的特点。每个路由器能够实时根据本地的链路状 态和邻居节点信息,快速调整路由策略,从而实现更高效的路由转发。 8 图 长期的业务流量统计和预测,为网络规划出最优的骨干路由,确保网 络资源的高效利用。而当某个区域突然出现大量业务请求或链路出现 故障时,该区域的卫星互联网路由器能够立即自主调整路由,将流量 快速疏导到其他可用路径,避免业务中断,同时及时将网络状态变化 反馈给地面网络控制器,以便其对全局路由策略进行进一步优化。 然而,混合式架构的设计和实现较为复杂。如何合理地划分集中 式和分布式路由的边界,以及如何确保两者之间的协同工作顺畅,是20 积分 | 85 页 | 3.37 MB | 1 天前3
华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告3.1.1 运维规范 表3.1 故障等级定义 故障等级 定义 1 出现严重故障,对客户网络和业务运营造成严重影响。涵盖最终用户在使用过程中发现的所有服务中断或网络 功能损坏类事件 2 对业务运营造成显著影响。故障有可能导致业务中断。产品部分操作不可用,但是仍能使用,对用户相关的领 域没有影响,或影响可以设法规避 3 对业务运营造成有限的影响。故障并不影响网络服务或功能。产品仍能运转,但功能受限。此类情景不紧急, 商驻场运维工程师等角色的职责边界,高效处理 故障,避免造成业务中断,确保业务的稳定性。 15 应急恢复流程:应急恢复流程主要是业务紧急恢 复、安全攻击事件及重要漏洞处理等场景下的应 急处理流程,通过应急恢复流程,集中运维研发 资源快速恢复客户业务,处理重大应急运维事 件,达成业务运行SLA。 业务变更线 变更流程:变更流程主要用于指导对设备和业务 的变更管理,减少变更导致业务意外中断,确保 业务安全稳定运行。 间不超过 8.76 小时(365 天 * 24 小时 * 0.1%)。 这要求运维团队具备完善的监控体系,能及时发现 并解决潜在的系统故障隐患,同时制定冗余和灾备 策略,确保在出现硬件故障、网络中断或软件错误 时,系统能快速切换到备用环境,维持业务连续 性。 运维服务响应指标 告警响应及时率:规定运维团队针对告警的响应速 度。例如,对于影响业务正常开展的关键告警,要 求运维人员在15分钟内做出响应,初步确定故障原20 积分 | 53 页 | 8.80 MB | 1 天前3
金融业AI大模型智算网络研究报告方式下,高负载链路利用率:低负载链路利用率达7:1,即流量 无法有效hash,高负载链路堵点概率极大。因此对网络负载均衡 4 调优、无损传输等提出了更高要求。同时大模型的训练和推理也 对网络的可靠性提出了更高要求,任何网络中断都可能导致训练 失败或推理错误,降低集群算力的效率。 三是高可维网络挑战。大模型单次训练时间在数天-月级。 训练期间如果出现网络不稳定的问题,会影响整个训练任务的进 度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如 恢复能力的高可用网络,减少因网络故障中断、网络拥塞低效等 问题带来的算力资源浪费,保障分布式计算任务的稳定进行。 1.高可靠传输网络 相较于传统网络,大模型训练网络对丢包中断等异常情况的 容忍度更低,对故障敏感度更高,收敛时间要求更严,有更高的 可靠性要求。传统网络依赖控制面协议探测协商,故障中断时可 能产生百毫秒左右的短暂中断,但是这百毫秒中断若发生在数据 读取或模型更新等关键阶段,系统会丢弃这批数据或在恢复后重 90%以上。转发过程如图 5 所示: 图 5 包级负载分担 值得一提的是,使用包级负载均衡技术,需要解决报文在网 络中乱序的问题。当接收方接收到的报文顺序与发送方发送的报 16 文顺序不一致,会造成业务中断。目前解决报文乱序问题有两种 方案,一种是在端侧进行报文排序,此方案对交换机的要求比较 低,仅需支持报文分片和流控机制;另外一种是在网络侧进行报 文排序,此方案需要交换机支持报文分片和流控,以及支持报文10 积分 | 33 页 | 1.70 MB | 1 天前3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云。 �� �.�.�从源头开始确保安全 以腾讯云为代表的云服务厂商,在系统SLA上承诺�个�以上,服务可用性达到��.���%。如果是 数据库服务达到这个级别,这意味着系统在一年内允许的最大中断时间非常短,通常为�分钟左 右。要想在一年内不超过这个数字,需要系统具有极高的稳定性,以确保服务的高可用,这也是 TDSQL特别重视架构设计、重视内核技术优化,提供全面的基础设施管理能力的根本原因。 L�快速转发,实现真正的“活性对等”: �.数据高安全保证 数据安全问题,扩展开来就是信息安全,是一个企业的命脉,安全是TDSQL运维建设的头等大事, 一旦数据发生泄露,付出的代价将非常惨痛。由于数据泄露而导致的业务中断、客户信心丧失、 法 律成本、监管罚款,这些后果可能需要花费数百万甚至灾难性的。如果采用TDSQL数据库以及相 应的运维工具和方案,会避免上述灾难事件发生。 �.多维保障策略 �.双中心双活,实现从“同城灾备”到“业务无感切换” 议确保数据不丢失,结合动态 扩缩容能力,可快速应对流量 突增。 �)应用层自动重连机制 应用程序需内置数据库连接 池,并配置 Fail Over(故障转 移)机制:当检测到主库连接 中断时,自动切换至备库 IP/ 端口,切换时间需控制在毫秒 级。 �)连接层负载均衡 在双中心部署硬件负载均衡 器,为应用提供统一的 VIP (虚拟 IP)。当主中心故障时, 负载均衡器自动将流量路由20 积分 | 89 页 | 2.06 MB | 1 天前3
IP网络系列丛书 高品质高可靠工业园区网络解决方案-华为2024装备如机台、工业机器人等,以及无线接入的 AGV、PAD 等终端。基于实际的 线缆铺设条件和业务需求,也可以采用环形组网。不建议采用链形组网,链形组 网可靠性低,容易因中间节点或链路故障导致终端业务中断。 10 解决方案架构 图2-3 工业园网络物理架构 泛工业生产网络适用于线状区域的工业生产场景。线状区域主要包括隧道、城市 道路、管廊、金属矿、煤矿等场景。在这些场景中,各类生产终端一般都是沿着 如机台、工业机器人以及无线接入的 AGV、PAD 等终端。部分现场网络层 可基于实际的线缆铺设条件和业务需求,采用双归树形组网。不建议采用 链形组网,链形组网可靠性低,容易因中间节点或链路故障导致多个节点 下挂的终端业务中断。 2.3 方案价值 高品质高可靠工业网络紧随工业网络的发展进程,适配新一代工业园区的业务需求, 支撑企业数字化、智能化,工厂无人化的发展,加速生产数智化、制造柔性化、运维 智能化。高品 聚合组)、VRRP(Virtual Router Redundancy Protocol,虚拟路由冗余协议)等 节点级可靠性技术,构建“零中断”工业网络。对于实时性要求不高的生产 IT 类业务,可提供 100ms 以内业务中断时间,为实时要求高的 PLC 控制业务提供 50ms 以内中断时间。对于电力系统或运动控制,可以通过 HSR 技术实现业务零 丢包,做到故障无感。 ⚫ 统一承载 引入网络切片、TSN0 积分 | 50 页 | 2.08 MB | 1 天前3
智能制造现状报告:CPG 版降低风险、增加产能并应对劳动力挑战。 欢迎使用 第 10 版年度智能制造现状报告 3 为了应对快速发展的市场,CPG 制造商面临着提 高质量、降低网络安全风险和优化过程的巨大压力。 虽然竞争、通货膨胀、经济不确定性和供应链持续中断等 外部因素继续对增长构成挑战,但劳动力相关问题仍然是 许多 CPG 制造商关注的重大次要问题。 本报告基于对全球 15 个国家 / 地区的 174 名 CPG 制造商、原始设备制造 商 (OEM)、系统集成商以及工程采购公司 行业的挑战与未来展望 2025 2024 1 2 3 4 5 外部障碍 竞争 人员 通货膨胀和经济增长 能源成本不断上涨 供应链中断 通货膨胀和经济增长 网络安全风险 人员 能源成本不断上涨 供应链中断 35% 的 CPG 制造商正在采用 智能制造技术来缓解 内部风险 第 10 版年度智能制造现状报告 5 CPG 数字化转型的紧迫性日益加剧。绝大多 数行业领导者均意识到,内部和外部压力正在10 积分 | 11 页 | 4.27 MB | 1 天前3
电力圆桌项目课题组:专题报告,长三角虚拟电厂发展现状分析报告47页-年以来,长三角地区各省市陆续出台了多项政策,其中多有提及虚拟电厂, 相关政策详见表 1-2。这些政策的制定旨在推动虚拟电厂项目发挥示范作用,实现多种可 调资源的有效聚合,鼓励工业用电大户和商业可中断用户积极参与负荷需求响应,以推动 电力调度模式从传统的“源随荷动”逐渐向“源荷互动”的新模式转变。 表 1-2 长三角地区虚拟电厂政策 省市 时间 文件名 主要内容 上海 2022 年 1 月 荷互动”新模式,实现绿色电力就近最大消纳, 打造零碳能源产业新生态 上海 2022 年 7 月 《上海市碳达峰实施 方案》 完善用电需求响应机制,开展虚拟电厂建设, 引导工业用电大户和工商业可中断用户积极参 与负荷需求侧响应,充分发挥全市大型公共建 筑能耗监测平台作用,深入推进黄浦建筑楼宇 电力需求侧管理试点示范,并逐步在其他区域 和行业推广应用。 上海 2022 年 8 月 《上海市能源电力领域 推广并拓展综合用能服务。各供电企业积极服 务保障各类虚拟电厂、储能等先进技术应用, 加快构建以新能源为主体的电力系统。 浙江 2021 年 6 月 《浙江省循环经济发展 “十四五”规划》 健全电力需求侧响应机制,健全可中断、可调 节负荷,打造具有浙江特色的电力需求侧管理 模式。加快建设多元融合高弹性电网,积极建 设虚拟电厂、源网荷储等示范项目,提升电网 设施智能化调度运行水平 浙江 2021 年 11 月 《关于浙江省加快新型10 积分 | 47 页 | 2.88 MB | 1 天前3
2025年零售一体化云数据库白皮书-爱分析策略,错失宝贵的业务决策窗口期,用户体验与运营效率双双受损 。 其次是满足零售独特业态下综合成本最优诉求。 零售业务具有鲜明的数据量波峰波谷特征,要求基础设施具备极强的弹性伸缩能力。配置过度会 造成资源浪费,配置不足则导致业务中断风险。 零售数据类型复杂多元,需同时处理实时分析(结构化)、用户画像(半结构化)、日志文本(非 结构化)等多种数据类型。 7 在竞争激烈的环境下,有限的利润限制了大部分零售企业的 IT 预算,对技术投入的性价比和综 和线性性能增长,且无需应用改造,完美契合了零售业的这一特性 。 这使得零售企业能有效应对大促秒杀场景的流量洪峰,显著提升系统吞吐能力,确保交易顺畅进 行,避免由数据量波峰波谷特征导致的资源浪费或业务中断风险 。 这种弹性为企业带来了双重收益:增强运营韧性和显著节约成本。使 IT 成为业务增长的灵活伙 伴,支持积极的增长战略,同时避免了高昂的基础设施成本。 例如,泡泡玛特利用一体化云数据库打造 海量优惠券的批量发放与核销等业务压力,极易出现系统崩溃,影响用户体验,造成会员流失。 业务场景挑战 高峰流量的弹性挑战:传统数据库通常需要提前数天进行资源预估和配置。如果实际流量 峰值超出预期,系统将面临宕机风险,导致业务中断;反之,若资源配置过高,则造成巨 大的资源闲置和成本浪费。 18 海量券发与核销的效率瓶颈:在大型促销中,发放和核销数亿张优惠券是常态。传统批处 理系统处理效率低下,往往需要数小时甚至十几个小时才能完成,严重影响用户体验和营10 积分 | 50 页 | 7.91 MB | 1 天前3
共 145 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15
