2025年6G“零中断”网络设计白皮书-中移智库潜在风险,部分关键场景存在业务中断隐患。 6G 作为下一代移动通信技术,对网络稳定性与可靠性提出了更高要求。 本白皮书聚焦核心网领域,汇聚行业专家的研究成果与实践经验,深度剖析 4/5G 商用网络事故带来的启示、前瞻性预判 6G 网络面临的可靠性挑战, 提出6G “零中断”网络(Zero-Outage Network, ZON)愿景和目标、设计“零 中断”网络三体架构,即网络本体原生抗毁、灾备护体物理止损、高稳智能体 硬结 合、内外因交织的复合性特点。其中,网络故障占比约50%,通常由网络自身设 计缺陷或容灾不足引起网络中断,包括硬件故障、网络云故障、核心网故障、传 输承载故障等。其次,动网操作占比约38%,通常由人为的网络维护操作、或升 级调试等行为引发网络功能异常、甚至信令风暴和大面积服务中断。 过载是主要现象。占比约69%,通常因局域异常未能及时恢复或隔离,再加上 4/5G智能终端永远在线的设计,导致短时间内反复重试引发过载。 一方面语音业务都是基于IMS承载的,当数据业务发生故障,语音业务也将遭受 牵连;另一方面因为终端的语音优先策略,当语音业务故障时会释放数据连接。 事故诱因 事故现象 业务影响 中断时长 3 业务中断时间长。88%的事故中断时长超过2个小时,50%的事故中断时长超过 5个小时,主要因为发现异常耗时长、人工定界、诊断、恢复耗时长。 1.2 4/5G 商用事故启示 1.2.1 技术演进启示 5G网络在商用与能0 积分 | 36 页 | 2.50 MB | 1 天前3
面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长, 全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 模式与传统数据中心不同,东西向流量特征明显。在这种流量模式下,大量服务 器共同承载 AI 任务并行计算,对网络的可靠性提出了前所未有的挑战。服务器 之间逻辑连接的任何一条物理链路发生故障,都会导致数据同步失败,任务中断, 造成大量时间和资源的浪费。如果承载 AI 任务的服务器之间共有���条物理链路, 每条链路的可靠性为���,则 AI 训练任务的可靠性为��� = ���=1 ��� ∁��� ��� × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 GPU、网络互联和主机等故障占比靠前, 其中因网络设备和线缆问题造成网络互联故障共 35 次。 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-20 积分 | 24 页 | 2.92 MB | 5 月前3
【标准】5G智慧港口网络建设规范发选收方案。接入端路由器对信号进行包 复制、双链路传输,核心侧路由器择优选用,以保证在一条无线链路完全中断情况下,信号传 输正常业务不中断; b) 双 CPE 主备:针对视频回传业务大带宽、高可靠需求,通过在接入路由器上配置双活主备路由, 利用 BFD 检测机制触发倒换,当主用 CPE 链路中断时,视频信号将切换至备用 CPE 链路回传, 应用侧视频秒级卡顿后恢复正常。 5.4.3 基站高可靠 宽满足 DB4403/T 442—2024 5 小区的网络需求。一条链路传输操控维护数据,当传输操控维护数据的端口或链路故障时,操 控维护数据能够使用另一条链路,避免单端口、单链路故障造成业务中断; b) BBU 至传输设备采用双路由主备加固方案,当其中一条链路、端口或单板故障时,业务能够使 用另一条链路。 5.4.5 核心网高可靠 5.4.5.1 核心网控制面轻量级下沉-应急容灾方案 业务不掉线,惯性运行,并支持用户重新接入。 5.4.5.2 用户面 UPF 容灾方案 港口内部可部署两台或以上 UPF,支持负荷分担或主备模式,包括同局址容灾(同机房)、异局址 容灾,因同局址网元级容灾出现“局房级”故障时存在业务中断风险,推荐异局址(不同机房)容灾。 5.5 网络切片方案 港口内不同业务配置独立专用切片 DNN 加以隔离,专网 SIM 卡绑定配置高优先级 5QI,特殊场景可 考虑特定 5QI 或 RB 资源预留等方案。20 积分 | 19 页 | 631.63 KB | 1 天前3
未来网络发展大会:2025卫星互联网承载网技术白皮书单 3 跳传输延迟仅为数毫秒,跨洲通信延迟甚至可优于部分跨洋光缆路径, 满足对低时延敏感的应用需求。与此同时,卫星互联网承载网具备高 度的动态路由与自适应调度能力,能够应对卫星轨道变化、链路中断、 业务突发等复杂情况,保障业务连续性。此外,星座规模和节点分布 的高度冗余赋予了网络极强的抗毁性和弹性,在单点故障或区域性灾 害中仍能维持通信链路畅通,这对于应急通信、国防安全等领域具有 战略意义。 转 发,保障网络的基本通信功能。例如,在受到空间碎片撞击导致部分 卫星节点故障的情况下,分布式架构的卫星互联网承载网能够通过其 他正常节点的自主调整,维持网络的连通性,确保关键业务的通信不 中断。而且,分布式架构能够更好地适应卫星互联网承载网拓扑动态 时变、链路频繁切换的特点。每个路由器能够实时根据本地的链路状 态和邻居节点信息,快速调整路由策略,从而实现更高效的路由转发。 8 图 长期的业务流量统计和预测,为网络规划出最优的骨干路由,确保网 络资源的高效利用。而当某个区域突然出现大量业务请求或链路出现 故障时,该区域的卫星互联网路由器能够立即自主调整路由,将流量 快速疏导到其他可用路径,避免业务中断,同时及时将网络状态变化 反馈给地面网络控制器,以便其对全局路由策略进行进一步优化。 然而,混合式架构的设计和实现较为复杂。如何合理地划分集中 式和分布式路由的边界,以及如何确保两者之间的协同工作顺畅,是20 积分 | 85 页 | 3.37 MB | 1 天前3
华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告3.1.1 运维规范 表3.1 故障等级定义 故障等级 定义 1 出现严重故障,对客户网络和业务运营造成严重影响。涵盖最终用户在使用过程中发现的所有服务中断或网络 功能损坏类事件 2 对业务运营造成显著影响。故障有可能导致业务中断。产品部分操作不可用,但是仍能使用,对用户相关的领 域没有影响,或影响可以设法规避 3 对业务运营造成有限的影响。故障并不影响网络服务或功能。产品仍能运转,但功能受限。此类情景不紧急, 商驻场运维工程师等角色的职责边界,高效处理 故障,避免造成业务中断,确保业务的稳定性。 15 应急恢复流程:应急恢复流程主要是业务紧急恢 复、安全攻击事件及重要漏洞处理等场景下的应 急处理流程,通过应急恢复流程,集中运维研发 资源快速恢复客户业务,处理重大应急运维事 件,达成业务运行SLA。 业务变更线 变更流程:变更流程主要用于指导对设备和业务 的变更管理,减少变更导致业务意外中断,确保 业务安全稳定运行。 间不超过 8.76 小时(365 天 * 24 小时 * 0.1%)。 这要求运维团队具备完善的监控体系,能及时发现 并解决潜在的系统故障隐患,同时制定冗余和灾备 策略,确保在出现硬件故障、网络中断或软件错误 时,系统能快速切换到备用环境,维持业务连续 性。 运维服务响应指标 告警响应及时率:规定运维团队针对告警的响应速 度。例如,对于影响业务正常开展的关键告警,要 求运维人员在15分钟内做出响应,初步确定故障原20 积分 | 53 页 | 8.80 MB | 1 天前3
金融业AI大模型智算网络研究报告方式下,高负载链路利用率:低负载链路利用率达7:1,即流量 无法有效hash,高负载链路堵点概率极大。因此对网络负载均衡 4 调优、无损传输等提出了更高要求。同时大模型的训练和推理也 对网络的可靠性提出了更高要求,任何网络中断都可能导致训练 失败或推理错误,降低集群算力的效率。 三是高可维网络挑战。大模型单次训练时间在数天-月级。 训练期间如果出现网络不稳定的问题,会影响整个训练任务的进 度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如 恢复能力的高可用网络,减少因网络故障中断、网络拥塞低效等 问题带来的算力资源浪费,保障分布式计算任务的稳定进行。 1.高可靠传输网络 相较于传统网络,大模型训练网络对丢包中断等异常情况的 容忍度更低,对故障敏感度更高,收敛时间要求更严,有更高的 可靠性要求。传统网络依赖控制面协议探测协商,故障中断时可 能产生百毫秒左右的短暂中断,但是这百毫秒中断若发生在数据 读取或模型更新等关键阶段,系统会丢弃这批数据或在恢复后重 90%以上。转发过程如图 5 所示: 图 5 包级负载分担 值得一提的是,使用包级负载均衡技术,需要解决报文在网 络中乱序的问题。当接收方接收到的报文顺序与发送方发送的报 16 文顺序不一致,会造成业务中断。目前解决报文乱序问题有两种 方案,一种是在端侧进行报文排序,此方案对交换机的要求比较 低,仅需支持报文分片和流控机制;另外一种是在网络侧进行报 文排序,此方案需要交换机支持报文分片和流控,以及支持报文10 积分 | 33 页 | 1.70 MB | 1 天前3
实现自主智能供应链:2035年企业竞争的新高地受访企业预计,息税及摊销前利润(EBITA)有望 增长5%,已动用资本回报率则有望提高7%。在运 营层面,企业有望将订单交付周期大幅缩短27%, 生产力提升25%,碳排放量降低16%,同时,从运 营中断事件中恢复所需的时间也能缩短约60%。 在打造自主智能供应链的进程中,领军企业 通过三项关键举措脱颖而出。首先,通过安全的数 字核心构建坚实的数据基础,并以此为依托实现 平台与治理框架的标准化。其次,对AI赋能技术进 7 1. 构建坚实且安全的数据基础 2. 投资关键AI技术,加速规模化 战略布局 3. 重构人与技术的协作模式 图1 企业应对中断的反应时间与恢复时间 敏捷性 4天 11天 从中断或变更中 恢复的时间: - 60% 应对中断的 反应时间: - 62% 1至5个月(视具体问题而定) 此外,企业预计通过自主化运营能缩减约16% 的碳排放,这将直接帮助企业达成其可持续发展 目标。 再者,自主化运营能够增强企业韧性,以更好 地应对网络攻击、人才短缺、地缘政治动荡、极端 天气事件以及原材料稀缺等风险。我们发现,企业 预计应对中断的反应时间和恢复时间将分别缩短 62%和60%(见图1)。这种强大的韧性在供应链 中断愈发频繁和严重的当下尤为重要。 自主化系统仍处于发展的初期阶段,大多数 企业也刚刚踏上这一征程。我们深入研究了领军 企业为获取初步成功所采取的有效行动,并总结0 积分 | 28 页 | 2.74 MB | 3 月前3
IBM-智能供应链:洞察变革,驱动增长将在未来两年内将数字助理的决策量增加 21%。 预测能力提升并推动可持续创新。76% 的供应链和运营高管认为,生成 式 AI 将优化产品设计,并推动产品生命周期的可持续发展。 生成式 AI 能够防范供应链中断, 并驱动业务增长。 摘要 智能供应链洞察变革,驱动增长 2 假如能提前知道下周的新闻头条,是否会促使 您调整今天的供应链战略? 智能敏捷供应链 释放无限潜力 引言 智能供应链洞察变革,驱动增长 数据,快速提取重要洞察,为供应链团队提供重要的决策依据。此外,凭 借其自然语言处理能力,员工只需简单的提示即可获取所需信息,并了解 信息来源。 例如,AI 助手能够分析延误的主要供应商,并找出造成供应链中断的因素, 如天气、资金问题或运输瓶颈。接着,AI 预测模型可以预测出未来形式。 AI 助手据此提供针对性建议,帮助供应链团队做好准备,应对未来挑战。 60% 的高管表示,到 2025 年,AI 压力。 – 优化配送路线。减少燃料消耗,降低排放,实现灵活配送,并提高交货效率。 – 管理供应链风险。预测供应链中潜在的中断因素,提前采取预防性措施,增强供应 链的韧性。 – 提升供应链可见性。帮助企业及时发现瓶颈问题,并提出改进措施,从而避免中断, 提高运营效率和灵活性。 观点 智能供应链洞察变革,驱动增长 12 利用 AWS 供应链解决方案实现全面可视化 供应链是10 积分 | 22 页 | 5.46 MB | 5 月前3
2025年智能化时代数据库自主可靠运维白皮书-腾讯云。 �� �.�.�从源头开始确保安全 以腾讯云为代表的云服务厂商,在系统SLA上承诺�个�以上,服务可用性达到��.���%。如果是 数据库服务达到这个级别,这意味着系统在一年内允许的最大中断时间非常短,通常为�分钟左 右。要想在一年内不超过这个数字,需要系统具有极高的稳定性,以确保服务的高可用,这也是 TDSQL特别重视架构设计、重视内核技术优化,提供全面的基础设施管理能力的根本原因。 L�快速转发,实现真正的“活性对等”: �.数据高安全保证 数据安全问题,扩展开来就是信息安全,是一个企业的命脉,安全是TDSQL运维建设的头等大事, 一旦数据发生泄露,付出的代价将非常惨痛。由于数据泄露而导致的业务中断、客户信心丧失、 法 律成本、监管罚款,这些后果可能需要花费数百万甚至灾难性的。如果采用TDSQL数据库以及相 应的运维工具和方案,会避免上述灾难事件发生。 �.多维保障策略 �.双中心双活,实现从“同城灾备”到“业务无感切换” 议确保数据不丢失,结合动态 扩缩容能力,可快速应对流量 突增。 �)应用层自动重连机制 应用程序需内置数据库连接 池,并配置 Fail Over(故障转 移)机制:当检测到主库连接 中断时,自动切换至备库 IP/ 端口,切换时间需控制在毫秒 级。 �)连接层负载均衡 在双中心部署硬件负载均衡 器,为应用提供统一的 VIP (虚拟 IP)。当主中心故障时, 负载均衡器自动将流量路由20 积分 | 89 页 | 2.06 MB | 1 天前3
GEP:2025年采购与供应链趋势洞见报告人工智能在采购中的潜力远不止自动化和效率。随着人工智能工具的发展,它们将揭示对供应商绩效、成本 优化、风险管理和可持续发展的更深入见解。采购将不再仅以成本节约为衡量标准。一些新的标准,例如应 对供应中断的敏捷性、温室气体减排以及无接触交易的比例,将成为衡量成功的关键指标。 要充分实现这些优势,企业必须投资于正确的基础设施,包括主数据准备、无缝数字生态系统以及采购团队 在人工智能熟练度和高级业务分析方面的技能提升。 人工智能驱动的采购协同工具,企业能够大幅提高效率,并使其团队能够以更具影响力的方式降低成本、管理 风险和处理复杂问题。 随着供应链中断现象越来越普遍,敏捷性的重要程度更胜以往。协同工具可以帮助企业根据实时数据动态调整 采购策略。这些平台能够分析来自多个来源的数据,突出潜在风险并推荐替代供应商或重新规划物流,确保尽 可能减少中断。在 2025 年及之后,这种响应能力将成为一种竞争优势。 近年来,随着供应网络的互联程度不断增强 。过去,关注的重点是总拥有成本 (TCO) 或采购节约。2025 年,成功与否必须通过弹性、可持续性和供应商绩效等多个维度来衡量。 传统的 KPI 要演进。例如,弹性必须通过供应链的灵活性或中断后的恢复时间来衡量。可持续性 KPI 可以追踪 碳排放,而供应商多样性和道德合规性应当成为衡量供应商的核心标准。成本节约通常更容易衡量,但这些新 指标许多都是主观的,可以自由解释。 采购团队向10 积分 | 36 页 | 11.73 MB | 5 月前3
共 203 条
- 1
- 2
- 3
- 4
- 5
- 6
- 21
