面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长, 全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 模式与传统数据中心不同,东西向流量特征明显。在这种流量模式下,大量服务 器共同承载 AI 任务并行计算,对网络的可靠性提出了前所未有的挑战。服务器 之间逻辑连接的任何一条物理链路发生故障,都会导致数据同步失败,任务中断, 造成大量时间和资源的浪费。如果承载 AI 任务的服务器之间共有���条物理链路, 每条链路的可靠性为���,则 AI 训练任务的可靠性为��� = ���=1 ��� ∁��� ��� × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 GPU、网络互联和主机等故障占比靠前, 其中因网络设备和线缆问题造成网络互联故障共 35 次。 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-20 积分 | 24 页 | 2.92 MB | 6 月前3
2025大型企业加速云转型的商业价值白皮书-亚马逊云科技门技术知识和以客户为中心的专业服务。 数据安全和合规顾虑:严格的法规要求(例如 GDPR、巴塞尔协议 III、HIPAA)和数据主权 问题,使一些利益相关者对迁移敏感数据持谨 慎态度。 对业务中断的担忧:为了在迁移过程中避免运 营中断,专业的指导与支持必不可少。 多云管理的复杂性:在多个云服务和基础设施 提供商之间平衡工作负载,会增加集成、治理 和成本管理方面的复杂性。 迁移规划不足:详细的路线图对于消除不确定 价值支柱 1 实现成本节约 在云端释放基础设施效率 将核心工作负载迁移至云端可以避免本地基础设施的大额固定支出, 降低计算资源的总拥有成本 (TCO),从而实现成本节约。同时也消除 了为避免服务中断而过度配置计算资源的需求。 与此同时,核心系统的现代化改造可以减少对昂贵专用软件和长期许 可协议的依赖。现代化工作负载还可以利用自动扩展、容器化和无服 务器计算,减少因过度配置而产生的不必要基础设施成本。 由安全漏洞、硬件故障、软件缺陷或人为失误 导致的意外停机可能代价高昂。最近一项调查 显示,五分之一的受访者报告称,他们最近一 次停机造成的损失超过 100 万美元。7 云服务可以避免高昂的 IT 中断成本,通过消 除许多遗留系统中存在的漏洞来提高运营韧性 并增强网络安全的稳健性。云服务还为零信任 架构和高级威胁检测能力奠定坚实基础。 Uptime Intelligence,2025 年年度停机分析10 积分 | 37 页 | 15.64 MB | 22 天前3
2025年算力运维体系技术白皮书-中国信通服务源分配;团队需掌 握芯片级知识、能耗建模、分布式系统调度等技能,甚至需与算法工程师协作 优化算力使用效率。 算力运维体系技术白皮书 - 4 - (3). 传统运维故障多表现为单节点或单业务中断,影响范围较小,应对策略以 快速替换硬件、切换冗余节点为主;算力运维故障可能导致“算力雪崩”,影 响大规模任务行(如分布式训练失败);应对策略侧重预判性维护,通过传感 器实时监控硬件状态,利用 容量预测:基于时序数据(如近 6 个月存储增长趋势)训练预测模型, 提前 30 天预警容量不足(阈值:使用率≥80%)。 2) 动态扩容:支持存储集群在线扩容(如通过 KubernetesCSI 插件),扩 容过程不中断业务,单集群最大支持 EB 级容量。 算力运维体系技术白皮书 - 22 - 2.4.1.3 数据备份与恢复机制 (1). 备份策略优化 1) 3-2-1+1 备份原则:3 份数据副本(生产+本地备份+异地备份)、2 Kubeflow)无缝对接本地算力与公有云资源, 确保任务中断时快速迁移。 2.6.2 应急响应流程 (1). 故障分级与响应 1) 定义故障等级(P1-P4): P1 级(全网算力中断):需 10 分钟内启动应急响应团队(硬件组+网络组 +软件组)并实施灾备切换。 P2 级(单集群宕机):30 分钟内定位故障根因,1 小时内恢复服务。 P3-P4 级(局部硬件故障/轻微服务中断):按工单优先级处理。 2) 建立故障响应10 积分 | 74 页 | 1.36 MB | 22 天前3
2025智能微网解决方案技术自皮书(矿山场景)-华为以上,年损超千万美元);环 境适应性弱,高海拔功率衰减 30%-50%,极寒效率更低,且噪音、排放不达标;运维复杂,故障间隔短; 在非洲、拉美等基础设施薄弱地区,柴油运输依赖公路,供应链中断风险高(如暴雨导致道路中断),直接威 胁生产连续性。 表 1-1:2021-2030 年全球新能源行业对各金属需求量及增幅 表 1-2:不同矿种电力成本占运营成本比例 更重要的是发电成本居高不下,刚果金某铜矿柴发发电成本达 公里,运费占燃料总成本的 15%-20%;储存需专用防爆设施, 安全投入大。 随着风光储技术的成熟,柴油发电正从“主力电源”退居“应急备用”,其技术与成本劣势在清洁能源方 案的对比下竞争力弱。 供电中断可能导致设备损坏、生产停滞或安全事故。如球磨机停机超 10 分钟会使研磨介质固结, 清理需数天;井下排水系统停机 1 小时可能淹井,煤矿鼓风机停转 10 分钟或致瓦斯超标,需 供电系统 24/7 流可达额定电流的 6-12 倍。 显著降低投资成本:无需为应对变压器冲击而额外扩容储能系统,节省初始设备投入。 提升系统稳定可靠性:有效抑制励磁涌流和暂态电压波动,保障关键负荷连续运行,减少生产中断风险。 增强运行适应性:支持频繁、复杂的运行模式切换与变压器操作,适应矿山恶劣工况与高故障率环境。 延长设备寿命:通过抑制电流冲击和电压突变,降低电气设备应力,减少维护需求。 ① ② 图10 积分 | 21 页 | 11.01 MB | 1 月前3
IDC:2025年医疗行业智慧文印解决方案白皮书设备管理分散,容易影响打印稳定性和可靠性:多地分散的11家医院与20多家诊 所,传统文印管理模式难以实现统一高效运维,设备调配与维护成本高,容易降低 打印设备的可靠稳定性,导致频繁出现故障而中断打印,影响患者的就医体验。 成本控制待加强:打印需求大,耗材消耗多,缺乏系统化的成本管控机制,各机构 成本核算不精细。 对打印性能和彩色打印品质要求高:该医疗集团作为高端私立医院,其文印在排版 �� 针对设备管理难题和稳定可靠性问题:后端系统连接支持远程监控与故障预警,手 机即可实时监控,打印情况一目了然,大幅提升运维效率。同时耐用可靠的设备结 合及时的维护,有效减少故障导致的打印服务中断,提高了设备的使用稳定性,确 保患者能够随时获取所需文档。 针对成本控制问题:采用MPS之后,通过监测实际打印量采购对应档位的套餐,并 掌握不同设备的使用效率情况。从而可以针对性地提高设备的使用效率,合理调整 所设备统一监控,故障远程预 警响应速度提升,运维效率提升;通过设备全生命周期管理、耐用设备结合预防性 维护,故障中断率下降,减少维修工作。 医护人员:专业级彩色打印支持多介质/自定义尺寸,医疗报告及宣教材料表现力提 升,满足高品质输出保障;设备稳定性优化,关键诊疗文档打印中断风险降低,工 作流程可靠性增强;定制化时尚机型匹配高端医疗空间,提升工作场景质感。 患者:统一设计的专业文档与20 积分 | 22 页 | 7.61 MB | 6 月前3
英特尔工业控制白皮书2026版·负载整合特刊-英特尔址,查询虚拟监视器为该设备配置的 I/O 页表,对 DMA 请求地址进行转换,完成 I/O 请求的虚拟化;二是中断重映射, 为了防止多虚拟机环境下一个设备的中断错误地传递给另一个虚拟机,虚拟机监视器通过硬件设置了一张中断重映射 表,当 CPU 接收到中断时,硬件会截获所有来自设备的中断,查询重映射表,将中断重新定向到正确的目标,完成中 断重映射。 混合负载整合优化 软 PLC 技术的广泛应用加速了 IT 使 Linux 系统具备了处理实时任务的能力。 基于 Preempt RT 技术,我们得以实现 Linux 环境下实时任务与非实时任务的整合部署方案。该方案通过 Linux 系 统的核隔离技术、中断亲和性设置以及 RCU 回调亲和性配置等手段,将实时任务部署在隔离的物理核上运行,同 时将非实时任务调度至非隔离核执行,从而实现两类任务的高效负载整合。 Windows 作为工业自动化领域的主流操作系统之一,Windows 工业互联网边缘操作系统可以安装在用户自行开发的硬件上,也可以预装在东土的边缘侧工业服务器上, 实现数据采集、工业控制、边缘计算、机器视觉等多种不同业务应用一体化。 关键特性: • 提供虚拟化环境下的强实时保障,实时虚拟机中断响应时间达到微秒级、实时虚拟机切换时间小于 5us、实时虚拟 机定时器周期达到 50us。 • 开放的生态,良好兼容 Windows/Linux 应用。 • 预装东土工业控制编程平台 MaVIEW,人机监控平台20 积分 | 48 页 | 25.02 MB | 1 月前3
华为:2025践行主机现代化:主机上云技术白皮书高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全:主机通常采用内置硬件加密模块,实现数据的加密处理与密钥管理,从而保障数据在存储、传 输及处理过程中具备机密性与完整性 (2) 管理运维层 主机的管理运维层包括硬件管理、操作系统管理 和报告显示,全球 COBOL 程序员的 平均年龄已超过 55 岁)。由于运维工作高度依赖于资深专家,一旦遇到复杂问题(例如 DB2 的死锁情况), 缺乏经验的技术人员难以快速定位解决,将导致业务中断时间延长(主机系统平均故障恢复时间比分布式系统 长 3 到 5 倍)。 主机面临的诸多挑战,本质上源于“集中式封闭架构”与“分布式开放架构”之间的时代落差。这种架构 上的不匹配,不仅推高了企业的整体 融合高性能:协同云平台软件和计算、存储、网络等硬件设备进行深度调优,实现对硬件的精细化管 理和调度,最大化释放硬件性能。 (2) 万级大规模:具备超大规模算力资源管理和调度能力,支持资源弹性伸缩,集群规模升级不中断业务。 (3) 全层级高可靠:通过全栈冗余设计和多种形态的容灾能力,构建从数据中心级到应用软件级的一体化 高可靠能力,满足系统级高可靠要求。 (4) 全域高安全:分层分级构建安全防线,具备统一20 积分 | 63 页 | 32.07 MB | 1 月前3
面向5G-A与AI融合驱动的算网智一体化解决方案白皮书(2025年)-中移智库异构接入通过统一的接入控制平面可实现信令与数据的协同管理。系统可依据终端类型、业务优先 级和实时网络状态,智能调度接入路径,实现 5G-A 与 WiFi 等网络间的毫秒级无缝切换,保障视频 回传、实时控制等关键业务“零中断”。 同时,异构接入可依据业务类型和网络状态动态分配接入资源。例如,工业控制类业务优先选用 5G-A 切片以保障高可靠与低时延,而大带宽数据采集任务则可自动选择 WiFi 或有线网络以实现高效传输。 90%,大幅提升了运维响应速度与智能化水平。 表 1 专网运维智能体试点效果对比 智能体 运维方式 使用者 耗时 企业影响 问题定界 传统运维 运营商专业服务人员 天级 业务天级中断 智能运维 企业运维人员 分钟级 业务分钟级中断 网络巡检 传统运维 运营商专业服务人员 小时级 人工巡检,成本高,隐患易遗漏 智能运维 企业运维人员 秒级 自动巡检,成本低,隐患准确识别,秒出详细报告 17 展望10 积分 | 24 页 | 4.83 MB | 1 月前3
阿里云:2025年阿里云百炼安全白皮书常用的训练与推理框架、平台软件中常存在公开的高危漏洞。 若未及时修复,攻击者可借此入侵系统,控制训练环境或业务平台,导致数据泄露、 服务中断,甚至影响关键社会领域,造成严重后果; ● 拒绝服务风险:AI 系统易受分布式拒绝服务(DDoS)攻击。攻击者通过海量恶意 流量耗尽计算或网络资源,导致系统无法响应正常请求,引发服务中断。这不仅带来 经济损失,还可能损害平台声誉与用户信任; ● 模型窃取与篡改风险:模型是企业核心技术和重要资产,凝聚大量研发成果与商 此外,用户与模型之间的交互链路若未采取充分的安全保护措施,也可能导致数据外 泄; ● 算力消耗风险:攻击者通过提交大量高复杂度请求,在不触发传统 DDoS 防护机制 的前提下,耗尽 API 调用配额或计算资源,造成服务中断与成本激增; ● AI 供应链安全风险:MaaS 的构建依赖复杂的软件与模型供应链,任一环节(如基 座模型、第三方库、数据集)存在安全隐患,都可能被传导至下游应用,引发数据窃 取或模型污染等严重后果; 的访 问,进而控制整个 AI 训练环境或业务系统,导致数据泄露、服务中断,甚至波及社 会关键领域,造成严重后果。 ● 拒绝服务风险。AI 基础设施面临分布式拒绝服务(DDoS)攻击的严重威胁。攻击 者可通过控制大量恶意流量对系统发起攻击,迅速耗尽计算或网络资源,导致 AI 系 统无法处理合法用户的请求,进而引发服务中断和业务停滞。此类攻击不仅带来直接 的经济损失,还可能损害平台的服务声誉与用户信任。20 积分 | 59 页 | 45.36 MB | 1 月前3
2025制造行业智慧文印解决方案白皮书成本优化:精细化管理文印需求、数量 人力节省:降低文印维护和管理的人力投入 聚焦业务:工作流顺畅打印、员工聚焦业务、提升产线效率 高效打印:快速、高质的文件输出 降本增效 设备可靠稳定:持续打印的稳定性、减少业务流程中断 文印安全无忧:确保信息与数据在流转中的安全性 企业长期发展:满足ESG要求、长期可持续发展 绿色转型:节能环保、减塑、耗材可回收 无忧打印 绿色发展 智慧文印管理能帮助制造企业有效降低 综合考虑在同等成本投入的条件下实现文印效率的最优化。 考虑文印设备的耐用性和低维护性 制造业企业要注重文印设备的耐用性,如允许宽温度湿度范围工作,以适应 各种制造业生产环境;适配长寿命耗材和零件等,以降低在产线环境下文印 工作中断的可能性。 第四章 IDC 建议 随着制造行业数字化转型的加速,加上现行新质生产力和高质量发展的宏观政策的推动,文 印管理服务行业有着广阔的发展空间,IDC研究认为未来在制造行业,文印管理的价值将进10 积分 | 18 页 | 4.10 MB | 7 月前3
共 37 条
- 1
- 2
- 3
- 4
