面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)面向新型智算中心的以太 网弹性通道(FlexLane) 技术白皮书 (2025 年) 发布单位:中国移动通信有限公司研究院 前 言 随着以 ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长, 全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI ......... 20 参考文献 .......................................................... 21 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 1 1 背景与需求 近年来,人工智能(AI)技术取得了突破性进展,特别是以 ChatGPT、Deepseek 为代表的大语言模型(LLM)的兴起,标志着 ∁��� ��� × ������ × 1 − � 1 FIT:Failure in Time of 109 hours,在 109 小时中发生故障的次数[1]。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 2 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� ×0 积分 | 24 页 | 2.92 MB | 6 月前3
华为:2025践行主机现代化:主机上云技术白皮书我们必须坦诚地认识到:主机系统技术体系在应对爆发式业务增长和海量交互时,无法快速赋能业务智能创新, 并且与开放协同的产业生态相悖,主机技术正面临严峻挑战。如何让企业核心业务系统既能延续固有的稳定与 可靠,又能获得云与 AI 时代的弹性与智能,已经成为每个企业需要面对的重要战略课题。 近几年,主机现代化成为了打开企业核心业务系统大门的钥匙。它绝非简单的技术平台更替,而是一次深 刻的 业务转型 。其根本目标在于释放核心数据的价 主机(Mainframe)起源于上世纪中叶,以其卓越的事务处理能力和极高的可靠性,长期以来支撑着金融、 政府等领域核心业务系统。然而,在云计算、人工智能技术迅猛发展的今天,传统主机架构无法满足核心业务 系统在资源弹性扩展、应用迭代速度、业务创新效率和技术开放度等方面诉求,已严重制约企业数字化转型, 主机现代化应运而生。 主机现代化(Mainframe Modernization)是一项涉及架构演进、应用重构、组织转型的系统工程。其 个方面: 1.2 传统主机面临的挑战 (1) 技术封闭制约创新效率 传统主机技术栈过于封闭,操作系统和专用硬件深度绑定,难以兼容 x86、ARM 等标准化芯片,这限制 了企业自主引入云计算的弹性资源调度和分布式技术的水平扩展能力,系统升级和功能迭代依赖原厂支持,流 09 程繁琐且周期长,难以及时响应业务变化(主机厂商硬件升级周期通常为 3~5 年),远滞后于业务对敏捷创 新的需求(如20 积分 | 63 页 | 32.07 MB | 1 月前3
面向5G-A与AI融合驱动的算网智一体化解决方案白皮书(2025年)-中移智库融合驱动发展的背景 1 03 04 2.1. 设计理念 2.2. 算网智一体化架构 2 03 5G-AxAI 算网智一体化技术体系 3.1. 赋能边缘智算核心网的算力平台 3.1.1. 轻量化与弹性部署 3.1.2. 跨异构适配 3.1.3. 云边模型与数据协同 3.1.4. 安全与高可靠运行 3.2. 赋能企业专网的边缘智能核心网 3.2.1 异构接入 3.2.2 意图化用网 3.2.3 智的门槛。 5G-AxAI 算网智一体化技术体系以智能 5G-A 网络为根基,使其成为可感知业务意图、动态调优的神 经脉络;以异构融合的算力平台为引擎,打破资源壁垒,实现算力随业务需求智能流动与弹性供给; 并以原生内嵌的 AI 能力为大脑,贯通感知、决策与执行闭环,将复杂运维与业务优化转化为“业务 目标驱动”的自主过程。三者深度融合,互为支撑,共同推动基础设施从标准化供给迈向场景化赋能, 围绕上述设计理念,本文构建了如图 1 所示的算网智一体化架构。该架构以边缘智能核心网为枢纽, 通过算力平台的弹性支撑与智能驱动中枢的赋能调度,实现算、网、智的闭环协同,为企业提供端到端、 全流程的智能化专网服务。 赋能边缘智能核心网的算力平台:作为一体化架构的底层支撑,通过轻量化与弹性部署实现资源按需分 配与快速响应,依托跨异构适配能力对 CPU/GPU/NPU/DPU 等多元算力进行统一调度,支持云边模型10 积分 | 24 页 | 4.83 MB | 1 月前3
2025年城市级云网平台为运营商转型开辟新思路白皮书Inc. All rights reserved. Unauthorized reproduction prohibited. “智云上海”的城市级云网平台有力推动了上海本地产业创新生态的发展,其弹性算力网络能 够帮助企业获得用得上、用得起、用得好的算力服务。“智云上海”提供的普惠算网和宽带连 接也能使广大市民消费者和中小企业更为便捷的接入信息网络,获得“类内网”的服务体验, 成为先进数字 市的基础底座。同时,依托其云计算平台以及长期积累的技术开发和系统集成能力,运营商还 能在构建城市数据中枢体系和打造城市共性技术赋能平台发挥重要作用。此外,运营商在网络 和数字安全方面的技术积累和经验也能为构建弹性主动的数字城市安全防护体系提供重要的支 持。 为实现中国电信集团的数字化转型战略,助力上海“五个中心”建设,上海电信发起“智云上 海”建设,从构建新型信息基础设施、提供本地化普惠服务、推动产业创新生态发展等多个方 “智云上海”的城市级云网平台有力推动了上海本地产业创新生态的发展,其弹性算力网络能 够帮助企业获得用得上、用得起、用得好的算力服务。利用弹性算网,企业可为日常应用购入 基础速率网络服务,而一旦出现突发性任务、周期性作业急需大带宽传输,当天即可发起动态 提速。例如,在 100Mbps 带宽下,10TB 数据需 10 天才能完成传输,通过“弹性算力网络”升速 后,仅需 2 小时便可完成传输,且企业只需支付0 积分 | 24 页 | 1.15 MB | 6 月前3
行业数字化转型成熟度评估通用标准务系统贴合企业 的业务形态,支持 松耦合、共享化的 方式对现有系统 的能力进行迭代 和升级 (1)企业的业务 系统高度贴合企 业的业务形态,支 持模块化构建、共 享和快速部署,灵 活应对业务变化, 弹性地应对业务 流量的增加和减 少 (2)企业的核心 业务系统持续优 化创新,创造生态 价值 7.1.3 协作系统 协作系统能力指标包括协作系统平台、柔性运营2个评估维度。 表 12 协作系统能力发展等级要求 的健康状态和性 能指标 在云原生架构上 建立完整的生态 系统,包括公共、 混合和私有云服 务,以及相关的开 发、测试、部署、 监控和运维工具。 采用容器编排平 台 ( 如 Kubernetes)进行 弹性部署和管理, 结合无服务器计 算 ( 如 AWS Lambda)实现按需 资源分配和自动 扩缩容。应用程序 的架构采用微服 务架构,通过服务 注册与发现、负载 均衡和断路器等 模式实现高可用 和容错能力。持续 服 务、微型服 务和无服务 器 的 优 势 (1)应用程序部 署在本地物理服 务器或虚拟机上, 缺乏弹性和自动 化扩缩容的能力 (2)应用程序架 构较为单一,缺乏 松耦合和独立部 署的特性 (1)部分应用程 序采用容器化部 署,利用容器编排 平 台 ( 如 Kubernetes)进行 弹性部署和管理 (2)应用无服务 器计算(如阿里云 Serverless)来实 (1)多个应用程 序采用微服务架0 积分 | 73 页 | 1.22 MB | 2 月前3
阿里云:2025年阿里云百炼安全白皮书02 通义大模型:全生命周期安全 合规 1 风险现状及能力构建 46 1.1 主要风险挑战 46 1.2 核心能力构建 46 2 全尺寸、全模态的模型供给 48 2.1 全尺寸覆盖的弹性架构 48 2.2 全模态融合的认知能力 48 3 通义大模型全生命周期安全实践 49 3.1 研发安全:数据与算法根基防护,强化内生 49 安全能力 3.2 部署安全:过程控制,构建防御屏障 AI 基石 70 2 阿里云百炼全链路安全能力框架 72 2.1 安全设计理念:纵深防御与原生集成 72 2.2 核心:贯穿生命周期的数据安全与隐私保护 73 2.3 扩展:支持客户弹性、灵活地应对外部攻击 78 3 阿里云百炼关键场景安全实践 82 3.1 场景一:发布并调用一个线上模型推理服务 82 3.2 场景二:使用私有数据微调一个专属模型 85 3.3 场景三:构建并运行一个 恢复机制应对故障。 ● 突发流量冲击则进一步加剧了可用性压力。在电商大促、AIGC(生成式人工智能) 爆发等场景下,瞬时流量可能超出系统承载能力。部分 AI 推理服务虽具备高负载处 理能力,但若缺乏弹性扩容与智能调度机制,将导致响应延迟激增,影响用户体验和 业务连续性。 1.3 高性能瓶颈:算力利用率与异构协同问题凸显 随着生成式 AI 技术普及,AI 基础设施进入 GPU 主导阶段,万亿参数模型训练需数千20 积分 | 59 页 | 45.36 MB | 1 月前3
2025年应用全生命周期智能化白皮书开发平台、LangChain/LangGraph 等 Agent 框架,极大 降低了 Agent 开发门槛。 架构设计的模块化与可扩展性:结合 Kubernetes 和 Dapr 技术,实现了微服务化部署、弹性扩缩容和服务间异步 通信,为 Agent 系统的稳定性和可维护性提供了技术保障。 开源社区与行业标准的形成:AutoGPT、MetaGPT 等开源项目加速了 Agent 技术的普及,同时行业逐渐形成关于 与传统依赖版本迭代实现局部优化的模式不同,自我进化(Self-Evolving)通过持续学习、动态适配和自我优化, 智能应用的形态和核心特征 应用全生命周期智能化白皮书 18 为智能应用构建了更具弹性和自愈能力的技术框架。这一转变不仅可以显著提升系统的自我决策与故障响应效率,还 可在复杂多变的业务场景下,帮助企业更敏捷地适应市场变化并保障服务质量。 从技术层面来看,一方面,完善的智能化运维体 槛;智能测试系统可自动生成并执行覆盖复杂业务边界的测试用例, 大幅提升测试覆盖率和可靠性;在生产环境中,AIOps 通过智能日志分析辅助定位故障根因并动态实施扩容策略,显 著增强系统的高可用性和弹性。面向未来,智能研发将进一步迈向“零代码化”和多模态交互,通过 Agent 架构将代 码仓库演化为智能化“知识库”,使得函数和模块能够被动态检索、组合与验证,从而真正实现“AI 原生研发”时代 的全面到来。20 积分 | 59 页 | 8.39 MB | 5 月前3
2025年制造业数智化发展白皮书-2175云也为人力资源管 理带来了赋能新武器。 技术集群赋能智能制造全过程 云计算:基于云平台的 HR 系统,可将招聘周期缩短 30%-50%,算薪准确率提升至 99.9% 以上,实现了人力资源管理的弹性扩展与持续交付。 AI 大模型:正深度融入人才“选育用留”全链条。例如,中智集团的“AI 数字人智能招 2175 云,人力资源数智化解决方案 第 13 页 共 37 页 聘面试”可智能生成“ 心矛盾:对智能化的迫切需求与高昂的技术 门槛和成本之间的矛盾。解决这一矛盾的关键,在于“云智一体” 的战略选择。云平台 已不再是简单的 IT 资源池,而是承载一切数智化应用的“基座”,它通过提供弹性、可 扩展、按需付费的算力与服务,极大地降低了企业,特别是制造业企业拥抱 AI 的门槛。 云原生:重塑应用开发与部署模式 云原生架构,以其容器化、微服务、DevOps 和持续交付的核心特征,正从根本上改变企 和持续交付的核心特征,正从根本上改变企 业应用的构建方式。对于制造业而言,这意味着: 敏捷创新:开发团队可以基于细分的微服务(如订单服务、排产服务、质检服务)进行独 立开发、部署和迭代,大幅缩短新功能的上线周期。 弹性高可用:在促销季或生产高峰期,系统可根据负载自动扩容,保障业务连续性;在低 谷期则自动缩容,避免资源浪费。 2175 云,人力资源数智化解决方案 第 23 页 共 37 页 降低运维复杂度:10 积分 | 37 页 | 3.81 MB | 1 月前3
2025年云智算光互连发展报告-中国移动所示,光交换机替代顶层电交换机,是智算 场景下的典型组网。 图 13 OCS 在智算场景下的应用 在该应用场景下,组网的收益点如下: 1) 大规模弹性组网:全光交换机端口密度高,支持按 POD 粒度分 期建设,算力资源支持按需灵活组网,弹性可扩容。 2) 平滑演进:全光交换机本身协议无感知,支持向 800G、1.6T 甚至更高速率演进,可跨代际长期复用。 3) 绿色节能:全光交换机无光电转换,设备功耗百瓦级,网络功 而是移动云算网架构从“电为主、光为辅”向“全光原生”的范式 云智算光互连发展报告 转变,本质是通过算网底层的全光重构,破解大规模 AI 算力集群的 带宽瓶颈、延迟损耗与扩展桎梏,为“N+X”智算节点的弹性组网提 供核心支撑。这一升级并非简单的硬件替换,而是覆盖数据、控制、 管理多平面的系统性算网协同革新。随着移动云呼和浩特、贵阳等 超大规模智算中心的落地,单集群 AI 加速卡规模已突破 2 万张,算20 积分 | 32 页 | 2.80 MB | 1 月前3
2025年人工智能就绪度白皮书-企业数智化转型的Al变革路径与评估指南服务 架构的变迁。当前大部分企业的AI应用都采用了微服 务结构,可以把AI功能打散后,将每个功能(即“微 服务”)分布到多个计算节点上,由此形成了较长的 微服务链条,保障AI应用可以根据需求弹性伸缩。但 是,这也带来了潜在风险,这对安全和运维提出了极 高要求。一方面,微服务链条上任何节点的性能和安 全缺陷都会损害整体体验;另一方面,AI业务的复杂 性不仅体现要依赖大规模计算和存储资源,还表现为 以61%的占比成为最受企业青睐的部署策略,远高于 “自建,完全本地部署”的32%和“公有云部署”的 7%。这表明企业在AI部署过程中更倾向于企业在保留 原有本地数据中心资源的同时,又能够借助公有云平 台来实现资源的弹性扩展,以实现灵活性与稳定性的 平衡。相比之下,完全本地部署由于较高的建设和运 维成本,限制了其普及程度;而单一的公有云部署则 因难以满足企业对安全防护、数据存储备份等方面能 力需求而排名靠后。 以61%的占比成为最受企业青睐的部署策略,远高于 “自建,完全本地部署”的32%和“公有云部署”的 7%。这表明企业在AI部署过程中更倾向于企业在保留 原有本地数据中心资源的同时,又能够借助公有云平 台来实现资源的弹性扩展,以实现灵活性与稳定性的 平衡。相比之下,完全本地部署由于较高的建设和运 维成本,限制了其普及程度;而单一的公有云部署则 因难以满足企业对安全防护、数据存储备份等方面能 力需求而排名靠后。20 积分 | 78 页 | 21.63 MB | 6 月前3
共 53 条
- 1
- 2
- 3
- 4
- 5
- 6
