面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)面向新型智算中心的以太 网弹性通道(FlexLane) 技术白皮书 (2025 年) 发布单位:中国移动通信有限公司研究院 前 言 随着以 ChatGPT、Deepseek 为代表的 AI 大模型崛起,算力需求呈指数级增长, 全球正加速建设智算中心以应对这一挑战。智算中心内部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI ......... 20 参考文献 .......................................................... 21 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 1 1 背景与需求 近年来,人工智能(AI)技术取得了突破性进展,特别是以 ChatGPT、Deepseek 为代表的大语言模型(LLM)的兴起,标志着 ∁��� ��� × ������ × 1 − � 1 FIT:Failure in Time of 109 hours,在 109 小时中发生故障的次数[1]。 中国移动 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025) 2 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� ×0 积分 | 24 页 | 2.92 MB | 5 月前3
华为:2025践行主机现代化:主机上云技术白皮书我们必须坦诚地认识到:主机系统技术体系在应对爆发式业务增长和海量交互时,无法快速赋能业务智能创新, 并且与开放协同的产业生态相悖,主机技术正面临严峻挑战。如何让企业核心业务系统既能延续固有的稳定与 可靠,又能获得云与 AI 时代的弹性与智能,已经成为每个企业需要面对的重要战略课题。 近几年,主机现代化成为了打开企业核心业务系统大门的钥匙。它绝非简单的技术平台更替,而是一次深 刻的 业务转型 。其根本目标在于释放核心数据的价 主机(Mainframe)起源于上世纪中叶,以其卓越的事务处理能力和极高的可靠性,长期以来支撑着金融、 政府等领域核心业务系统。然而,在云计算、人工智能技术迅猛发展的今天,传统主机架构无法满足核心业务 系统在资源弹性扩展、应用迭代速度、业务创新效率和技术开放度等方面诉求,已严重制约企业数字化转型, 主机现代化应运而生。 主机现代化(Mainframe Modernization)是一项涉及架构演进、应用重构、组织转型的系统工程。其 个方面: 1.2 传统主机面临的挑战 (1) 技术封闭制约创新效率 传统主机技术栈过于封闭,操作系统和专用硬件深度绑定,难以兼容 x86、ARM 等标准化芯片,这限制 了企业自主引入云计算的弹性资源调度和分布式技术的水平扩展能力,系统升级和功能迭代依赖原厂支持,流 09 程繁琐且周期长,难以及时响应业务变化(主机厂商硬件升级周期通常为 3~5 年),远滞后于业务对敏捷创 新的需求(如20 积分 | 63 页 | 32.07 MB | 2 天前3
2025年城市级云网平台为运营商转型开辟新思路白皮书Inc. All rights reserved. Unauthorized reproduction prohibited. “智云上海”的城市级云网平台有力推动了上海本地产业创新生态的发展,其弹性算力网络能 够帮助企业获得用得上、用得起、用得好的算力服务。“智云上海”提供的普惠算网和宽带连 接也能使广大市民消费者和中小企业更为便捷的接入信息网络,获得“类内网”的服务体验, 成为先进数字 市的基础底座。同时,依托其云计算平台以及长期积累的技术开发和系统集成能力,运营商还 能在构建城市数据中枢体系和打造城市共性技术赋能平台发挥重要作用。此外,运营商在网络 和数字安全方面的技术积累和经验也能为构建弹性主动的数字城市安全防护体系提供重要的支 持。 为实现中国电信集团的数字化转型战略,助力上海“五个中心”建设,上海电信发起“智云上 海”建设,从构建新型信息基础设施、提供本地化普惠服务、推动产业创新生态发展等多个方 “智云上海”的城市级云网平台有力推动了上海本地产业创新生态的发展,其弹性算力网络能 够帮助企业获得用得上、用得起、用得好的算力服务。利用弹性算网,企业可为日常应用购入 基础速率网络服务,而一旦出现突发性任务、周期性作业急需大带宽传输,当天即可发起动态 提速。例如,在 100Mbps 带宽下,10TB 数据需 10 天才能完成传输,通过“弹性算力网络”升速 后,仅需 2 小时便可完成传输,且企业只需支付0 积分 | 24 页 | 1.15 MB | 5 月前3
2025年应用全生命周期智能化白皮书开发平台、LangChain/LangGraph 等 Agent 框架,极大 降低了 Agent 开发门槛。 架构设计的模块化与可扩展性:结合 Kubernetes 和 Dapr 技术,实现了微服务化部署、弹性扩缩容和服务间异步 通信,为 Agent 系统的稳定性和可维护性提供了技术保障。 开源社区与行业标准的形成:AutoGPT、MetaGPT 等开源项目加速了 Agent 技术的普及,同时行业逐渐形成关于 与传统依赖版本迭代实现局部优化的模式不同,自我进化(Self-Evolving)通过持续学习、动态适配和自我优化, 智能应用的形态和核心特征 应用全生命周期智能化白皮书 18 为智能应用构建了更具弹性和自愈能力的技术框架。这一转变不仅可以显著提升系统的自我决策与故障响应效率,还 可在复杂多变的业务场景下,帮助企业更敏捷地适应市场变化并保障服务质量。 从技术层面来看,一方面,完善的智能化运维体 槛;智能测试系统可自动生成并执行覆盖复杂业务边界的测试用例, 大幅提升测试覆盖率和可靠性;在生产环境中,AIOps 通过智能日志分析辅助定位故障根因并动态实施扩容策略,显 著增强系统的高可用性和弹性。面向未来,智能研发将进一步迈向“零代码化”和多模态交互,通过 Agent 架构将代 码仓库演化为智能化“知识库”,使得函数和模块能够被动态检索、组合与验证,从而真正实现“AI 原生研发”时代 的全面到来。20 积分 | 59 页 | 8.39 MB | 4 月前3
阿里云:2025年阿里云百炼安全白皮书02 通义大模型:全生命周期安全 合规 1 风险现状及能力构建 46 1.1 主要风险挑战 46 1.2 核心能力构建 46 2 全尺寸、全模态的模型供给 48 2.1 全尺寸覆盖的弹性架构 48 2.2 全模态融合的认知能力 48 3 通义大模型全生命周期安全实践 49 3.1 研发安全:数据与算法根基防护,强化内生 49 安全能力 3.2 部署安全:过程控制,构建防御屏障 AI 基石 70 2 阿里云百炼全链路安全能力框架 72 2.1 安全设计理念:纵深防御与原生集成 72 2.2 核心:贯穿生命周期的数据安全与隐私保护 73 2.3 扩展:支持客户弹性、灵活地应对外部攻击 78 3 阿里云百炼关键场景安全实践 82 3.1 场景一:发布并调用一个线上模型推理服务 82 3.2 场景二:使用私有数据微调一个专属模型 85 3.3 场景三:构建并运行一个 恢复机制应对故障。 ● 突发流量冲击则进一步加剧了可用性压力。在电商大促、AIGC(生成式人工智能) 爆发等场景下,瞬时流量可能超出系统承载能力。部分 AI 推理服务虽具备高负载处 理能力,但若缺乏弹性扩容与智能调度机制,将导致响应延迟激增,影响用户体验和 业务连续性。 1.3 高性能瓶颈:算力利用率与异构协同问题凸显 随着生成式 AI 技术普及,AI 基础设施进入 GPU 主导阶段,万亿参数模型训练需数千20 积分 | 59 页 | 45.36 MB | 2 天前3
2025年云智算光互连发展报告-中国移动所示,光交换机替代顶层电交换机,是智算 场景下的典型组网。 图 13 OCS 在智算场景下的应用 在该应用场景下,组网的收益点如下: 1) 大规模弹性组网:全光交换机端口密度高,支持按 POD 粒度分 期建设,算力资源支持按需灵活组网,弹性可扩容。 2) 平滑演进:全光交换机本身协议无感知,支持向 800G、1.6T 甚至更高速率演进,可跨代际长期复用。 3) 绿色节能:全光交换机无光电转换,设备功耗百瓦级,网络功 而是移动云算网架构从“电为主、光为辅”向“全光原生”的范式 云智算光互连发展报告 转变,本质是通过算网底层的全光重构,破解大规模 AI 算力集群的 带宽瓶颈、延迟损耗与扩展桎梏,为“N+X”智算节点的弹性组网提 供核心支撑。这一升级并非简单的硬件替换,而是覆盖数据、控制、 管理多平面的系统性算网协同革新。随着移动云呼和浩特、贵阳等 超大规模智算中心的落地,单集群 AI 加速卡规模已突破 2 万张,算20 积分 | 32 页 | 2.80 MB | 14 天前3
2025年人工智能就绪度白皮书-企业数智化转型的Al变革路径与评估指南服务 架构的变迁。当前大部分企业的AI应用都采用了微服 务结构,可以把AI功能打散后,将每个功能(即“微 服务”)分布到多个计算节点上,由此形成了较长的 微服务链条,保障AI应用可以根据需求弹性伸缩。但 是,这也带来了潜在风险,这对安全和运维提出了极 高要求。一方面,微服务链条上任何节点的性能和安 全缺陷都会损害整体体验;另一方面,AI业务的复杂 性不仅体现要依赖大规模计算和存储资源,还表现为 以61%的占比成为最受企业青睐的部署策略,远高于 “自建,完全本地部署”的32%和“公有云部署”的 7%。这表明企业在AI部署过程中更倾向于企业在保留 原有本地数据中心资源的同时,又能够借助公有云平 台来实现资源的弹性扩展,以实现灵活性与稳定性的 平衡。相比之下,完全本地部署由于较高的建设和运 维成本,限制了其普及程度;而单一的公有云部署则 因难以满足企业对安全防护、数据存储备份等方面能 力需求而排名靠后。 以61%的占比成为最受企业青睐的部署策略,远高于 “自建,完全本地部署”的32%和“公有云部署”的 7%。这表明企业在AI部署过程中更倾向于企业在保留 原有本地数据中心资源的同时,又能够借助公有云平 台来实现资源的弹性扩展,以实现灵活性与稳定性的 平衡。相比之下,完全本地部署由于较高的建设和运 维成本,限制了其普及程度;而单一的公有云部署则 因难以满足企业对安全防护、数据存储备份等方面能 力需求而排名靠后。20 积分 | 78 页 | 21.63 MB | 5 月前3
全球计算联盟GCC:2025年异构算力协同白皮书” 难题,构建全局最优的资源编排范式,实现对异构算力集群的全维度精细化调度。针对异构 算力计算能力差距,面向大模型训练场景构建分布式并行策略组合、业务感知的非均质拆分 等能力,实现跨厂商算力的弹性按需调度;面向大模型推理场景,支持单机多卡异构分布式 推理和跨节点分布式异构推理等多种形式,适配模型推理不同阶段算力需求特性,精细化调 度实现异构算力降本增效;构建大模型训练和推理混合部署的调度底座,实现训推任务的动 SDN、SRv6、算力智能网关等技术,构建算力中心统一出 口,根据任务优先级、资源负载等因素,实现公平、高效的资源分配和任务调度,保障跨域 智算网络连接的敏捷拆建、智能选路、低时延隧道动态连接及弹性带宽调整。 (3)跨域多算力节点高速无损网络:采用 IP+光技术实现跨数据中心 1.6 T 的超高带宽 网络,满足大模型训练高通量数据传输需求,通过 PFC、ECN、Fast CNP 等新型流控和负 网络服务商加速探索新模式,全面升级网络服务模式,单波 1.6 Tbps 相干光加空分复 用将把跨省骨干带宽提升 4 倍;大模型训练公司升级模型并行策略,万卡任务可像调用云函 数一样横跨全国部署;算力服务商加快算力网络互通建设,提供弹性高效的算力服务,跨域 带宽按需伸缩和故障绕行,真正实现“算力像电力一样即插即用;政府部门推动全国算力网 络互通建设,建设国家超算互联网的工作,构建一体化的超算算力网络和服务平台。各方携 手打造10 积分 | 31 页 | 1.21 MB | 2 天前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书大模型、多模态大模型和具身智能等领域日新月异,推动以智算中心 为代表的基础设施向更高效、更弹性的方向快速发展。 2025 年 1 月 1 日,国家发展改革委等联合印发《国家数据基础 设施建设指引》[1]强调高效弹性传输网络可为大模型训练和推理等核 心场景数据传输流动提供高速稳定服务,在高效弹性传输网络支撑下, 能够显著提升数据交换性能,降低数据传输成本。 7 月 26 日,李强总理出席20 积分 | 53 页 | 1.71 MB | 2 天前3
医疗健康行业-AI应用白皮书(40页 WORD)医疗和生命科学的科研计算(如分子模拟、基因组学分析等)和模型训练对算力需求极高,计算任务节点间高 频数据交互,对集群内通信性能、计算资源利用需求高;需要大吞吐量、高 IOPS、低成本海量文件存储支持。 阿里云提供弹性、高性能、高可用的 AI 智算基础设施,包括超大规模 GPU 集群、专为 AI 训练优化的高性 能计算(HPC)服务、海量存储和高性能网络,并适配行业常用调度器、软件、框架等工具,为业务研发工作 者 识别等多个领域。其中, Qwen3 全面开源,能有效满足医疗健康在基础 模型上进行行业微调、训练垂直领域模型的诉求。 综上,阿里云通过弹性智算集群、全链路 AI 平台及大模型服务生态,为医疗健康行业的 AI 技应用提供整 体技术底座。算力基础设施上,打破传统 HPC 高成本、低弹性的限制,提供按需扩展的 GPU/HPC 资源;AI 开发平台上, 降低 AI 开发门槛,加速模型从实验室到临床的转化;模型调用和适配上,通过20 积分 | 40 页 | 7.84 MB | 14 天前3
共 22 条
- 1
- 2
- 3
