2025AI供电的未来:重新定义AI 数据中心供电白皮书-英飞凌V/50 V 电压域转换至 6 V 的中间总线。图 10 显示了该模块及其实测效率曲线。 12 二、AI 服务器机架的供电 预测三:AI 服务器机架的功耗将超过 1 兆瓦 在针对拥有万亿级参数的超大规模AI模型进行训练时,需要将数千颗GPU集成在同一台机器中,并以同步模式运行。 机架之间的数据通信通常通过光通信实现,而 IT 机架内部的高速互连则依赖专用处理器,通过铜缆将每个 GPU 与 其他 到数百兆瓦级别。 在未来几年内,为满足规模日益庞大的 AI 模型对算力的无限需求,预计将出现专门的“AI 工厂”。在同一数据中 心园区内,此类设施的用电量将达到吉瓦级,甚至可能超过数吉瓦。多家超大规模数据中心运营商已发布了相关 建设计划 [2,3]。在训练过程中,大型 GPU 集群的负载剧烈波动,所引起的电力供应与电网稳定性问题,成为确保 这些数据中心安全运行的重大挑战。要应对这些挑战,必 率转换环节上,实施瞬态负载的主动缓冲。 此外,在设施层面部署大型电池储能系统(BESS)也将成为必需措施,以确保整个数据中心保持近乎恒定的负载 曲线。 英飞凌致力于沿着整个功率转换链路,支持超大规模数据中心运营商及系统供应商,共同实现可持续、高效且具 经济可行性的电力解决方案。功率半导体正是这些工作的核心所在,其目标包括: 17 • 将任意能源形式转换为处理核心电压所需的负载电流 •10 积分 | 23 页 | 14.75 MB | 1 月前3
2025年中国算力中心行业白皮书算力中心供给分析 IV. 算力中心供需研判及未来展望 V. 附录 报告研究背景与主要研究结论 4 报告研究背景 • 纵观算力中心发展历程,移动互联网时代与云计算时代的技术革命催生了集约化、超大规模化的数据中心需求,由此孕育出了算力中心定制批发的业 务模式,并且该业务模式在2015-2020年间实现了快速增长。然而,伴随着移动互联网用户红利见顶、新基建边际效应递减及后疫情时代经济周期波动, 全参微调 局部微调 算力需求 超大规模 千卡~万卡 大规模 数百卡~千 卡 较小规模 单卡~8卡 起步 小规模 单卡1卡起 步 工程难度 很高 TP/DP/PP并 行,海量数据 高 基模选择、 高质量数据 较高 十万~百万 条指令集 一般 <万条指令 集 推理 To C推理 To B中心 To B边缘 算力需求 超大规模 千卡以上 大规模 数百卡 小规模 中国各行业智能算力应用分布,2023 ➢ 互联网头部厂商大量采购智算芯片 相较海外,国内智算中心正处于高速增长期,中国各行业对智算的需求急剧上升,其中互联网行业是最大需求方, 互联网巨头积极投身AI领域并大量采购智算服务器,促使超大规模算力中心迎来上架率激增,市场库存快速消化。 注:1. AI服务器是指基于GPU、FPGA、ASIC等加速芯片,专门提供人工智能训练和推理所需计算能力的服务器系统。 DeepSeek的出现推动10 积分 | 55 页 | 7.12 MB | 2 月前3
2025AI供电的未来:重新定义AI 数据中心供电白皮书-英飞凌V/50 V 电压域转换至 6 V 的中间总线。图 10 显示了该模块及其实测效率曲线。 12 二、AI 服务器机架的供电 预测三:AI 服务器机架的功耗将超过 1 兆瓦 在针对拥有万亿级参数的超大规模AI模型进行训练时,需要将数千颗GPU集成在同一台机器中,并以同步模式运行。 机架之间的数据通信通常通过光通信实现,而 IT 机架内部的高速互连则依赖专用处理器,通过铜缆将每个 GPU 与 其他 到数百兆瓦级别。 在未来几年内,为满足规模日益庞大的 AI 模型对算力的无限需求,预计将出现专门的“AI 工厂”。在同一数据中 心园区内,此类设施的用电量将达到吉瓦级,甚至可能超过数吉瓦。多家超大规模数据中心运营商已发布了相关 建设计划 [2,3]。在训练过程中,大型 GPU 集群的负载剧烈波动,所引起的电力供应与电网稳定性问题,成为确保 这些数据中心安全运行的重大挑战。要应对这些挑战,必 率转换环节上,实施瞬态负载的主动缓冲。 此外,在设施层面部署大型电池储能系统(BESS)也将成为必需措施,以确保整个数据中心保持近乎恒定的负载 曲线。 英飞凌致力于沿着整个功率转换链路,支持超大规模数据中心运营商及系统供应商,共同实现可持续、高效且具 经济可行性的电力解决方案。功率半导体正是这些工作的核心所在,其目标包括: 17 • 将任意能源形式转换为处理核心电压所需的负载电流 •10 积分 | 24 页 | 14.75 MB | 3 月前3
从智慧工厂到数字交通(13页 PPT)年技术积累,构筑坚实云计算基 础 68 可用区 遍布全球五大洲 27 个地理区 域 100 万 + 服务器 中国首家突破企业 200T 带宽峰值 中国首家突破互联网企业 基础设施跨足全球, 超大规模管理能 力 智慧零售 智慧医疗 智慧工业 智慧出行 智慧教育 智慧政务 智慧金融 智慧文旅 100+ 行业解决方案 深厚数字化转型升级实践沉淀 300+ 云产品服务 全面覆盖基础服务 、云原生 、安全等 服务全球 300 万 + 客户 亿级规模自有业务 技术基座 血 行业引擎 超大规模算力支撑海量业 务 云计算 区块链 深圳防 e 通 云上 IT 疾控中心 公卫云 公卫云平台10 积分 | 13 页 | 2.03 MB | 1 月前3
面向大规模智算集群场景光互连技术白皮书(2025年)-中移智库规模演进。随着单节点算力突破每秒百亿亿次,这类超大规模集群的 极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。 传统基于铜介质的电互连方案,正面临 “带宽墙”、“延迟墙”及 “功耗墙”等三重严峻挑战:单通道速率难以突破400Gbps,传输延 迟高达数微秒,单机架互连功耗占比更是超过40%,这一系列瓶颈已 成为制约超大规模智算集群算力释放的核心障碍。 相较于传统可插拔光模块等设备级光互连技术,芯片级光互连正 DSP补偿。 光交换为突破电交换的限制提供了新的路径: 一是,其在光层面直接完成端口间的切换,无需O-E-O转换,彻 底绕开了制程、缓存和SerDes衰减等物理瓶颈,可支持极高传输速率 与超大规模集群部署。光交换天然具备速率和协议无关的特性,从 400G到800G乃至1.6T均可平滑支持,在速率升级时无需更换交换设备, 极大降低了系统演进的复杂度和成本。 二是,光交换通过端到端光路直通,避免了复杂的包解析与缓存 FPGA产品中, 实现了高带宽、低功耗和延时的光FPGA产品。同时,英伟达、AMD也 参与了Ayar Labs 2024年的D轮融资。通过应用相关光引擎和激光技术, 替代传统电互连,以解决超大规模GPU集群的通信瓶颈。 面向大规模智算集群场景光互连技术白皮书 (2025) 27 Lightmatter产品及技术方案 初创企业Lightmatter推出了基于3D封装技术的CPO产品Passage10 积分 | 52 页 | 5.24 MB | 4 月前3
2025年云智算光互连发展报告-中国移动云智算光互连发展报告 前言 本发展报告面向未来智算中心超大规模扩展、AI 大模型极致性 能与高效部署的核心需求,联合产业合作伙伴共同提出先进光互连 技术架构与演进路径,旨在突破传统电互连在带宽、距离与能效方 面的根本性瓶颈,构建高带宽、超低时延、低功耗及高可靠性的新 一代智算中心互连底座,为人工智能、高性能计算及云服务等关键 业务的持续跃升提供坚实支撑。 本发展报告的版权归中国移动云能力中心所有,并受法律保护。 算力集群的 带宽瓶颈、延迟损耗与扩展桎梏,为“N+X”智算节点的弹性组网提 供核心支撑。这一升级并非简单的硬件替换,而是覆盖数据、控制、 管理多平面的系统性算网协同革新。随着移动云呼和浩特、贵阳等 超大规模智算中心的落地,单集群 AI 加速卡规模已突破 2 万张,算 力达 6.7EFLOPS,传统基于电交换的 Super Spine 在横向扩展中逐 渐暴露性能、成本、扩展性的三重矛盾。未来大规模智算集群性能 问题,以智算中心场景为核心,推动 NPO/CPO 的应用落地,解决发 热、芯片良率等问题,同步验证 OIO 在 GPU 互连领域的应用效果。 对于光交换领域,在 OCS 方向,目前已经实现初步商业化。光 交换作为支撑超大规模 Scale-Out 架构的关键基础设施,在智能中 心中的应用前景十分乐观,短期来看,OCS 最有可能进行小范围的 试点应用,长期来看,光分组交换将具有更大的潜力。 云智算光互连发展报告 附录:20 积分 | 32 页 | 2.80 MB | 5 月前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书层的关键挑战与发展路径; • 提出面向未来的技术演进方向与标准化路线建议。 我们期望本白皮书能为智算中心网络领域的研究人员、设备制造 商、运营商与服务提供商,提供系统的参考框架与技术洞察,共同推 动构建超大规模、超大带宽、超低时延、超高可靠的新一代智算中心 网络基础设施。 本白皮书的编制工作得到了国家自然科学基金项目(编号: U24B20150)的支持,在此表示感谢。 目录 前言....... 在训练的过程中需要进行频繁且复杂的通信。这就要求构建 GPU 之 间的全互联高速数据通道,以确保数据的高效传输,最大限度减少 GPU 间通信耗时。那么,如何满足大规模 GPU 之间的高效通信,构 建超大规模、超大带宽、超低时延、超高可靠的智算网络,已成为当 前智算网络发展重要挑战。 智算中心网络如图 1-1 所示,可按通信范围分为机内互联 (Intra-Node)与机外互联(Inter-Node)两类: 限制,传统电交换机的带宽密度已难以满足大模型训练增长的流量需 求。光交换具有大带宽、可靠性高、功耗小、组网灵活的特点,相比 电交换机具有高带宽、低能耗的优势,是突破网络核心侧带宽密度瓶 颈的最佳技术路线,适用于超大规模 AI 训练集群。光电协同架构[6] 可以将光交换的高带宽、低延迟和电交换的灵活控制能力整合起来, 提供 TB 级带宽,充分发挥光与电两者优势。 表 1-2 光电交换技术比较 光电协同 全电交换20 积分 | 53 页 | 1.71 MB | 4 月前3
华为:2025践行主机现代化:主机上云技术白皮书2.2 应用和数据迁移阶段关键诉求 2.2.3 应用开发与运维转型阶段关键诉求 基础设施层 3.1.1 软硬协同一体化,构建融合高性能基础设施 3.1.2 调度和升级优化,支持超大规模算力管理 3.1.3 端到端可靠性设计,保障系统稳定可靠运行 3.1.4 原生安全能力基线,构筑纵深防御高安全体系 数据层 3.2.1 五大核心要素,定义和设计云上数据库 Jenkins、Argo CD 需求与 设计管理 协作开发 管理 自动化 流水线 全链路 可观测 故障 智能定界 故障 自动恢复 中间件层 数据层 基础设施层 软硬协同高性能 超大规模算力 多层冗余高可靠 纵深防御安全 消息队列 事务 缓存 调度 高性能大容量 高效迁移与同步 快速备份恢复 高可靠架构 虚拟机 虚拟存储 虚拟网络 容器 分布式总线 云负载均衡 数据库 对象存储 安全的能力,具体包含以 下特征: (1) 融合高性能:协同云平台软件和计算、存储、网络等硬件设备进行深度调优,实现对硬件的精细化管 理和调度,最大化释放硬件性能。 (2) 万级大规模:具备超大规模算力资源管理和调度能力,支持资源弹性伸缩,集群规模升级不中断业务。 (3) 全层级高可靠:通过全栈冗余设计和多种形态的容灾能力,构建从数据中心级到应用软件级的一体化 高可靠能力,满足系统级高可靠要求。20 积分 | 63 页 | 32.07 MB | 4 月前3
2025年云计算研究白皮书-中国电信超节点架构成为年度最具影响力的硬件创新之一。该架构采用全对等互联与全栈协同设计,集成 了自研鲲鹏 CPU、Ascend 910C NPU 及高速统一总线 UB(Unified Bus)网络,构建了总算力达 300PFLOPs 的超大规模 AI 云底座。NVIDIA H200 GPU 已在 Amazon、Google Cloud 和 Microsoft Azure 大规模部署,搭 载 HBM3e 显存,带宽达 4.8TB/s,配合 多云/混合云环境下云平台本身及其承载业务的安全 性、完整性与隐私性。同时,能效优化依托智能调度、弹性资源管理、异构算力协同与绿色算力策略,在 满足服务等级协议(SLA)与安全约束的前提下,实现超大规模集群的高效利用与能源可持续性。 基础设施 IaaS PaaS MaaS ... ... 数据湖 遥测数据 自动 化运 维与 可靠 性工 程 基础 设施 安全 智能 功耗 管理 与优 面向下一代云计算的研究 表 1.3: 智能化云运维、可信安全与能效优化研究领域热点 研究点 研究方向概述 会议及期刊 研究主要关注点与代表性工作 面向大 规模集 群的自 动化运 维与可 靠性 在超大规模云基础设施 中,实现自动化、智能化 的运维决策与故障处置, 以提升系统的稳定性、可 观测性和整体可靠性,其 关键在于构建面向高维 指标的智能异常检测、无 监督根因分析及自愈闭 环机制。10 积分 | 140 页 | 11.65 MB | 1 月前3
2025中国银行业数字化转型人才报告, 考生可快速核实身份后入场; 4.为保证公平公正,执行双盲面试。考生签到后抽签决定面试顺序,后发 放胸贴(考生编号),全程盲面,4 天成功保障 3000 人面试项目顺利完 成。 【超大规模、极速响应、体验升级】现场面试统筹需求 智联猎头通过 【智能分流+双盲机制+数字化核验】 实现 3000 人零差 错交付! 2720 积分 | 28 页 | 2.37 MB | 9 月前3
共 30 条
- 1
- 2
- 3
