全球计算联盟GCC:2025年异构算力协同白皮书...........................................................................................25 5.3 集群级:跨域异构算力协同......................................................................................... 国内算力芯片起步晚但发展迅速,逐渐呈现“一超多强”的国产芯片产业格局,以下列 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 全互联架构,搭建“芯片—XPU-Lite 框架— 千卡 1.2 TB/s XPU-Link 集群—百度文心大模型”四级闭环,已在百度内部提供 90%以上文 心系列训练算力,日均稳态负载 85%+。 (3)壁仞科技采用 Chiplet 架构设计大算力芯片,其首款 GPGPU(General-Purpose Computing10 积分 | 31 页 | 1.21 MB | 2 天前3
面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� × ��� ≈ 3 × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-2 所示2。 图 1-2 智算中心互联光链路类型 主流高速接口 400G/200G 光模块年失效率超 0.2%,千卡以上集群平均每年 发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会 引发链路闪断[4],如图 1-3 所示。 2 常见多模或单模光模块常为多通道架构,每通道含 CDR(时钟数据恢复,Clock0 积分 | 24 页 | 2.92 MB | 5 月前3
2025年云智算光互连发展报告-中国移动..................... 13 3.2 CPO 交换机在智算场景下的应用................................... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.......................... 率、抗干扰等物理 特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具 有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 致整个封装体的更换,因此对光引擎的良率、可靠性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片20 积分 | 32 页 | 2.80 MB | 14 天前3
华为:2025践行主机现代化:主机上云技术白皮书传统的主机硬件通常由专用处理器、内存、存储系统和 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全: (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 有限:一方面,传统主机的编程语言(如 CO 数据模型、存储引擎、SQL 语法、数据类 型以及事务机制上都存在显著差异 ,需提供具备广泛兼容性和较高自动化能力的数据库迁移工具,以高效 地完成数据类型、表结构、索引、约束等内容的映射和转换工作。 ③ 支持高吞吐与集群化的分布式缓存,灵活应对高并发访问对业务系统的冲击。 ④ 提供高可用的分布式事务调度能力,支持大规模任务并行调度,增强业务批处理能力。 ⑤ 提供高性能云内及云外接入中间件,以满足复杂云网络高效连接的需求。20 积分 | 63 页 | 32.07 MB | 2 天前3
全国数智产业发展研究报告(2024-2025)纽节点,发展数据中心集群,引导数据中心集约化、规模化、 绿色化发展。 2022 年 2 月,国家发展改革委等四部委联合印发通知, 同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵 州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并启动 了张家口、芜湖、长三角生态绿色一体化发展示范区、韶关、 成都天府、重庆、和林格尔、贵阳、庆阳、中卫等 10 个国家 数据中心集群建设。 (3)工业和信息化部相关政策 目名单,加快培育大数据产业应用能力。 (4)科技部相关政策 科技部在数据领域相关技术研发方面长期部署国家重大 项目。前期,科技部通过 973 计划、863 计划、核高基重大 专项等国家科技计划,长期在大规模集群计算、服务器、处 理器芯片、基础软件等方面部署科研任务,部署内存计算、 网络大数据、媒体大数据等大数据研发任务,取得了阶段性 成效。“十三五”期间,科技部部署了区块链、网络空间安 全治理、高 日,北京市第十五届人民代表大会常务 委员会正式发布《北京市数字经济促进条例》,提出“支持 数字产业基础研究和关键核心技术攻关,支持企业发展数字 产业,培育多层次的企业梯队,推动数字产业向园区聚集, 培育数字产业集群”。 2023 年 6 月 20 日,北京市委、市政府发布《关于更好 发挥数据要素作用进一步加快发展数字经济的实施意见》 (北京“数据二十条”),提出“大力发展数据服务产业”, 包括数据生20 积分 | 236 页 | 8.61 MB | 14 天前3
2025年中国-上海合作组织数字技术工具箱................... 87 四十五、算电一体 源网荷储一体化碳中和示范项目 .................... 89 四十六、太初元碁SuperPod 128高密液冷智算集群 .................... 91 四十七、支撑阿联酋电信和数字政府监管局发布5G白皮书 .................... 93 四十八、中巴国际数据枢纽总体规划 .... 2000移动通信网络, 具备跨地域、全业务的综合信息服务能力和自主可控的技术创新能力, 在云计算、AI、安全、量子等重点领域成绩突出 。建设全国“2+3+7+X”公共智算云池,在京津冀、长三角地区建设两大万卡智算集群,算力总规模持续领先;打造 400G弹性无损智算广域网络,算力池间平均时延降低至9.7ms,无损网络总容量达600T;打造通智超一体化智算加速 平台“云骁”与一站式智算服务平台“慧聚”等。 中 2000移动通信网络, 具备跨地域、全业务的综合信息服务能力和自主可控的技术创新能力, 在云计算、AI、安全、量子等重点领域成绩突出 。建设全国“2+3+7+X”公共智算云池,在京津冀、长三角地区建设两大万卡智算集群,算力总规模持续领先;打造 400G弹性无损智算广域网络,算力池间平均时延降低至9.7ms,无损网络总容量达600T;打造通智超一体化智算加速 平台“云骁”与一站式智算服务平台“慧聚”等。 中20 积分 | 113 页 | 11.44 MB | 4 月前3
湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书限制,传统电交换机的带宽密度已难以满足大模型训练增长的流量需 求。光交换具有大带宽、可靠性高、功耗小、组网灵活的特点,相比 电交换机具有高带宽、低能耗的优势,是突破网络核心侧带宽密度瓶 颈的最佳技术路线,适用于超大规模 AI 训练集群。光电协同架构[6] 可以将光交换的高带宽、低延迟和电交换的灵活控制能力整合起来, 提供 TB 级带宽,充分发挥光与电两者优势。 表 1-2 光电交换技术比较 光电协同 全电交换 全光交换 多堆叠与横向扩展链路,从而加重布线密度与网络拥塞风险。 网络带宽瓶颈 当前,大模型训练通常依赖数千张 GPU 卡协同工作数周甚至数月, 训练效率瓶颈并不仅仅取决于单 GPU 的算力,也受到 GPU 集群间通 信效率的影响。GPU 间需进行频繁的梯度同步、参数更新、状态同 步等集合通信操作,这些数据传递操作在服务器机内和机间均存在, 且随着模型参数量的逐步提升,所传递的数据量也会不断增加。因此 链路的数据中心中,仅将核心层 32 台电交换机替换为 9 台光交换机, 可一并省下 2672 只 10W 功耗光模块,将核心层功耗由 62 kW 降低至 0.4 kW,节省逾 99%。大规模 AI 训练和推理集群往往成百上千机架 并行运行,网络能耗占据数据中心总能耗相当比例。光交换的低功耗 特性不仅降低电力与散热成本,为 GPU 留出冗余,还为持续扩容的 新一代算力平台提供绿色可持续的基础设施保障。20 积分 | 53 页 | 1.71 MB | 2 天前3
前瞻产业研究院:中国智慧园区发展白皮书(2025)....................................................................... 38 图表 39:2024 年我国中小企业特色产业集群区域分布(单位:个) ............................................................................. 39 图表 40:中小微园区痛点梳理 码城、联东集团、华夏幸福、亿达中国、金地威新;大企业主体代表的有:京东、海尔、三一重工、中 车集团、联想集团、腾讯、亦庄生物等;中小微企业主体代表包括启迪控股、清控科创、力合科创、昱 能科技、正雅齿科等在内的企业集群。 图表3:智慧园区按主体分类及代表主体 资料来源:前瞻产业研究院整理 客观 中性 建设性 -9- 智慧园区白皮书 1.2 智慧园区建设目标和框架 1.2.1 域的实时监测与智能决策。 在经济贡献方面,东部开发区以占全国 1.2%的土地面积创造了全国 28%的 GDP,单位面积产值超 过 45 亿元/平方公里,培育出电子信息、高端装备、生物医药等千亿级产业集群,华为、阿里巴巴、腾 讯等龙头企业的区域总部与研发中心高度集聚,形成“龙头企业+中小企业+创新平台”的智慧化产业生 态。东部智慧园区单位用地税收强度达到 1200 万元/平方公里,是全国平均水平的20 积分 | 72 页 | 5.64 MB | 2 天前3
医疗健康行业-AI应用白皮书(40页 WORD)医疗健康行业 AI 应用白皮书 3 阿里云助力医疗健康 AI 应用开发 随着 AI 在医疗健康和生命科学行业的应用深化,行业企业在 模型训练、微调及应用开发上,需要高性能 GPU 集群、高性 能存储系统及低延迟网络支持,需要适配医疗数据特性的 AI 开发工具链(如基因数据脱敏、医学影像标注)、模型部署与 监控体系等。传统 IT 架构在应对海量数据计算、大模型训练 及跨场景 频数据交互,对集群内通信性能、计算资源利用需求高;需要大吞吐量、高 IOPS、低成本海量文件存储支持。 阿里云提供弹性、高性能、高可用的 AI 智算基础设施,包括超大规模 GPU 集群、专为 AI 训练优化的高性 能计算(HPC)服务、海量存储和高性能网络,并适配行业常用调度器、软件、框架等工具,为业务研发工作 者 提供一站式的生命科学行业 AI 基础设施。其中,CPFS 分布式文件系统单集群支持 PB 调用通义全尺寸、多模态模型,应用在临 床辅助诊断、健康报告解读、病历 OCR 识别等多个领域。其中, Qwen3 全面开源,能有效满足医疗健康在基础 模型上进行行业微调、训练垂直领域模型的诉求。 综上,阿里云通过弹性智算集群、全链路 AI 平台及大模型服务生态,为医疗健康行业的 AI 技应用提供整 体技术底座。算力基础设施上,打破传统 HPC 高成本、低弹性的限制,提供按需扩展的 GPU/HPC 资源;AI 开发平台上,20 积分 | 40 页 | 7.84 MB | 14 天前3
2025年城市级云网平台为运营商转型开辟新思路白皮书五”规划,将从完善城市 AIoT 基础设施、构建城市数据中枢体系、和打造城市共性技术赋能 平台等三个方向开展重点工作。 在这些工作中,本地运营商必然需要承担重要使命。首先,建设立体高速信息网络和打造高端 低碳算力集群是完善城市 AIoT 基础设施的重要组成部分,是城市数字化转型的先导和智慧城 市的基础底座。同时,依托其云计算平台以及长期积累的技术开发和系统集成能力,运营商还 能在构建城市数据中枢体系和打造城 切片,满足行业、企业和家庭用户的不同需求,同时有效提升运维指标和安全等级。 着眼飞速增长的人工智能算力需求,上海电信建设了“大规模算力集群暨人工智能公共算力服 务平台”,在青浦云湖数据中心和临港智算中心部署了总算力超过 5 EFLOPS 的东西两翼万卡 液冷智算集群,并引入层次化算力体系满足不同区域对算力资源的差异化需求。 城市级云网平台为运营商转型开辟新思路0 积分 | 24 页 | 1.15 MB | 5 月前3
共 31 条
- 1
- 2
- 3
- 4
