积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部维度学堂(43)白皮书(31)政策法规(6)工具模板(3)书籍精华(2)国标标准(1)

语言

全部中文(简体)(40)

格式

全部PDF文档 PDF(35)DOC文档 DOC(4)PPT文档 PPT(4)
 
本次搜索耗时 0.027 秒,为您找到相关结果约 43 个.
  • 全部
  • 维度学堂
  • 白皮书
  • 政策法规
  • 工具模板
  • 书籍精华
  • 国标标准
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • DOC文档 DOC
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 全球计算联盟GCC:2025年异构算力协同白皮书

    ...........................................................................................25 5.3 集群级:跨域异构算力协同......................................................................................... 国内算力芯片起步晚但发展迅速,逐渐呈现“一超多强”的国产芯片产业格局,以下列 国产芯片为例: (1)昇腾在 AI 算力基础软硬件产业格局中继续扮演“头雁”角色,搭建开放生态,形 成“芯片一框架一集群一应用”的四级闭环,已支持建造多个万卡级集群,2025 年推出 384 卡超节点新形态,最大算力可达 300 PFLOPS,48 TB 高速内存,配备创新的高速互联总线, 实现 384 卡一台计算机运行,大幅提升大模型训推效率。 卡一台计算机运行,大幅提升大模型训推效率。 (2)昆仑芯三代 XPU-R,自研 XPU-Link 全互联架构,搭建“芯片—XPU-Lite 框架— 千卡 1.2 TB/s XPU-Link 集群—百度文心大模型”四级闭环,已在百度内部提供 90%以上文 心系列训练算力,日均稳态负载 85%+。 (3)壁仞科技采用 Chiplet 架构设计大算力芯片,其首款 GPGPU(General-Purpose Computing
    10 积分 | 31 页 | 1.21 MB | 1 天前
    3
  • pdf文档 面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)

    部或智算中心间海量的数 据交换,对网络链路的可靠性提出了前所未有的要求。任何链路闪断或中断都可 能导致 AI 训练任务失败,造成巨大的时间和资源浪费。然而,光模块的成本与 可靠性瓶颈以及大规模集群中链路数量的激增,使得已有技术难以满足新型智算 中心 AI 业务对可靠性的需求。 本白皮书面向新型智算中心逐渐以承载 AI 业务为主的演进诉求,提出 FlexLane 链路高可靠技术构想。该技术基于高速接口多通道架构的现状,打破原 ��� ���−��� ≈ ��� × ���(��� = 200���������,万卡集群无收敛组网��� = 15360 时,��� × ��� ≈ 3 × 106���������),和传统 DC 业务的可靠性比较,端到端的可靠性下降数千 倍以上。根据 Meta LLama 3.1 万卡集群公开的论文[2],LLama 3.1 在为期 54 天的 训练期间共发生 466 次故障中断,其中 光互联链路在带宽、延迟、传输距离等方面具备较大优势,已在智算中心得 到广泛部署,如图 1-2 所示2。 图 1-2 智算中心互联光链路类型 主流高速接口 400G/200G 光模块年失效率超 0.2%,千卡以上集群平均每年 发生数十次光模块故障事件。除了器件失效,设备侧或配线架光纤端面脏污也会 引发链路闪断[4],如图 1-3 所示。 2 常见多模或单模光模块常为多通道架构,每通道含 CDR(时钟数据恢复,Clock
    0 积分 | 24 页 | 2.92 MB | 5 月前
    3
  • pdf文档 2025年云智算光互连发展报告-中国移动

    ..................... 13 3.2 CPO 交换机在智算场景下的应用................................... 14 3.3 OCS 在 AI 集群参数面的应用......................................... 15 3.4 光互连技术在 GPU 超节点的应用.......................... 率、抗干扰等物理 特性,使得光互连技术在带宽、距离、抗扰、功耗、密度等方面具 有压倒性优势,拥有巨大潜力。 光互连技术的应用范围正从传统的电信骨干网和城域网,快速 向数据中心内部、高性能计算集群等更广泛的领域渗透。特别是在 数据中心内部,随着服务器端口速率向 400G、800G 乃至 1.6T 演进, 光互连技术方案正迅速取代铜缆,成为数据中心以及超节点场景下 的优选方案。随着 LPO、CPO 致整个封装体的更换,因此对光引擎的良率、可靠性以及可维护性 方面提出了极高要求。 云智算光互连发展报告 CPO 目前仍处于发展初期,但其在超高带宽、低功耗、高密度 互连方面的巨大潜力使其成为未来光通信,特别是 AI 算力集群和超 大规模数据中心不可或缺的技术方向之一。 2.2.4 光输入/输出 OIO 的核心理念非常具有颠覆性,它彻底摒弃传统的铜线电气 I/O,将光互连直接集成到计算芯片的封装内部或紧邻位置,使芯片
    20 积分 | 32 页 | 2.80 MB | 13 天前
    3
  • pdf文档 华为:2025践行主机现代化:主机上云技术白皮书

    传统的主机硬件通常由专用处理器、内存、存储系统和 I/O 通道组成,经过高度优化,能够高效应对大规 模数据处理和高并发事务的挑战。操作系统则专为这类主机设计,具备强大的资源管理能力和并行处理性能。 主要特点: 高性能:采用多处理器集群架构,实现大规模并行计算,处理器集成专用加速单元,通过硬件级加密引 擎实现加密运算的加速处理 高可靠:硬件组件(处理器、内存、存储)普遍采用冗余设计,不会因单点硬件故障而引起系统中断 高安全: (Scale-out)为核心,通过增加通用服务器节点实现资源池化与弹性伸缩,可在分钟级甚至秒级完成资源扩 容,能够快速应对业务负载波动,并支持跨地域分布式部署,更适合应对动态、快速变化的大规模业务需求, 例如 Kubernetes 集群可轻松支持上万个节点。 (3) 新兴技术适配能力薄弱 在数字化转型中,企业业务敏捷转型需融合云计算、大数据、AI、区块链等技术,但主机技术栈对此支持 有限:一方面,传统主机的编程语言(如 CO 数据模型、存储引擎、SQL 语法、数据类 型以及事务机制上都存在显著差异 ,需提供具备广泛兼容性和较高自动化能力的数据库迁移工具,以高效 地完成数据类型、表结构、索引、约束等内容的映射和转换工作。 ③ 支持高吞吐与集群化的分布式缓存,灵活应对高并发访问对业务系统的冲击。 ④ 提供高可用的分布式事务调度能力,支持大规模任务并行调度,增强业务批处理能力。 ⑤ 提供高性能云内及云外接入中间件,以满足复杂云网络高效连接的需求。
    20 积分 | 63 页 | 32.07 MB | 1 天前
    3
  • ppt文档 《协同:数字化时代组织效率的本质》读书笔记

    成为价值型企业,和大企业之间没有区别, 因为共 生逻辑下,大小企业互为主体 蜂窝型 专业市场组织集群 组织集群由处于不同的生产链体系中, 不同生产环节的小企业组合而成 劳动密集或传统的轻型加工产业 主企业领导型组织集群 这种组织集群的特点是,有一个强控 制能力的领导型组织, 这个组织在 分 工和协作中具有强势的垄断地位, 具 有超市场契约条款的制定权, 且 可以 凭借自身优势要求其他集群成 员进行 协同升级 这个主导的组织通常会攫取整个组织 集群的垄断利润中的大部分, 用以 支 持产业升级和技术创新 组织集群 组织集群的三种类型:蜂窝型 、 专业市场组织集群 、 主企业领导型组织集群 这种集群的特点是, 需要依附于专 业 的销售网络或是市场, 形成“前 店后 厂 ” 的组织集群形式 通常形成同质化,有限差异化的产 品, 一方面具有成本优势, 另一方面 可以 保证集群内企业的利润空间 构建组织集群可以促进协同创新 强链接
    0 积分 | 95 页 | 1.42 MB | 5 月前
    3
  • pdf文档 中国联通数字化监控平台稳定性保障工具落地实践

    加  调用关系:从简单对应到极其复杂,人力维护无法胜任  数据分片、异地存储,传统维护模式难以为继 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业IT架构进入云原生时代,多云多集群部署已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 GOPS 全球运维大会 云平台维护方自定义 Promethues exporter 网络拓扑同步上报  卡顿、崩溃、错误等  调用量、响应时间、异常量等  应用调用trace  方法调用明细  云平台健康度、集群节点、pod容 器指标  网关:KONG、LB、Nginx等  中间件:Kafka、MQ、Zookeeper 等  数据库:MySQL、Clickhouse、 Elasticsearch等 agent 系统B agent 系统C agent Flink kafka 告警计算 指标聚合 明细分析 Nacos Clickhouse 存储集群 跨数据中心链路自动串连 业务报文查询 调度转发节点 存储集群 查询 业务配置打标 应用根因定位 应用性能分析 链路调用清单明细,方法级分析 链路自动拓扑 全层级告警墙 应用实例、主机串联 GOPS 全球运维大会
    10 积分 | 24 页 | 9.74 MB | 4 月前
    3
  • ppt文档 中国联通数字化监控平台稳定性保障工具落地实践

    当前面临的挑战及未来展望 目 录 CO N T E N T S 1 2 3 01 稳定性保障工具演进历 程 随着云原生技术的不断成熟,企业数字化转型也在不断加速,企业 IT 架构进入云原生时代,多云多集群部署 已 经成为常态和趋势,几何增长的云资源、微服务以及复杂化的调用关系与业务场景,传统人肉运维难以为 继, 如何保障系统的全面稳定,保证业务流程的高效运转,为系统运营提出了不小的挑战。 工具职责范围的演进:覆盖广度及深度不断增加 核心业务场景、核心业务环节、核 心业务链路拓扑 白屏、慢响应、弹窗日志等 卡顿、崩溃、错误等 调用量、响应时间、异常量等 应用调用 trace 方法调用明细 云平台健康度、集群节点、 pod 容 器指标 网 关 : KONG 、 LB 、 Nginx 等 中 间 件 : Kafka 、 MQ 、 Zookeeper 等 数 据 库 : MySQL 、 Clickhouse Nacos 聚合后指标 链路计算 清单查询 分数据中心 系统 A 跨数据中心链路自动串连 业务配 置 打标 存储集群 实例 id 、容 器 id 网络设备 主机 ip 、机 房 云平台 链路调用清单明细,方法级分析 告警收敛 根因定位 存储集群 调度转发节点 链路自动拓扑 告警配 置 告警计算 应用性能分析 业务、应用维度链路展现 kafka Redis
    20 积分 | 24 页 | 2.00 MB | 4 月前
    3
  • pdf文档 全国数智产业发展研究报告(2024-2025)

    纽节点,发展数据中心集群,引导数据中心集约化、规模化、 绿色化发展。 2022 年 2 月,国家发展改革委等四部委联合印发通知, 同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵 州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并启动 了张家口、芜湖、长三角生态绿色一体化发展示范区、韶关、 成都天府、重庆、和林格尔、贵阳、庆阳、中卫等 10 个国家 数据中心集群建设。 (3)工业和信息化部相关政策 目名单,加快培育大数据产业应用能力。 (4)科技部相关政策 科技部在数据领域相关技术研发方面长期部署国家重大 项目。前期,科技部通过 973 计划、863 计划、核高基重大 专项等国家科技计划,长期在大规模集群计算、服务器、处 理器芯片、基础软件等方面部署科研任务,部署内存计算、 网络大数据、媒体大数据等大数据研发任务,取得了阶段性 成效。“十三五”期间,科技部部署了区块链、网络空间安 全治理、高 日,北京市第十五届人民代表大会常务 委员会正式发布《北京市数字经济促进条例》,提出“支持 数字产业基础研究和关键核心技术攻关,支持企业发展数字 产业,培育多层次的企业梯队,推动数字产业向园区聚集, 培育数字产业集群”。 2023 年 6 月 20 日,北京市委、市政府发布《关于更好 发挥数据要素作用进一步加快发展数字经济的实施意见》 (北京“数据二十条”),提出“大力发展数据服务产业”, 包括数据生
    20 积分 | 236 页 | 8.61 MB | 13 天前
    3
  • pdf文档 2025年中国-上海合作组织数字技术工具箱

    ................... 87 四十五、算电一体 源网荷储一体化碳中和示范项目 .................... 89 四十六、太初元碁SuperPod 128高密液冷智算集群 .................... 91 四十七、支撑阿联酋电信和数字政府监管局发布5G白皮书 .................... 93 四十八、中巴国际数据枢纽总体规划 .... 2000移动通信网络, 具备跨地域、全业务的综合信息服务能力和自主可控的技术创新能力, 在云计算、AI、安全、量子等重点领域成绩突出 。建设全国“2+3+7+X”公共智算云池,在京津冀、长三角地区建设两大万卡智算集群,算力总规模持续领先;打造 400G弹性无损智算广域网络,算力池间平均时延降低至9.7ms,无损网络总容量达600T;打造通智超一体化智算加速 平台“云骁”与一站式智算服务平台“慧聚”等。 中 2000移动通信网络, 具备跨地域、全业务的综合信息服务能力和自主可控的技术创新能力, 在云计算、AI、安全、量子等重点领域成绩突出 。建设全国“2+3+7+X”公共智算云池,在京津冀、长三角地区建设两大万卡智算集群,算力总规模持续领先;打造 400G弹性无损智算广域网络,算力池间平均时延降低至9.7ms,无损网络总容量达600T;打造通智超一体化智算加速 平台“云骁”与一站式智算服务平台“慧聚”等。 中
    20 积分 | 113 页 | 11.44 MB | 4 月前
    3
  • pdf文档 湖南大学:2025年智算中心光电协同交换网络全栈技术白皮书

    限制,传统电交换机的带宽密度已难以满足大模型训练增长的流量需 求。光交换具有大带宽、可靠性高、功耗小、组网灵活的特点,相比 电交换机具有高带宽、低能耗的优势,是突破网络核心侧带宽密度瓶 颈的最佳技术路线,适用于超大规模 AI 训练集群。光电协同架构[6] 可以将光交换的高带宽、低延迟和电交换的灵活控制能力整合起来, 提供 TB 级带宽,充分发挥光与电两者优势。 表 1-2 光电交换技术比较 光电协同 全电交换 全光交换 多堆叠与横向扩展链路,从而加重布线密度与网络拥塞风险。 网络带宽瓶颈 当前,大模型训练通常依赖数千张 GPU 卡协同工作数周甚至数月, 训练效率瓶颈并不仅仅取决于单 GPU 的算力,也受到 GPU 集群间通 信效率的影响。GPU 间需进行频繁的梯度同步、参数更新、状态同 步等集合通信操作,这些数据传递操作在服务器机内和机间均存在, 且随着模型参数量的逐步提升,所传递的数据量也会不断增加。因此 链路的数据中心中,仅将核心层 32 台电交换机替换为 9 台光交换机, 可一并省下 2672 只 10W 功耗光模块,将核心层功耗由 62 kW 降低至 0.4 kW,节省逾 99%。大规模 AI 训练和推理集群往往成百上千机架 并行运行,网络能耗占据数据中心总能耗相当比例。光交换的低功耗 特性不仅降低电力与散热成本,为 GPU 留出冗余,还为持续扩容的 新一代算力平台提供绿色可持续的基础设施保障。
    20 积分 | 53 页 | 1.71 MB | 1 天前
    3
共 43 条
  • 1
  • 2
  • 3
  • 4
  • 5
前往
页
相关搜索词
全球计算联盟GCC2025异构算力协同白皮皮书白皮书面向新型智算中心以太以太网弹性通道FlexLane技术年云智算光互连发展报告中国移动中国移动华为践行主机现代现代化上云数字数字化时代组织效率本质读书笔记读书笔记国联联通中国联通监控平台稳定定性稳定性保障工具落地实践全国数智产业研究2024上海合作工具箱湖南南大大学湖南大学年智算光电交换网络全栈
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩