京东物流超大规模仓储系统智能监控(32页)会 2 0 1 9 · 上 海 站 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 京东物流超大规模仓储系统智能监控揭秘 付正全 架构师 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 频繁变化的资产,不可靠的CMDB 运维专家匮乏 复合型人才匮乏:AI和算法工程师+运维开发 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 对监控的认识 什么是监控? 为什么需要监控? 题 智能客服机器人 提供智能客服机器人服务,根据人员信息自动推测可能的问题及解决方案 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 目录 问题及挑战 1 超大规模监控系统解决方案 2 面向AIOPS的智能监控最佳实践 3 规划&展望 4 G O P S 全 球 运 维 大 会 2 0 1 9 · 上 海 站 故障快照 出现告警自动抓取现场快照信息0 积分 | 32 页 | 2.32 MB | 2 月前3
智算无界:AIDC的超越和重构-上海贝尔网络,承担系统业务调度与带内管 理流量,采用多层CLOS组网,通常部署为TCP/IP有损网络。几类网络通过逻辑或物理隔离,确保智算中心 高效协同,同时降低跨流量干扰。 为满足智算中心内部网络超大规模、超高吞吐、超低时延、超高可靠性的性能需求,构建智算网络的技 术体系如图2-2所示,包括智算网络基础设施层、拥塞控制层、流量调度层、网络协议层和集合通信层以及高 可靠性保障和智能化运维等功能模块。 业联盟正积极自主创新 全向智感互联OISA技术,Gen1支持800GB/s,相关标准和芯片已发布;智算中心网络主要传输协议是IB和 RoCEv2,这两者都是基于RDMA旁路卸载低时延技术。面对超大规模智算集群网络的更高要求,基于 RoCEv2进一步技术演进,中国移动提出全调度以太网(GSE)技术架构,超以太网联盟(UEC)提出新一代 UET传输协议,业界还创新发展分布式解耦DDC新架构,同 过自动化部署降低集群配置时间,提高网络管理效率;通过带 内遥测(INT)与自动化采集技术,构建全链路数字孪生;通过AI驱动故障预测、根因分析以及自愈动作闭环等。 2)智算网络演进与创新 随着超大规模智算集群建设的新需求以及技术创新的迭代进步,智算网络技术从硬件基础设施到网络架 构和协议,到网络无损和流量控制等,持续快速演进。根据业界的发展状态和趋势,如图2-4,规划梳理了其 大致的技术发展脉络:10 积分 | 38 页 | 9.31 MB | 23 天前3
2025AI供电的未来:重新定义AI 数据中心供电白皮书-英飞凌V/50 V 电压域转换至 6 V 的中间总线。图 10 显示了该模块及其实测效率曲线。 12 二、AI 服务器机架的供电 预测三:AI 服务器机架的功耗将超过 1 兆瓦 在针对拥有万亿级参数的超大规模AI模型进行训练时,需要将数千颗GPU集成在同一台机器中,并以同步模式运行。 机架之间的数据通信通常通过光通信实现,而 IT 机架内部的高速互连则依赖专用处理器,通过铜缆将每个 GPU 与 其他 到数百兆瓦级别。 在未来几年内,为满足规模日益庞大的 AI 模型对算力的无限需求,预计将出现专门的“AI 工厂”。在同一数据中 心园区内,此类设施的用电量将达到吉瓦级,甚至可能超过数吉瓦。多家超大规模数据中心运营商已发布了相关 建设计划 [2,3]。在训练过程中,大型 GPU 集群的负载剧烈波动,所引起的电力供应与电网稳定性问题,成为确保 这些数据中心安全运行的重大挑战。要应对这些挑战,必 率转换环节上,实施瞬态负载的主动缓冲。 此外,在设施层面部署大型电池储能系统(BESS)也将成为必需措施,以确保整个数据中心保持近乎恒定的负载 曲线。 英飞凌致力于沿着整个功率转换链路,支持超大规模数据中心运营商及系统供应商,共同实现可持续、高效且具 经济可行性的电力解决方案。功率半导体正是这些工作的核心所在,其目标包括: 17 • 将任意能源形式转换为处理核心电压所需的负载电流 •10 积分 | 24 页 | 14.75 MB | 23 天前3
智算产业发展研究报告(2025)-天翼智库恩宣布启动“投资人工智能(InvestAI)”计划,目标筹集 2000 智算产业发展研究报告(2025) 6 亿欧元用于人工智能投资,并专门设立 200 亿欧元基金用于建设 欧洲人工智能超级工厂,以训练高复杂度、超大规模的 AI 模型。 4 月 9 日,欧盟发布“人工智能大陆行动计划” [5],战略核心是将 欧盟固有优势(如高质量人才储备和强大传统产业基础)转化为 AI 发展的关键加速器,力争成为人工智能领域的全球领导者。 2024 年资本支出总额为 2460 亿美元,较 2023 年(1510 亿美元)大幅 增长 63% [16]。Synergy Research Group 数据显示,截至 2024 年底, 全球超大规模数据中心数量达 1136 个,其中,亚马逊、微软和谷 歌三家合计占据全球总容量的 59%,其次是 Meta、阿里巴巴、腾 讯、苹果、字节跳动等。2025 年,微软、谷歌、亚马逊和 Meta 继续扩大 式部署成为新方向。谷歌已组建跨多个智算中心的大规模集群,完成 Gemini Ultra、Gemini 1.5pro 等大模型训练;OpenAI 计划分五个阶 段建设多个智算中心,并通过多智算中心互联最终打造百万卡级别的 超大规模基础设施。中国电信基于国产化算力完成跨百公里千亿参数 模型在千卡规模下的分布式智算中心互联验证,初步证实大模型跨智 算中心分布式协同训练的可行性。 3、AIDC 基础设施持续升级,绿色化转型不断深化10 积分 | 48 页 | 3.12 MB | 1 月前3
智算中心成为新基建的基本条件与智慧时代动力源_王恩东智算中心要成为新基建,必须满足以下三个基本条 件:开放标准、集约高效和普适普惠。 开放标准要求智算中心从硬件到软件、从芯片到架 构、从建设模式到应用服务都应该是开放的、标准的; 集约高效要求智算中心的建设要有超大规模,要采用 领先的技术,保证自身的先进性; 普适普惠则要求智算中心发挥基础设施的社会价值, 服务大众。 下面,具体分析这三个条件。 首先是开放标准。通过简单回顾开源开放的历史,可 以看到开放的边界越来越广阔。 设。作为基础设施,要求不同的智算 中心要能够互联互通,包括管理上的 互操作,统一的调度、分发、监控、 运维;业务上的互联接,包括网络打 通、业务迁移等;数据上的互流通, 实现容灾、数据共享等。 二是基础设施的超大规模要求智 算中心应该是集约高效的。首先智算 中心整体设计理念先进,技术上说融 合架构代表着数据中心体系结构的未 来发展方向。融合架构从1.0到2.0, 已经实现了存储资源和异步计算资源 的弹性组合。现在的融合架构正处于 全 的AI计算产品阵列:浪潮AGX-5是目前全球最高性能的AI 计算主机之一;AGX-2是目前单位空间内GPU计算密度最高 的服务器;FP5295可支持CPU和GPU间数据同步传输。浪潮 超大规模AI计算框架LMS,可实现单GPU超大算力支撑,支 持70亿参数的NLP智能语言模型训练,相比主流Bert模型参 数量提升20倍。 第 二 是 聚 合 算 力 。 在 训 练 方 面 , 浪10 积分 | 7 页 | 1.48 MB | 1 月前3
2025年金融操作系统AI创新与融合实践报告⚫ 针对自主创新芯片服务器优 化 ⚫ 针对自主创新数据库的性能 优化 ⚫ 针对资源利用率的有效提升 15年磨砺 海量实践铸成Ten ce ntOS Ser ver • 支撑腾讯云上用户超大规模的部署和运 行,持续不断的优化,规避故障,提高 稳定性,经受用户关键业务考验 190万+CVM数 经受腾讯云用户关键业务考验 • 从2010年起持续对Linux内核进行贡献 • 连续6年入选全球“KVM开源贡献榜 打破TPC-C 世界纪录 TDSQL+TencentOS组合 国内主流数据库厂商 互认证(部分) 云原生操作系统:轻量安全的云原生底座 国内主流云平台/容器平台 互认证(部分) 基于腾讯云超大规模云原生运营过程中积累的自主研发能力,支持腾讯核心业务的高效运转。云原生操作系统具备深度优化的云原生能力,专为容器、微服 务等架构打造,提供 NetTrace、SLI及 RUE 混部系统等核心特性20 积分 | 13 页 | 2.55 MB | 1 月前3
2025年电子元件供应链的未来之路报告-从过剩到平衡单元)专为高算力AI(人工智能)任务设计, 能在与超大规模的定制化软件层协同运行时 显著提升能效。 Broadcom(博通)CEO(首席执行官)Hock Tan预测该领域将迎来爆发式增长,2027年 的AI(人工智能)及AI(人工智能)网络相关 营收预计将从当前的150至200亿美元跃升 至600至900亿美元。亚马逊AWS、谷歌 云与微软Azure等超大规模云服务商正与 Broadcom(博通)联合开发AI(人工智能) 点击此处下载 这一趋势虽预示着专用芯片市场扩容,但业 界专家普遍认为其互补性作用远大于替代性: 通用型GPU(图形处理器)在基础AI(人工 智能)算力中占据主导地位,定制化芯片则 专注于解决超大规模场景需求。此类技术演 进不仅重塑了AI(人工智能)基础设施格局, 更为电子元器件产业注入了持续的增长动能。 AI(人工智能)硬件引领半导体产业革新 HPC(高性能计算)与服务器预计将在2025年20 积分 | 18 页 | 5.59 MB | 1 月前3
火山引擎新一代边缘云解决方案(16页 PPT)影视制作 装修设计 数字可视化 渲染场景 资源编排 CPU 云主机 GPU 云主机 高效云盘 VPC 网 络 弹性 IP 火山引擎边缘云 超大规模边缘资源 超高产品性能 超流量场景验证保障 高性能标准硬件资源 NVMe SSD IO 时延 <1 ms 内容分发和加速网络创新 边缘计算节点创新 异构算力 CPU\GPU\ARM 自研高性能实例 PPS>700W 支持自定义限速 多种计费模式 云边镜像 ¢ 键 分 发 带 超大规模的接入点 单节点海量流量承载能力 智能调度 提供质量稳定加速资源 自研的传输优化、智 能缓存、动态路由 边缘渲染 边缘智能 火山引擎边缘云产品创 新 新基础 底座 离线渲染10 积分 | 16 页 | 1.93 MB | 1 月前3
2025年6G“零中断”网络设计白皮书-中移智库发二 次危机,故障影响范围持续扩大、定位复杂度进一步增加,恢复时间延 长。 做好风险化解,避免大面积瘫痪故障:数据网元(例如UDM、HSS)作 为移动通信网核心所在,该设备的故障将引发超大规模的用户重注册、 进而引起信令风暴,需要考虑相应机制分担数据网元故障后的风险与压 力。 做好动网预演,避免操作不当带来风险:部分事故是由于管理机制不完 善,在网络升级改造、调整维护时缺少预演预验证手段,导致一些误操 机制和4/5G网络形成新形态的高低制式间的互补与兜底。 1.3 6G 网络可靠性挑战分析 6G网络将覆盖更广泛的应用场景,赋能多行业、多领域的智能化服务。ITU-R 在2023年明确了6G六大核心场景,包括沉浸式通信、超大规模连接、极高可靠低 时延、感知与通信的融合、人工智能与通信、泛在连接。这些新场景普遍要求网 络提供更高稳定性,同时对网络可靠性也提出一些新挑战。 图 2 ITU 定义 6G 六大核心场景 1 P2P 动态组网,需实 时组建协作网络并共享环境信息,现有网络的静态子网管理与路由机制难以满足 动态协同需求,亟需提升网络动态组网与智能调度能力以保障业务可靠性。 1.3.3 超大规模连接,瞬时信令冲击加倍 6G 超大规模连接场景下,海量物联设备接入(每平方千米可达百万至亿级) 对网络可靠性形成多重挑战。终端规模百倍于 5G 时代,网络异常恢复时的大规 模重连易引发信令风暴,远超现有网络抗 “浪涌”0 积分 | 36 页 | 2.50 MB | 1 月前3
2025年超节点发展报告-华为&中国信通院支撑大模型创新及云服务场景 加速人工智能科学计算,服务算法创新 助力行业企业智能化升级 系统特征 AI 技术从单点能力突破迈向系统能力创新 超节点技术产业生态发展格局 基础特征:大带宽、低时延、内存统一编址 超大规模 扩展特征:多级缓存池化、资源灵活配比 超高可靠 灵活切分 大模型计算基础设施的挑战 小结 小结 CONTENTS 目录 超节点发展报告 02 当我们站在人工智能大模型技术飞速发 一体化的设计思维,将计算、存储、网络与运维管理深度融合,锻造出高性能、高效率、高可靠的 单一逻辑实体。它标志着一个全新时代的开启——智算基础设施正从松散组合的算力堆叠阶段,迈 入软硬协同、全局优化的超节点阶段,旨在有效破解超大规模 AI 训练与推理中所面临的扩展性瓶颈、 效率损耗与能耗墙难题,为 AI 的持续创新提供坚实、高效、绿色的算力基座。 为系统分析超节点技术的发展逻辑、技术创新、产业价值以及未来趋势,我院与华为及相关单位 人工智能高速演进背景下,算力需求呈指数级增长,大模型竞争已进入 “参数规模摸高” 与 “训 练效率提升” 并行的新阶段。Scaling Law(规模定律)将以多元形态长期生效,持续推动人工智 能技术突破能力边界,而超大规模 Transformer、MoE(混合专家模型)、稀疏注意力模型等,已 成为可扩展模型的核心架构方向。在复杂的混合并行策略下,随着并行规模持续扩大,系统节点间 通信带宽与可用显存容量成为制约大20 积分 | 31 页 | 4.79 MB | 1 月前3
共 96 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10
