中国推理算力市场追踪报告,2025H1-沙利文
1.12 MB
12 页
0 下载
5 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
1 中国推理算力 市场追踪报告,2025年H1 头豹研究院 弗若斯特沙利文咨询(中国) 2025年8月 2 关键发现 算力需求重心从训练转向推理,算力基础设施持续扩展与升级 AI算力消耗已从集中式训练转向大规模推理,带来前所未有的增量需 求。2025年被认为是算力爆发的元年,推理算力的需求将迎来井喷式 增长。推理算力的需求将在未来几年内远超训练算力。 01 2025年H1中国推理算力服务市场中,天翼云以【21.4%】的市场份 额领先 中国日均Tokens消耗量从2024年初的1000亿增长到截至今年6月底,日 均Token消耗量突破30万亿,1年半时间增长了300多倍,这反映了中国 人工智能应用规模快速增长。天翼云息壤一体化智算服务平台率先完 成国产算力与DeepSeek-R1/V3系列大模型的深度适配优化,成为国内 首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。 02 未来推理算力长序列与超大模型推理优化成为关键,国产软硬件 协同与生态成熟推动推理普及 03 中国算力正朝着“训推一体”融合架构快速发展,以支撑大规模 模型与多模态应用的高效低延迟推理。国产AI芯片与推理框架不 断优化,结合模型压缩、量化、动态推理等技术,进一步提升能 效比和部署灵活性。 3 沙利文市场研读 | 2025/08 2 研究框架 中国推理算力市场综述 • 关键发现 • 中国推理算力定义及服务覆盖范围 • 算力需求重心从训练转向推理 • 中国推理算力市场规模分析 • 中国推理算力竞争格局分析 • 中国推理算力核心技术分析 • 中国推理算力相关政策分析 • 中国推理算力发展趋势分析 • 中国推理算力未来挑战分析 4 www.leadleo.com 400-072-5588 4 中国:人工智能系列 市场研读 | 2025/02 58% 49% 16% 26% 19% 8% 12% 5% 4% 3% 2023 2027 推理平台及应用部署偏好 设备端 边缘服务器 本地一体机部署 私有云 公有云 来源:沙利文、头豹研究院 中国推理算力:定义与服务覆盖范围 关键发现 推理算力主要负责AI模型的推理任务,主要用于处理和执行已经训练好的模型进行实 际应用。这包括执行推理任务、处理实时数据和提供预测结果。推理过程通常对计算 资源需要快速响应,对实时性要求较高。 市场研读 2025/08 中国:云服务系列 推理是指利用训练好的大模型, 使用新数据推理出各种结论。 推理芯片的目标是在已经训练好 的模型上执行任务,推理芯片不 需要进行复杂的学习过程,其设 计重点是在保持高效计算的同时, 尽可能减少功耗。 因此,推理芯片比较关注低延时、 低功耗。可配置使用优化的推理 硬件,高效能的服务器和网络设 备如GPU、NPU或FPGA,这些硬件 能够高效执行模型推理任务,以 确保快速响应时间和稳定的服务。 但不一定需要与训练时相同的硬 件配置 。 推理型智算中心的硬件更注重处 理速度和可靠性。 推理算力定义范围 随着AI从训练为重走向推理为主,私有化环境及边 缘的部署需求都在迎来爆发。 ??????? ‘自行车’ 模型推理 Inference 模型权重 Model weights Forward 5 www.leadleo.com 400-072-5588 5 中国:人工智能系列 市场研读 | 2025/02 来源:沙利文、头豹研究院 市场研读 2025/08 中国:云服务系列 算力需求重心从训练转向推理 关键发现 2025年年初,Deepseek-V3的低成本训练为推理芯片和推理算力市场注入了一剂强心 针,市场不再追求简单的算力规模的扩展,而是开始关注AI在特定业务场景下的实际 应用表现,各地算力中心的资源利用率呈现出显著提升的良好态势。 模型训练与推理 中国人工智能算力负载预测,2024-2028E 35% 33% 31% 28% 27% 65% 67% 70% 72% 73% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2024 2025 2026 2027 2028 推理 训练 训练 推理 预训练 二次训练 全参微调 局部微调 ToC推理 ToB中心 ToB边缘 业务 主体 大型互联网 运营商 大模型公司 行业头部企 业 大中型企业 大中小企业 大型互联网 大型企业 分支/ 中小企 算力 需求 超大规模 大规模 较小规模 小规模 超大规模 大规模 小规模 千卡~万卡 数百卡~千 卡 单机8卡起步 单机1卡起步 千卡以上 数百卡~ 数十卡 工程 难度 很高 高 较高 一般 很高 高 较高 TP/DP/PP并行, 海量数据 基模选择, 高质量数据 十万~百万 条指令集 <万条指令集 极致性能 融合高效 灵快轻易 6 www.leadleo.com 400-072-5588 6 中国:人工智能系列 市场研读 | 2025/02 来源:沙利文、头豹研究院 中国推理算力产业洞察——市场规模 市场研读 2025/08 中国:云服务系列 中国推理算力市场规模,2024年-2028E 175.2 438.3 876.5 1489.2 2931.2 0 500 1000 1500 2000 2500 3000 3500 2024 2025E 2026E 2027E 2028E 中国推理算力市场规模 2025年被认为是算力爆 发的元年,推理算力的 需求将迎来井喷式增长。 推理算力的需求将在未 来几年内远超训练算力。 中国日均Tokens消耗量 从2024年初的1000亿增 长到截至今年6月底,日 均Token消耗量突破30万 亿 , 1年 半时 间增 长了 300多倍,这反映了中国 人工智能应用规模快速 增长。2025年中国推理 算力市场规模预计将达 到438.3亿人民币。 单位:亿元 110 139 171 182 195 260 330 30 41 59 78 105 150 240 28.57% 27.78% 13.04% 15.38% 36.67% 39.02% 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 0 100 200 300 400 500 600 2021 2022 2023 2024E 2025E 2026E 2027E 通用算力 智能算力 增长率(%) 140 180 230 260 300 410 570 算力总规模 (EFLPOS) 算力规模增速 (%) 中国通用算力与智能算力规模,2021-2027E 在AI基础设施中,算力是推动创新与实现突破的核心驱动力。随着AI与云业务的不断发展,算 力规模呈现稳定增长态势,截止2023年,通用算力与智能算力分别达到171与59EFLPOS,预计 2027年通用与智能算力将分别达到330与240EFLPOS,整体增速达到39%。 7 www.leadleo.com 400-072-5588 7 中国:人工智能系列 市场研读 | 2025/02 中国推理算力产业洞察——市场份额 中国推理算力市场份额,2025H1 来源:沙利文、头豹研究院 2025H1,在中国推理算力市场中,天翼云以市场份额21.4%位列第一 天翼云息壤一体化智算服务平台率先完成国产算力与DeepSeek-R1/V3系列大模型的深 度适配优化,成为国内首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云 平台。此次突破标志着国产AI生态建设迈入新阶段,为行业提供了性能卓越、安全可 控的智能算力基座。 作为首家完成DeepSeek大模型国产化适配的运营商,天翼云息壤一体化智算服务平台 展现了三大核心优势。 全栈自主可控:从昇腾硬件、推理引擎到模型服务,实现技术链路100%国产化, 保障企业数据安全与业务合规。 灵活选型模型:支持DeepSeek-R1满血版(671B参数)至轻量化蒸馏模型的灵活部 署,覆盖从复杂决策到高并发交互的全场景需求。 异构算力融合:同步兼容多元算力,支持企业按需构建混合算力集群,释放资源 潜力。 市场研读 2025/08 中国:云服务系列 21.4% 20.1% 11.1% 47.3% 中国推理算力市场份额,2025H1 天翼云 阿里云 华为云 其他 8 www.leadleo.com 400-072-5588 8 中国:人工智能系列 市场研读 | 2025/02 来源:沙利文、头豹研究院 关键发现 中国推理算力的发展核心聚焦于解决高实时性、低时延与高并发需求。其关键技术突破在于 采用P/D分离架构,通过预填充(Prefill)与解码(Decoding)实例分工,并利用高性能 RoCE网络实现KV Cache同步,从而兼顾首Token低时延与后续Token生成效率。 中国推理算力核心技术分析 市场研读 2025/08 中国:云服务系列 中国推理算力产业洞察——核心技术分析 1)推理场景的特点与需求 实时性要求高:智能客服、实时金融分析、智能 驾驶、智慧医疗等场景需快速响应。 时延敏感:首Token时延需<1秒,后续Token时延 需<50毫秒。 物理距离影响:推理终端与算力中心距离越远, 时延越长。 爆发性增长:AI应用推理需求持续增长,对算力 基础设施提出更高要求。 2)海量用户推理的核心挑战 3)关键技术:P/D分离架构(以KV Cache为中心) 低成本保障用户体验(低时延)。 低成本满足亿级日访问量。 同时实现首Token低时延和后续Token持续 低时延。 推理终端与算力中心距离导致时延增加。 通过高性能RoCE网络实现预填充与解码实例间KV Cache同步 每个NPU配备不少于200Gbps的RoCE接口 确保数据传输低延迟和高带宽 用户请求 任务调度 预填充实例 Prefill 任务类型:计算密集型 硬件需求:高算力NPU/GPU集群 优化目标:最小化首Token时延 解码实例 Decoding 任务类型:内存密集型 硬件需求:大容量内存+高内存带宽 优化目标:最大化Token生成效率 高性能RoCE网络 网络架构:200Gbps+ RoCE网络接口 组网设计:1:1无阻塞CLOS架构 性能要求:μs级网络延迟 数据同步:全互联(Full-Mesh)数据同步 KV Cache Full-Mesh Full-Mesh 调度 返回 缓存同步 精度/参数量 Accuracy 可学习的变量数量 推理时延 Latency 衡量单次推理性能 吞吐/并发 Concurrency 同时使用用户/数据量 算力效率 Effciency 算力使用效率 4)LACE推理指数体系 KV Cache 9 www.leadleo.com 400-072-5588 9 中国:人工智能系列 市场研读 | 2025/02 来源:沙利文、头豹研究院 中国推理算力产业洞察——政策梳理 关键发现 中国算力中心政策呈现体系化、高强度推进特征,核心导向是构建全国一体化算力网与促进 绿色低碳发展。 算力中心行业相关政策梳理 市场研读 2025/08 中国:云服务系列 2025年 9月 《关于进一步强化“东数西算”工程算力枢纽协同发展的联合倡议》 倡议共建算力监测与调度体系,打破区域壁垒;统一技术标准与安全规范;深化区域协同 与产业融合,并创新东西部利益共享与补偿机制。 公布发展目标:计划到2025年建成30万个标准机架,数字经济核心产业规模突破千亿元。 《关于打造“算力之都”促进人工智能产业发展的若干政策(试行)》 提供高额补贴:对算力服务提供方按实际服务金额的1%给予资助(最高1000万)。 对使用算力企业按费用50% 资助(最高100万)。 《关于进一步明确算力奖励资金有关事宜的通知》 明确绿色算力奖励资金申报细则:对购买算力服务达到100万元以上的主体,按实际费用 的30% 给予最高200万元奖励。 2025年 6月 《北京市算力基础设施建设实施方案(2024—2027年)》 公布具体扶持细则:对采购自主可控GPU芯片、进行绿色节能改造的企业按投资额给予比例 支持,并提升“人工智能算力券”政策效能。 2024年 3月 2025年 5月 2024年 12月 2024年 7月 《国家数据基础设施建设指引》 推进算力资源科学布局,促进各类新增算力向国家枢纽节点集聚;推进算力与绿色电力融合。 《数据中心绿色低碳发展专项行动计划》 设定严格能效目标:到2025年底,新建及改扩建大型数据中心PUE降至1.25以内,国家枢 纽节点PUE不得高于1.2;可再生能源利用率年均增长10%。 《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案 (2024-2025年)》 提出到2025年,上海智能算力规模超过30EFlops(占比50%以上)。 新建智算中心PUE值达到1.25以下;液冷机柜占比超过50%;绿电使用占比超20%。 2023年 12月 《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》 提出引导各类算力向国家枢纽节点集聚,节点外原则上不得新建大型及超大型数据中心。 设定到2025年国家枢纽节点新建数据中心绿电占比超过80%的目标。 《数字中国建设整体布局规划》 提出系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中 心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。 2023年 2月 10 www.leadleo.com 400-072-5588 10 中国:人工智能系列 市场研读 | 2025/02 来源:沙利文、头豹研究院 中国推理算力产业洞察——发展趋势 关键发现 中国智能算力正朝着“训推一体”融合架构快速发展,以支撑大规模模型与多模态应用的高 效低延迟推理。 中国推理算力发展趋势分析 市场研读 2025/08 中国:云服务系列 在当前国家高度重视人工智能发展的战略背景下,中国推理算力正迎来快速发展阶段。随着AI模型尤其是 大模型和多模态模型的广泛应用,对高效、低延迟推理算力的需求持续攀升。从技术发展趋势来看,推理 算力正呈现以下几个重要方向: 算力基础设施持续扩展与升级 国家政策和市场需求共同推动算力中心规模不断扩大,尤其是智能算力中心正在从“训练为主”向“训推 一体”融合架构演进。这种架构不仅能支持大规模模型训练,还可高效完成模型推理任务,更好地适应多 样化的业务场景需求。 从芯片制造(中芯国际、华虹半导体)、设备材 料(中微公司、鼎龙股份),到整机、连接器、 光模块、液冷等环节,已形成自主可控的算力基 础设施体系,为推理算力发展提供全面保障。 以华为昇腾为代表的国产芯片迭代速度加快, 通过“超级节点”集群架构,以多卡互联实现 系统级算力突破,有效弥补单芯片性能差距。 AI芯片实现多技术路线并行发展,训练与推理芯片 性能快速提升。华为采取开放策略,公开芯片路线 图并授权合作伙伴生产自有品牌服务器,吸引更多 企业加入生态,共同提升国产解决方案竞争力。 产业协同 技术突破 生态构建 国产算力正通过技术、生态与产业链的协同效应,为中国推理算力发展奠定坚实基础。 长序列与超大模型推理优化成为关键 随着支持长序列(如32K甚至更长)的模型逐步进入商用,推理过程中对内存和计算资源的需求急剧上升。 例如,处理超长文本或音视频输入时,KV Cache 等缓存机制面临巨大压力。多级缓存技术(如HBM + DRAM + 专业存储)通过“以存代算”策略显著减轻计算负担,提升推理效率,支持更长上下文理解和更 复杂任务处理。 多机并行推理支撑超大模型与多模态应用 面对千亿级参数模型和百万级长度多模态输入带来的计算与内存挑战,多机并行推理成为必然选择。通过 节点内NPU高速互联与节点间RoCE网络协同,实现计算资源的高效调度与通信优化,显著提升推理吞吐并降 低延迟。 软硬件协同与生态成熟推动推理普及 国产AI芯片(如昇腾、寒武纪等)与推理框架(如MindSpore、PaddlePaddle)不断优化,结合模型压缩、 量化、动态推理等技术,进一步提升能效比和部署灵活性。同时,开放算力生态建设和标准推进也加速了 推理算力的普惠化应用。 11 www.leadleo.com 400-072-5588 11 中国:人工智能系列 市场研读 | 2025/02 中国推理算力产业洞察——挑战分析 关键发现 中国智能算力发展面临电力资源紧张、高功率机柜供给不足、县域技术适配难及数据安全与 协同机制缺失等挑战。应对策略包括推动算力中心西迁、加快高密度绿色基础设施建设、推 广“技术-场景”共享模式,并通过“技术+机制”双轮驱动加强数据安全与跨层级协同。 中国推理算力发展挑战分析 市场研读 2025/08 中国:云服务系列 算力基础设施面临电力资源瓶颈 电力资源是支撑算力中心行业实现高质量、可 持续发展的关键因素。然而,随着算力中心行 业的快速发展,在一线及新一线的部分地区已 面临能耗指标紧张的态势,进而将导致这些地 区算力中心供给资源出现稀缺性。 2022年我国算力中心用电情况: • 耗电量:2,700亿 kWh 。。 • 能耗占全国总用电量:~3% 到2030年,预计算力中心行业用电量将超过 4,000亿+kWh 电费支出占到算力中心运维成本的七成。 算力中心耗能持续增长 解决路径: 充分利用西部地区电价优势,部分地区算力 中心用电成本经政策补贴后降低至0.3元/kWh 以下,这成为算力中心服务商"西迁"的原生 动力。同时,推动绿色算力中心建设,通过 技术创新
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
11 页请下载阅读 -
文档评分


电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求