【深度报告】DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求

语言	格式	评分
中文（简体）	.pptx	3
概览
电子 AI+ 系列专题报告（六） Deep Seek 重塑开源大模型生态， A I 应用爆发持续推升算力需求证券分析师：胡剑证券分析师：胡慧证券分析师：叶子证券分析师：张大为证券分析师：詹浏洋 021-60893306 021-60871321 0755-81982153 021-61761072 010-88005307 hujian1@guosen.com.cn huhui2@guosen.com.cn yezi3@guosen.com.cn zhangdawei1@guosen.com.cn zhanliuyang@guosen.com.cn S0980521080001 S0980521080002 S0980522100003 S0980524100002 S0980524060001 证券研究报告 \| 2025 年 02 月 05 日行业研究 · 行业专题电子投资评级：优于大市（维持）请务必阅读正文之后的免责声明及其项下所有内容 DeepSeek 重塑开源大模型生态， AI 应用爆发持续推升算力需求 l DeepSeek 发展突飞猛进，领跑开源大模型技术与生态， DeepSeek 模型已成为全球现象级模型。 DeepSeek( 深度求索 ) 公司成立于 2023 年 7 月，是一家致力于实现通用人工智能 (AGI) 的创新型科技公司。 2024 年 12 月， DeepSeek-V3 发布，性能对齐海外领军闭源模型。据官方技术论文披露， V3 模型的总训练成本为 557.6 万美元，对比 GPT-4o 等模型的训练成本约为 1 亿美元。 2025 年 1 月， DeepSeek-R1 发布，性能对标 OpenAI-o1 正式版。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI-o1 正式版。 2 月 1 日消息，据彭博社报道， DeepSeek 的人工智能助手在 140 个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问 DeepSeek-R1 模型。 2 月 1 日，华为云官方发布消息，硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。 l DeepSeek 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练，构建 DualPipe 算法和混合精度训练优化计算与通信负载；通过 ( 分阶段 ) 强化学习实现性能突破。多头潜在注意力 (MLA) 通过低秩联合压缩技术，大幅削减了注意力键 (keys) 和值 (values) 的存储空间，显著降低了内存需求。 DeepSeekMoE 架构采用了更为精细粒度的专家设置，能够更加灵活且高效地调配资源，进一步提升了整体的运行效率和表现。 DeepSeek 模型对跨节点的全对全通信机制进行优化，充分利用 InfiniBand 和 NVLink 提供的高带宽。创新性提出了 DualPipe 算法，通过优化计算与通信的重叠，有效减少了流水线中的空闲时间。采用 FP8 混合精度训练技术，不仅极大地加快了训练速度，还大幅降低了 GPU 内存的消耗。 DeepSeek-R1-Zero 通过强化学习架构创新实现突破性性能，核心技术创新体现在训练效能优化策略、双维度评价体系、结构化训练范式三个维度。 DeepSeek-R1 采用分阶段强化学习架构演进，包括冷启动阶段、面向推理的强化学习、拒绝采样与监督式微调、全场景强化学习等。 l AI 应用爆发在即，算力需求持续攀升，关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则，随着 ChatGPT 引领全球 AI 浪潮，国内外科技公司纷纷发布 AI 大模型，截至 24 年 7 月，全球 AI 大模型数量约 1328 个 ( 其中美国位居第一位，占比 44% ；中国位居第二位，占比 36%) ，模型的迭代加速、竞争加剧。同时， AI 模型向多模态全方位转变， AI 应用百花齐放，企业主动拥抱 AI 应用市场。因此，模型数量、模型参数、数据总量的持续增长及 AI 应用需求推动全球算力爆发式增长。在英伟达 GPU 随着架构的不断演进及算力的成倍增长，于 AI 大模型训练中得到广泛运用的同时，为了满足 CSP 客户更高性能和更好功能的需求，定制化芯片 ASIC 的需求持续提升，牧本钟摆从标准化逐渐摆向定制化。与之相应的算力基础设施持续建设和升级，促使国内外云服务商资本开支持续高速增长，带来 AI 服务器市场规模大幅提升，预计到 26 年全球 AI 服务器出货量将达到 237 万台，对应 2023-2026 年 CAGR 为 26% 。 l 重点推荐组合：中芯国际、翱捷科技、德明利、工业富联、沪电股份、联想集团、国芯科技、澜起科技、芯原股份、龙芯中科、东山精密、景旺电子。 l 风险提示：宏观 AI 应用推广不及预期、 AI 投资规模低于预期、 AI 服务器渗透率提升低于预期、 AI 监管政策收紧。请务必阅读正文之后的免责声明及其项下所有内容 Deep Seek 发展突飞猛进，领跑开源大模型技术与生态 A I 应用爆发在即，算力需求持续攀升，关注 AS IC 及服务器产业链风险提示目录请务必阅读正文之后的免责声明及其项下所有内容 02 01 03 DeepSeek 发展突飞猛进，领跑开源大模型技术与生态请务必阅读正文之后的免责声明及其项下所有内容 l DeepSeek( 深度求索 ) 公司成立于 2023 年 5 月，是一家致力于实现 AGI(Artificial General Intelligence ，通用人工智能 ) 的创新型科技公司，专注于开发先进的大语言模型和相关技术。 DeepSeek 由知名量化资管巨头幻方量化创立，幻方量化创始人梁文峰在量化投资和高性能计算领域具有深厚的背景和丰富的经验。 l 2024 年 5 月， DeepSeek-V2 发布，成为全球最强开源通用 MoE 模型。 DeepSeek 独创 Attention 结构 MLA( 一种新的多头潜在注意力机制 ) 、稀疏结构 DeepSeek-MoE 在大模型竞技场 (LMSYS) 位列全球开源模型第一名，依靠创新结构，将推理成本降低近百倍。 l 2024 年 12 月， DeepSeek-V3 发布，性能对齐海外领军闭源模型。该模型在多项评测集上超越了阿里 Qwen2.5-72B 、 Meta 的 Llama-3.1-405B 等其他开源模型，并逼近 GPT-4o 、 Claude-3.5-Sonnet 等顶尖闭源模型。据官方技术论文披露， V3 模型的总训练成本为 557.6 万美元，对比 GPT-4o 等模型的训练成本约为 1 亿美元。 l 2025 年 1 月， DeepSeek-R1 发布，性能对标 OpenAI-o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型，允许所有人在遵循 MIT License 的情况下，蒸馏 R1 训练其他模型。 DeepSeek 成立不到两年颠覆开源大模型格局，性能对标海外图： DeepSeek 模型迭代与发展历史沿革请务必阅读正文之后的免责声明及其项下所有内容 DeepSeek Coder 发布，目前仍是开源代码模型标杆。资料来源： DeepSeek 官网，国信证券经济研究所整理 2023/05 2023/11 2024/02 2024/03 2024/05 2024/06 2024/09 2024/11 2024/12/10 2024/12/26 2025/01/20 DeepSeek-V2.5-1210 发布， V2 系列收官；联网搜索上线官网。 DeepSeek Coder V2 发布，成为全球最强代码开源模型。 DeepSeek- V 2 . 5 发布，融合通用与代码能力的全新开源模型。 DeepSeek-R1-Lite 预览版正式上线，展现了 o1 没有公开的完整思考过程。 DeepSeek VL 发布，作为自然语言到多模态初探。 DeepSeek V2 发布，成为全球最强开源通用 MoE 模型。 DeepSeek Math 发布， 7 B 模型逼近 GPT-4 的数学能力。 DeepSeek- V 3 发布，性能对齐海外领军闭源模型。 DeepSeek- R 1 发布，性能对标 OpenAI-o1 正式版。 DeepSeek( 深度求索 ) 成立。 l DeepSeek 下载量占据 140 多个国家榜首。 2 月 1 日消息，据彭博社报道， DeepSeek 的人工智能助手在 140 个市场下载次数最多的移动应用程序排行榜上名列前茅，其中印度占据了新用户的最大比例。据 Appfigures 数据（不包括中国的第三方应用商店），这款推理人工智能聊天机器人于 1 月 26 日升至苹果公司应用商店的榜首，此后一直占据全球第一的位置。 l 国外大型科技公司已上线部署支持用户访问 DeepSeek-R1 模型。 1 月 30 日，微软宣布 DeepSeek-R1 模型已在 Azure AI Foundry 和 GitHub 上提供。 1 月 31 日，英伟达宣布 DeepSeek-R1 模型已作为 NVIDIA NIM 微服务预览版在英伟达面向开发者的网站上发布；同日亚马逊宣布，客户现已可以在 Amazon Bedrock 和 Amazon SageMaker AI 中部署 DeepSeek-R1 模型。 l 硅基流动和华为云宣布上线 DeepSeekR1/V3 推理服务。 2 月 1 日，华为云官方发布消息，硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的 DeepSeekR1/V3 推理服务。该服务具备以下特点： 1 ）得益于自研推理加速引擎加持，硅基流动和华为云昇腾云服务支持部署的 DeepSeek 模型可获得持平全球高端 GPU 部署模型的效果。 2 ）提供稳定的、生产级服务能力，让模型能够在大规模生产环境中稳定运行，并满足业务商用部署需求。华为云昇腾云服务可以提供澎湃、弹性、充足的算力。图：亚马逊宣布支持访问 DeepSeek-R1 模型 DeepSeek 模型已成为全球现象级大模型请务必阅读正文之后的免责声明及其项下所有内容图：微软宣布支持访问 DeepSeek-R1 模型图：英伟达宣布支持访问 DeepSeek-R1 模型资料来源：各公司官网，国信证券经济研究所整理 l 2024 年 12 月 26 日，全新系列模型 DeepSeek-V3 首个版本上线并同步开源。 DeepSeek-V3 为自研 MoE 模型，共有 671B 参数，每个 token 激活 37B ，在 14.8T token 上进行预训练。 DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 及 Claude-3.5-Sonnet 不分伯仲。 l DeepSeek-V3 模型生成速度提升至 3 倍。通过算法和工程上的创新， DeepSeek-V3 的生成吐字速度从 20TPS 大幅提高至 60TPS ，相比 V2.5 模型实现了 3 倍的提升，能够为用户带来更加迅速流畅的使用体验。 l DeepSeek-V3 模型具有更优的模型性能 / 价格比例。随着性能更强、速度更快的 DeepSeek-V3 更新上线，模型 API 服务定价调整为每百万输入 tokens 0.5 元 ( 缓存命中 )/2 元 ( 缓存未命中 ) ，每百万输出 tokens8 元。相比于其他模型性能和定价，该模型具有更优的模型性能 / 价格比例。 DeepSeek-V3 发布，性能对齐海外领军闭源模型请务必阅读正文之后的免责声明及其项下所有内容图： DeepSeek-V3 等模型执行不同推理任务性能对比图： DeepSeek-V3 具有更优的模型性能 / 价格比例图： DeepSeek-V3 等模型多项评测成绩对比资料来源： DeepSeek 官网，国信证券经济研究所整理资料来源： DeepSeek 官网，国信证券经济研究所整理资料来源： DeepSeek 官网，国信证券经济研究所整理 l 2025 年 1 月 20 日， DeepSeek-R1 正式发布，并同步开源模型权重，性能对齐 OpenAI-o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI-o1 正式版。 l DeepSeek-R1 遵循 MIT License ，允许用户通过蒸馏技术借助 R1 训练其他模型；同时上线 API ，对用户开放思维链输出； DeepSeek 官网与 App 同步更新上线，用户打开“深度思考”模式，即可调用最新版 DeepSeek-R1 完成各类推理任务。 l DeepSeek 蒸馏小模型超越 OpenAIo1-mini 。在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAIo1-mini 的效果。 DeepSeek-R1 发布，性能对标 OpenAI-o1 正式版请务必阅读正文之后的免责声明及其项下所有内容图： DeepSeek 蒸馏小模型等执行不同推理任务性能对比图： DeepSeek-R1 等模型执行不同推理任务性能对比资料来源： DeepSeek 官网，国信证券经济研究所整理资料来源： DeepSeek 官网，国信证券经济研究所整理 l DeepSeek- V 3 以 Transformer 框架为基石，创新性地融入多头潜在注意力 ( Multi- head Latent Attention ， MLA) 和 DeepSeekMoE 架构。这一设计在维持模型高性能的同时，极大地提升了训练与推理的效率。 l 多头潜在注意力 (MLA) ：在传统的注意力机制中，推理期间的键值 (Key- Value ，即 KV) 缓存往往占用大量资源。而 MLA 则另辟蹊径，通过低秩联合压缩技术，大幅削减了注意力键 (keys) 和值 (values) 的存储空间。在生成过程中，仅需缓存压缩后的潜在向量，这一举措显著降低了内存需求，但在性能上与标准多头注意力 (Multi-head Attention ， MHA) 相比毫不逊色，有力地保障了模型运行的流畅性。 l DeepSeekMoE 架构：该架构采用了更为精细粒度的专家设置，还特别将部分专家设定为共享专家。在每一个 MoE 层中，都由共享专家和路由专家协同构成。其中，共享专家负责处理所有 token 的输入信息，为模型提供基础的处理支撑；而路由专家则依据每个 token 与专家之间的亲和度分数 ( 这一分数通过 sigmo id 函数计算得出，即 token-to-expert affinity) 来决定是否被激活。这种独特的设计，使得模型在处理不同类型的输入时，能够更加灵活且高效地调配资源，进一步提升了整体的运行效率和表现。 DeepSeek-V3 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练请务必阅读正文之后的免责声明及其项下所有内容图： DeepSeek-V3 模型技术架构资料来源： DeepSeek-V3 技术报告，国信证券经济研究所整理 l 对跨节点的全对全通信机制进行优化，充分利用 InfiniBand 和 NVLink 提供的高带宽。 DeepSeek-V3 模型在拥有 2048 个 NVIDIA H800 GPU 的大规模集群上进行训练，每个节点配置了 8 个 GPU ，并通过 NVLink 与 NVSwitch 实现内部高速互联；不同节点间的高效通信则依赖于 InfiniBand （ IB ）网络。 l 创新性提出了 DualPipe 算法，通过优化计算与通信的重叠，有效减少了流水线中的空闲时间。对于 DeepSeek-V3 而言，由于跨节点专家并行引入的通信开销导致计算与通信的比例接近 1:1 ，因此提出 DualPipe （双向管道并行）算法，采用一种新的双向流水线方法，在独立的前向和后向处理块中实现了计算与通信的重叠，从而加速模型的训练过程并降低了气泡效应。为了确保 DualPipe 的性能最优，定制设计了高效的跨节点全对全通信核心，包括优化的调度和组合策略，减少用于通信的流式多处理器（ SMs ）资源占用，并通过调优 PTX 指令集和自动调整通信数据块大小，显著减少了 L2 缓存的使用及对其他 SMs 的干扰。 l 采用 FP8 混合精度训练技术，不仅极大地加快了训练速度，还大幅降低了 GPU 内存的消耗。基于低精度训练领域的成熟经验，开发人员构建了一个适用于 FP8 训练的混合精度框架，其中大部分计算密集型任务以 FP8 精度执行，而关键操作则保持原有精度，以确保数值稳定性和训练效率之间的平衡。结合 FP8 训练框架，能够将缓存激活值和优化器状态压缩至低精度格式，进一步减少了内存占用和通信负载。 DeepSeek-V3 构建 DualPipe 算法和混合精度训练优化计算与通信负载图：采用 FP8 数据格式的整体混合精度框架请务必阅读正文之后的免责声明及其项下所有内容资料来源： DeepSeek-V3 技术报告，国信证券经济研究所整理 l DeepSeek-R1-Zero ：通过强化学习架构创新实现突破性性能。该模型突破性地采用纯强化学习 (RL) 方法，未经过传统监督式微调 (SFT) 即达成卓越性能表现，在特定任务基准测试中实现对 OpenAI-o1 的超越。其核心技术创新体现在三个维度： 1 ）训练效能优化策略。创新性采用 GRPO( 群体相对策略优化 ) 算法，该技术继承自 DeepSeek-V2 的 RLHF( 人类反馈强化学习 ) 研发成果。与传统方法相比， GRPO 通过群体反馈数据分析替代独立评估模型，有效降低计算资源消耗。这种优化策略无需依赖与策略模型规模匹配的独立评估模型，通过动态基线估计显著提升训练效率。 2 ）双维