浙江大学-DeepSeek模型优势：算力、成本角度解读2025

语言	格式	评分
中文（简体）	.pptx	3
概览
DeepSeek 模型优势：算力、成本角度解读 2025 年 2 月 ■ 什么算力 ?“ 对信息数据进行计算，实现目标结果的能力” ■ 传统算力：信息计算力 ■ 现代算力：信息计算力、数据存储力、网络运载力算力的基本概念大脑草绳、石子算盘、算筹 ▶ 计算器、计算机 ■ 原生算力：大脑 ( 可处理复杂逻辑，但不能高速处理简单运算 ) ■ 外部算力工具： ■ 草绳、石子 ■ 算盘 ■ 计算机：算力提供者 ( 可高速简单运算，不能处理复杂逻辑 ) 算力的发展 “I think there is a world market for maybe five computers." ( 我想全世界只需要五台电脑 ) --Thomas Watson,IBM 创始人， 1943 ■ 大型机时代：数字化未开始，算力需求潜力未发掘大型机时代 1940- 1980 计算机算力的发展大型机时代 PC 时代云计算时代人工智能时代 1940- 1980- 2000- 2020- 1980 2000 2020 ■ 大型机时代：数字化未开始，算力需求潜力未发掘 ■ PC 时代：一个应用只需一台电脑，算力够 ■ 云计算时代：应用需要超过一台机器的算力，算力基本够 ■ 人工智能时代：算力开始不足，需大量高性能 Al 加速器计算机算力的发展人工智能大模型算力估计 ■ 人工智能大模型算力估计 ■ 1, 数据量 ( D ) >15* 模型参数量 ( N ) ■ 万亿模型 (N )=1000109=1012 ■ 数据量 (D )>151012 =1.51013 ■ 2, 计算次数 C≈ 6 N * D ■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .51025 OpenAI."Scaling Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件：计算量 C≈ 6 N * D ≈1.51 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.51010 秒 (174000 天 ) ■ 1000 张 H800(2.5 亿 ):1 .5107 秒 (174 天 ) 算力 ( 每秒 ) 显存运力生态政策风险成本华为 910B 320T=3.2101 4 32GB 240 GB/s 较好无 12 万英伟达 H800 1000T=1015 80GB 900 GB/s 好有 25 万人工智能计算平台成本估计算力存力运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力：算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集：数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数：参数越多 (x 轴 ), 模型效果越好算力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute PF-days,non-embedding 大模型指导法则 Scaling Law: 富则火力覆盖数据集模型参数量 7 6 5 4 3 ---- 2+ 10-9 Dataset Size tokens Parameters non-embedding Test Loss 101 OpenAl 商业模式 ( 循环以下四步 ) ■ 1, 华尔街融资 ■ 例子： 2019-21 年融资 20 亿美元 2, 购买最新 GPU ■ 例子：购买 2.5 万 A100 GPU ( 英伟达挣钱 ) ■ 3, 用最新 GPU 训练性能领先的大模型 ■ 例子： 2023 年出 ChatGPT, 垄断市场 (290 亿美元估值 ) ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 例子：营收小、整体亏钱 2025 年特朗普的“星际之门”为 OpenAl 筹 5000 亿美元 Al 基础设施 ! 国际人工智能企业 OpenAI 的商业模式 ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) ■ 可行性分析：资金没问题，尤其优质生产力领域 2, 购买最新 GPU ■ 可行性分析：美国可以发禁令 3 , 用 GPU 训练性能领先的大模型 ■ 可行性分析：国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析：国内做工业化低成本有绝对优势国内人工智能的发展模式、可行性分析美国限制中国 AI 发展的策略 Y ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) 可行性分析：资金没问题，尤其优质生产力领域 ■ 3 , 用 GPU 训练性能领先的大模型 ■ 可行性分析：国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析：国内做工业化低成本有绝对优势 2, 购买最新 GPU 可行性分析：美国可以发禁令美国政府对我国的禁令现成成熟算力： 2023 年禁止出口高端 Al 芯片 ■ A100 、 H00 、 H800 、 A800 等数据中心 GPU ■ 运力： 2022 年限制 Al 加速器的互联带宽算力： 2024 年禁止台积电代工 7nm 工艺的国内芯片存力： 2024 年禁止 HBM 芯片光刻机： 2024 年限制荷兰 ASML 出口 7nm 光刻机到中国时代背景：算力卡脖子 deepsee k DeepSeek 等国内大模型的“上甘岭”时刻 Al 算法与系统协同深度优化反斜面坑道 ( 战术穿插 ) 范弗利特弹药量 ( 地毯轰炸 ) 大资金、大算力、大模型 “ 大模型” 》上甘岭 ” 国际国内发布时间 G P U 时 ( 小时 ) 训练成本 ( 美元 ) Llama 3.1 2024 年 7 月 3.1107 6.2107 DeepSeek v3 2024 年 12 月 2.8106 5.6106 DeepSeek V3 公开的单次极低预训练成本 DeepSeek 全部训练单次成本： 5,576,000 美元单张 H800 GPU 每小时租赁成本： 2 美元泛大模型 / 指标 DeepSeek V1 DeepSeek V2 DeepSeek V3 Llama 3.1 发布时间 2024 年 1 月 2024 年 6 月 2024 年 12 月 2024 年 7 月训练 Token 2 T 8.1 T 14.8 T 15T 模型规模 7B 、 67B 236B/ 激活 21B 671B/ 激活 37B 405B MoE 模型稠密 MoE 2+160 MoE 1+256 稠密注意力技术 GQA MLA MLA N.A 上下文长度 4K 128K 128K 128K 训练成本 (GPU Hours) 300.6K 172.8K 2.788 M 30.84 M 发展历程：穷则战术穿插 DeepSe ek DeepSeekMoE Routed Expert Shared Expert Feed-Forward Network t Router Input Hidden ut Multi-Head Latent Attention(MLA) O cached During nference Attention Output Hidden u:OOOO-(OOOO Multi-Head Attention RMSNorm {laS;a&J {LkS;kEJ 厅 concatenatef concotenatel ](q 同 fopply RoPE Latent cO 0 OO00 1 ■ DeepSeek V3 模型参数 ? 671B 参数 (GPT-3:175B 、 GPT-4:1.76T?) ■ 每个 token 激活 3 7B 参数 (~5.5%), 降低计算量 MoE: 1 共享专家 + 256 路由专家 MLA: 低秩压缩 DeepSeek v3 模型参数 L=61 层 oo oouatence9 Input Hiden heOOOO ka 派 {vb k 回 apply RoPE Output Hidden h{ Transformer Block×L {q3 N,-1 N, RMSNorm OO Top-Kr 1 Routed Expert Output Hidden ht Shared Expert 1 Ns 1 2 3 4 Nr-1 Nr Router hll Top-K, OOO0 … … OOOO Input Hidden ut ■ 核心技术 DeepSeekMoE: 显者减少计算量 ( 穷则战术穿插 ) ■ 针对美国的算力禁令 ■ 核心思想： 1 共享专家 +256 路由专家，激活 8 个路由专家 ■ 共享专家：捕获通用知识、降低知识冗余 ■ 路由专家：量大、细粒度、灵活组合、方便知识表达 ■ 结果：每个 Token 只要过 360 亿参数 (Llama 3.1 要 4050 亿参数 ) DeepSeek."DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models",2024 核心技术 DeepSeekMoE: 显著减少计算量 DeepSeek 为代表的国内大模型咬住国外最先进大模型 ■ 模型性能：不要指望全面优势， “城头变幻大王旗” ■ 成本：低 ( 战术穿插 ) ■ 算力受限，近几年咬住会更难 ( 大家宽容些 ) ■ 突破工艺卡脖子，实现“战术穿插” +“ 火力覆盖” ■ 中芯国际等硬核大厂突破工艺卡脖子 ■ 华为等算力公司提供高算力密度 ■ 个人预测 Al 竞赛结果 ■ 以中国的工业化水平，站着把 Al 的钱给挣了。 ■ “健身可以让 SB 跟你好好说话”→ ■“ 突破模型、算力卡脖子可以让 A 国跟咋们好好说话” DeepSeek V3 未来展望