ppt文档 浙江大学-DeepSeek模型优势:算力、成本角度解读2025 VIP文档

7.53 MB 23 页 0 下载 54 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
DeepSeek 模型优势:算力、成本角度 解读 2025 年 2 月 ■ 什么算力 ?“ 对信息数据进行计算,实现目标结果的能力” ■ 传统算力:信息计算力 ■ 现代算力:信息计算力、数据存储力、网络运载力 算力的基本概念 大脑 草绳、石子 算盘、算筹 ▶ 计算器、计算机 ■ 原生算力:大脑 ( 可处理复杂逻辑,但不能高速处理简单运算 ) ■ 外部算力工具: ■ 草绳、石子 ■ 算盘 ■ 计算机:算力提供者 ( 可高速简单运算,不能处理复杂逻 辑 ) 算力的发展 “I think there is a world market for maybe five computers." ( 我想全世界只需要五台电脑 ) --Thomas Watson,IBM 创始人, 1943 ■ 大型机时代:数字化未开始,算力需求潜力未发掘 大型机时代 1940- 1980 计算机算力的发展 大型机时代 PC 时 代 云计算时代 人工智能时代 1940- 1980- 2000- 2020- 1980 2000 2020 ■ 大型机时代:数字化未开始,算力需求潜力未发掘 ■ PC 时代:一个应用只需一台电脑,算力够 ■ 云计算时代:应用需要超过一台机器的算力,算力基本够 ■ 人工智能时代:算力开始不足,需大量高性能 Al 加速器 计算机算力的发展 人工智能大模型算力估计 ■ 人工智能大模型算力估计 ■ 1, 数据量 ( D ) >15* 模型参数量 ( N ) ■ 万亿模型 (N )=1000*109=1012 ■ 数据量 (D )>15*1012 =1.5*1013 ■ 2, 计算次数 C≈ 6* N * D ■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .5*1025 OpenAI."Scaling Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.5*1010 秒 (174000 天 ) ■ 1000 张 H800(2.5 亿 ):1 .5*107 秒 (174 天 ) 算力 ( 每秒 ) 显存 运力 生态 政策风险 成本 华为 910B 320T=3.2*101 4 32GB 240 GB/s 较好 无 12 万 英伟达 H800 1000T=1015 80GB 900 GB/s 好 有 25 万 人工智能计算平台成本估计 算力 存力 运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力:算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集:数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数:参数越多 (x 轴 ), 模型效果越好 算 力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute PF-days,non-embedding 大模型指导法则 Scaling Law: 富则火力覆盖 数据集 模型参数量 7 6 5 4 3 ---- 2+ 10-9 Dataset Size tokens Parameters non-embedding Test Loss 101 OpenAl 商业模式 ( 循环以下四步 ) ■ 1, 华尔街融资 ■ 例子: 2019-21 年融资 20 亿美元 2, 购买最新 GPU ■ 例子:购买 2.5 万 A100 GPU ( 英伟达挣钱 ) ■ 3, 用最新 GPU 训练性能领先的大模型 ■ 例子: 2023 年出 ChatGPT, 垄断市场 (290 亿美元估值 ) ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 例子:营收小、整体亏钱 2025 年特朗普的“星际之门”为 OpenAl 筹 5000 亿美元 Al 基础设施 ! 国际人工智能企业 OpenAI 的商业模 式 ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) ■ 可行性分析:资金没问题,尤其优质生产力领域 2, 购买最新 GPU ■ 可行性分析:美国可以发禁令 3 , 用 GPU 训练性能领先的大模型 ■ 可行性分析:国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析:国内做工业化低成本有绝对优势 国内人工智能的发展模式、可行性分析 美国限制中国 AI 发展的策略 Y ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) 可行性分析:资金没问题,尤其优质生产力领域 ■ 3 , 用 GPU 训练性能领先的大模型 ■ 可行性分析:国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析:国内做工业化低成本有绝对优势 2, 购买最新 GPU 可行性分析:美国可以发禁令 美国政府对我国的禁令 现成成熟算力: 2023 年禁止出口高端 Al 芯片 ■ A100 、 H00 、 H800 、 A800 等数据中心 GPU ■ 运力: 2022 年限制 Al 加速器的互联带宽 算力: 2024 年禁止台积电代工 7nm 工艺的国内芯 片 存力: 2024 年禁止 HBM 芯片 光刻机: 2024 年限制荷兰 ASML 出口 7nm 光刻机到 中国 时代背景:算力卡脖子 deepsee k DeepSeek 等国内大模型的“上甘岭”时刻 Al 算法与系统协同深度优化 反斜面坑道 ( 战术穿插 ) 范弗利特弹药量 ( 地毯轰 炸 ) 大资金、大算力、大模型 “ 大模型” 》 上 甘 岭 ” 国 际 国 内 发布时间 G P U 时 ( 小 时 ) 训练成本 ( 美元 ) Llama 3.1 2024 年 7 月 3.1*107 6.2*107 DeepSeek v3 2024 年 12 月 2.8*106 5.6*106 DeepSeek V3 公开的单次极低预训练成 本 DeepSeek 全部训练单次成本: 5,576,000 美 元 单张 H800 GPU 每小时租赁成本: 2 美 元 泛大 模型 / 指标 DeepSeek V1 DeepSeek V2 DeepSeek V3 Llama 3.1 发布时间 2024 年 1 月 2024 年 6 月 2024 年 12 月 2024 年 7 月 训练 Token 2 T 8.1 T 14.8 T 15T 模型规模 7B 、 67B 236B/ 激活 21B 671B/ 激活 37B 405B MoE 模 型 稠密 MoE 2+160 MoE 1+256 稠密 注意力技术 GQA MLA MLA N.A 上下文长度 4K 128K 128K 128K 训练成本 (GPU Hours) 300.6K 172.8K 2.788 M 30.84 M 发展历程:穷则战术穿插 DeepSe ek DeepSeekMoE Routed Expert Shared Expert Feed-Forward Network t Router Input Hidden ut Multi-Head Latent Attention(MLA) O cached During nference Attention Output Hidden u:OOOO-(OOOO Multi-Head Attention RMSNorm {laS;a&J {LkS;kEJ 厅 concatenatef concotenatel ](q 同 fopply RoPE Latent cO 0 OO00 1 ■ DeepSeek V3 模 型 参 数 ? 671B 参数 (GPT-3:175B 、 GPT-4:1.76T?) ■ 每个 token 激 活 3 7B 参数 (~5.5%), 降低计算 量 MoE: 1 共享专家 + 256 路由专家 MLA: 低秩压缩 DeepSeek v3 模型参 数 L=61 层 oo oouatence9 Input Hiden heOOOO ka 派 {vb k 回 apply RoPE Output Hidden h{ Transformer Block×L {q3 N,-1 N, RMSNorm OO Top-Kr 1 Routed Expert Output Hidden ht Shared Expert 1 Ns 1 2 3 4 Nr-1 Nr Router hll Top-K, OOO0 … … OOOO Input Hidden ut ■ 核心技术 DeepSeekMoE: 显者减少计算量 ( 穷则战术穿插 ) ■ 针对美国的算力禁令 ■ 核心思想: 1 共享专家 +256 路由专家,激活 8 个路由专家 ■ 共享专家: 捕获通用知识、降低知识冗余 ■ 路由专家: 量大、细粒度、灵活组合、方便知识表达 ■ 结果:每个 Token 只要过 360 亿参数 (Llama 3.1 要 4050 亿参数 ) DeepSeek."DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models",2024 核心技术 DeepSeekMoE: 显著减少计算 量 DeepSeek 为代表的国内大模型咬住国外最先进大模型 ■ 模型性能:不要指望全面优势, “城头变幻大王旗” ■ 成本:低 ( 战术穿插 ) ■ 算力受限,近几年咬住会更难 ( 大家宽容些 ) ■ 突破工艺卡脖子,实现“战术穿插” +“ 火力覆盖” ■ 中芯国际等硬核大厂突破工艺卡脖子 ■ 华为等算力公司提供高算力密度 ■ 个人预测 Al 竞赛结果 ■ 以中国的工业化水平,站着把 Al 的钱给挣了。 ■ “健身可以让 SB 跟你好好说话”→ ■“ 突破模型、算力卡脖子可以让 A 国跟咋们好好说话” DeepSeek V3 未来 展望
下载文档到本地,方便使用
- 可预览页数已用完,剩余 22 页请下载阅读 -
文档评分
请文明评论,理性发言.