浙江大学-DeepSeek模型优势:算力、成本角度解读20252*107 DeepSeek v3 2024 年 12 月 2.8*106 5.6*106 DeepSeek V3 公开的单次极低预训练成 本 DeepSeek 全部训练单次成本: 5,576,000 美 元 单张 H800 GPU 每小时租赁成本: 2 美 元 泛大 模型 / 指标 DeepSeek V1 DeepSeek V2 DeepSeek V3 Llama 3.1 0 OO00 1 ■ DeepSeek V3 模 型 参 数 ? 671B 参数 (GPT-3:175B 、 GPT-4:1.76T?) ■ 每个 token 激 活 3 7B 参数 (~5.5%), 降低计算 量 MoE: 1 共享专家 + 256 路由专家 MLA: 低秩压缩 DeepSeek v3 模型参 数 L=61 层 oo oouatence9 ■ 以中国的工业化水平,站着把 Al 的钱给挣了。 ■ “健身可以让 SB 跟你好好说话”→ ■“ 突破模型、算力卡脖子可以让 A 国跟咋们好好说话” DeepSeek V3 未来 展望10 积分 | 23 页 | 7.53 MB | 10 月前3
华为昇腾DeepSeek解决方案蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏 MOE 提质 降本 技术创新 硬件级、算法级、架构级、工程级、开 源生态 5 大技术创新,轰动全球 低成本 绕过 CUDA 挖掘 FP8 硬件潜力, MOE 和 MLA 技术实现不到 10% 的 成本方案 ~150M$ 5.57M$ DeepSeek–V3 训 练成本 Llama3.1-405B 北京、南京、西安、武 汉、苏州、无锡等公共 服务平台 已上线 招行 测试中 工行 测试中 太保 测试中 模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek R1 - √ DeepSeek Janus-Pro-1B/7B √ √ DeepSeek R1-Distill-Llama-70B - √ DeepSeek R1-Distill-Qwen-32B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-7B 模型参数: 671B+ 满血版 DeepSeek V3/R1 模型参数: 70B DeepSeek-R1-Distill-Llama-70B AI 编程 智能对话 金融研报 文本创作 营销文案 内容检测 Atlas 800I A2 (1024GB)0 积分 | 32 页 | 2.52 MB | 10 月前3
山东大学:DeepSeek 应用与部署2023 — DeepSeek : 技术创新——模型架构 | V2 ( Multi-Head Latent Attention ) DeepSeek : 技术创新—模型架构 | V3 PPO : Proximal Policy Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 阿里云百炼: 提供多个 DeepSeek 系列模型 ,如 DeepSeek - V3 、 DeepSeek - R1 - Distill - Qwen - 1.5B 等 , 部分限时免费 ,涵盖文本生成等功能。 • 百度智能云: 千帆 Model Builder 全面支持 DeepSeek - R1/V3 调用 ,且限时免费 ,其模型在百科知 识、 数学推理等任务表现突出。 • Distill-Ollama-7B DeepSeek-R1 - Ditill-Qwen-7B DeepSeek DeepSeek-R1 - Ditill-Qwen- 1.5B DeepSeek- V3 DeepSeek- R1 腾讯云部署流程 • Cloud Studio :登录腾讯云官网 ,进入 Cloud Studio ,可一键部署 ,即开即用 ,能快速体验 7B 以下10 积分 | 79 页 | 6.52 MB | 10 月前3
AI跃迁派:2025年DeepSeek零基础完全指南AI“脑细胞”之间的协作效率,响应速度提升 50% 2.功能模块:你的私人 AI 军团 DeepSeek 通过三大功能模块,满足从日常生活到专业领域的全场景需求: 模块 1:基础版(V3)——效率倍增器 适用人群:学生、白领、自媒体创作者 核心技能: ⚫ 文案生产:3 分钟生成周报/演讲稿/小红书爆款文案(带 Emoji 和话题标签) ⚫ 知识管家:自动整理会议录音→生成思维导图→提炼待办事项 ①网页版(零门槛即用) 访问方式:浏览器输入`https://chat.deepseek.com` 特点: ⚫ 无需下载,支持文件上传(PDF/Word/图片) ⚫ 功能齐全,包含普通模式(V3)、深度思考(R1)、联网搜索 操作提示:登录后点击输入框下方按钮切换功能模式,例如开启 R1 模式处理复杂数学 题 ②手机 APP(移动办公神器) 下载方式: ⚫ iOS:AppStore10 积分 | 21 页 | 1.01 MB | 10 月前3
DeepSeek大模型赋能高校教学和科研2025DeepSeek-R1 被认 为几乎不可能 n 此次 KTransformers 项目更新带来重大突破 , 支持在 24G 显存( 4090D ) 的设备上本地运行 DeepSeek- R1 、 V3 的 671B 满血版。 其预处理速度最高可达 286 tokens/s ,推理生成速度最高能达 到 14 tokens/s 。 甚至有开发者借助这一优化技术 ,在 3090 显卡和 200GB 内存的配置下10 积分 | 123 页 | 15.88 MB | 10 月前3
共 5 条
- 1
