V3 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

浙江大学-DeepSeek模型优势：算力、成本角度解读2025

2*107 DeepSeek v3 2024 年 12 月 2.8*106 5.6*106 DeepSeek V3 公开的单次极低预训练成本 DeepSeek 全部训练单次成本： 5,576,000 美元单张 H800 GPU 每小时租赁成本： 2 美元泛大模型 / 指标 DeepSeek V1 DeepSeek V2 DeepSeek V3 Llama 3.1 0 OO00 1 ■ DeepSeek V3 模型参数 ? 671B 参数 (GPT-3:175B 、 GPT-4:1.76T?) ■ 每个 token 激活 3 7B 参数 (~5.5%), 降低计算量 MoE: 1 共享专家 + 256 路由专家 MLA: 低秩压缩 DeepSeek v3 模型参数 L=61 层 oo oouatence9 ■ 以中国的工业化水平，站着把 Al 的钱给挣了。 ■ “健身可以让 SB 跟你好好说话”→ ■“ 突破模型、算力卡脖子可以让 A 国跟咋们好好说话” DeepSeek V3 未来展望

10 积分 | 23 页 | 7.53 MB | 1 年前
3
华为昇腾DeepSeek解决方案

蒸馏技术使能第三方模型性能 DeepSeek V3 ：实现极致性能，稀疏 MOE 提质降本技术创新硬件级、算法级、架构级、工程级、开源生态 5 大技术创新，轰动全球低成本绕过 CUDA 挖掘 FP8 硬件潜力， MOE 和 MLA 技术实现不到 10% 的成本方案 ~150M$ 5.57M$ DeepSeek–V3 训练成本 Llama3.1-405B 北京、南京、西安、武汉、苏州、无锡等公共服务平台已上线招行测试中工行测试中太保测试中模型名称 Atlas 300I Duo Atlas 800I A2 DeepSeek V3 - √ DeepSeek R1 - √ DeepSeek Janus-Pro-1B/7B √ √ DeepSeek R1-Distill-Llama-70B - √ DeepSeek R1-Distill-Qwen-32B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-7B 模型参数： 671B+ 满血版 DeepSeek V3/R1 模型参数： 70B DeepSeek-R1-Distill-Llama-70B AI 编程智能对话金融研报文本创作营销文案内容检测 Atlas 800I A2 (1024GB)

0 积分 | 32 页 | 2.52 MB | 1 年前
3
山东大学：DeepSeek 应用与部署

2023 — DeepSeek ：技术创新——模型架构 | V2 （ Multi-Head Latent Attention ） DeepSeek ：技术创新—模型架构 | V3 PPO ： Proximal Policy Optimization GRPO ： Group Relative Policy Optimization 强化学习让智能体（ Agent ）在环境阿里云百炼：提供多个 DeepSeek 系列模型，如 DeepSeek - V3 、 DeepSeek - R1 - Distill - Qwen - 1.5B 等，部分限时免费，涵盖文本生成等功能。 • 百度智能云：千帆 Model Builder 全面支持 DeepSeek - R1/V3 调用，且限时免费，其模型在百科知识、数学推理等任务表现突出。 • Distill-Ollama-7B DeepSeek-R1 - Ditill-Qwen-7B DeepSeek DeepSeek-R1 - Ditill-Qwen- 1.5B DeepSeek- V3 DeepSeek- R1 腾讯云部署流程 • Cloud Studio ：登录腾讯云官网，进入 Cloud Studio ，可一键部署，即开即用，能快速体验 7B 以下

10 积分 | 79 页 | 6.52 MB | 1 年前
3
AI跃迁派：2025年DeepSeek零基础完全指南

AI“脑细胞”之间的协作效率，响应速度提升 50% 2.功能模块：你的私人 AI 军团 DeepSeek 通过三大功能模块，满足从日常生活到专业领域的全场景需求：模块 1：基础版（V3）——效率倍增器适用人群：学生、白领、自媒体创作者核心技能： ⚫ 文案生产：3 分钟生成周报/演讲稿/小红书爆款文案（带 Emoji 和话题标签） ⚫ 知识管家：自动整理会议录音→生成思维导图→提炼待办事项 ①网页版（零门槛即用）访问方式：浏览器输入`https://chat.deepseek.com` 特点： ⚫ 无需下载，支持文件上传（PDF/Word/图片） ⚫ 功能齐全，包含普通模式（V3）、深度思考（R1）、联网搜索操作提示：登录后点击输入框下方按钮切换功能模式，例如开启 R1 模式处理复杂数学题 ②手机 APP（移动办公神器）下载方式： ⚫ iOS：AppStore

10 积分 | 21 页 | 1.01 MB | 1 年前
3
DeepSeek大模型赋能高校教学和科研2025

DeepSeek-R1 被认为几乎不可能 n 此次 KTransformers 项目更新带来重大突破，支持在 24G 显存（ 4090D ）的设备上本地运行 DeepSeek- R1 、 V3 的 671B 满血版。其预处理速度最高可达 286 tokens/s ，推理生成速度最高能达到 14 tokens/s 。甚至有开发者借助这一优化技术，在 3090 显卡和 200GB 内存的配置下

10 积分 | 123 页 | 15.88 MB | 1 年前
3

共 5 条前往

页

分类

语言

格式

浙江大学-DeepSeek模型优势：算力、成本角度解读2025

华为昇腾DeepSeek解决方案

山东大学：DeepSeek 应用与部署

AI跃迁派：2025年DeepSeek零基础完全指南

DeepSeek大模型赋能高校教学和科研2025