2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking ➢高效创新:在有限算力资源支持下,算法创新模式,突破了算力的“卡脖子”限制 28 技术对比讨论:Kimi K1.5 Moonshot Kimi K1.5 Main Result Kimi K1.5 Long2Short Result K1.5 专注于用长文本CoT 解决推理时Scaling问题 ➢ 利用 RL 探索:Kimi k1.5 的核心思想是利用强化学习,让模型通过试错(探索)来学习解决问题的能 力,而不是仅仅依赖于静态数据集。10 积分 | 76 页 | 8.39 MB | 5 月前3
面向审计行业DeepSeek 大模型操作指南(27页 WORD)3 ,以 DeepSeek-R1 为教师模 型,蒸馏了 6 款小模型,包含 1.5B~70B 在内共有 6 个尺寸,如表 2 所示。 表 2 DeepSeek-R1 蒸馏的 6 个尺寸的模型 蒸馏的模型 基座模型 下载地址 DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B HuggingFace DeepSeek-R1-Distill-Qwen-7B 了稳定可靠的替代方案 。 这些非官方 渠道提供 了 三类模型选择: DeepSeek-V3 模型、完整版 DeepSeek-R1 模型(671B 参数)、轻量级 DeepSeek- R1 模型(参数规模从 1.5B 到 70B 不等)。其中,完整版 R1 模型保留了全部 671B 参数,能发挥出最佳性能,但对计算资源要求较高,通常需要支付一定费 用。轻 量级模型则通过知识蒸馏技术,在保持核心功能的同时大幅降低了参数 这两个的不同点为 R1 提供了从 1.5B 到 671B 不同大小的模型,而 V3 只有 671B,而 671B 需要的电脑性能单个电脑几乎不可能满足,所以建议大家可以直 接安装并且部署 R1 模型。 DeepSeek R1 的链接:https://ollama.com/library/DeepSeek-r1:7b 可以看到 R1 有 7 个版本,其中最小的是 1.5b,它需要的内存大小为 10 积分 | 27 页 | 829.29 KB | 1 天前3
华为昇腾DeepSeek解决方案SFT+2 阶段 RL 完成,从而解决 R1-Zero 可读性差、 多种 语言混合问题 本次开源同时发布了 6 个基于 DeepSeek-R1 蒸馏的更小稠密模 型 ( Qwen/LLaMa 1.5B 7B 14B 32B 70B ) DeepSeek-R1 以 DeepSeek-V3 Base ( 671B )为基础模型, 使 用 GRPO 算法作为 RL 框架来提升 Reasoning 便捷的部署、敏捷业务上线 DeepSeek-V3-671B DeepSeek-R1-671B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-1.5B (蒸馏后较原模型能力提升 10%+ ) BERT-Large Transformer ● 2 工程创新 新一轮百模千态 1 技术摸高 新一轮技术竞争 GPT-4/4o GPT-3/3 R1-Distill-Llama-70B - √ DeepSeek R1-Distill-Qwen-32B - √ DeepSeek R1-Distill-Llama-8B DeepSeek R1-Distill-Qwen-1.5B/7B/14B √ √ 配套版本上线昇腾社区: https://www.hiascend.com/software/modelzo o/models/detail/678bdeb4e1a64c9dae51d350 积分 | 32 页 | 2.52 MB | 5 月前3
浙江大学:DeepSeek的本地化部署与AI通识教育之未来DeepSeek 近期:各行业开始研究部署... 1.DeepSeek简介 16 DeepSeek是谁?咱们通俗说一说...... 基于 Llama 、 Qwen 六个密集模型 (1.5b、7b、8b、 14b、32b、70b) 大师 徒弟 蒸馏版 训练 DeepSeek- R1- Zero DeepSeek- R1 蒸馏 满血版 DeepSeek-V3 671b 基于ollama的本地run(macos或者linux) v 安装ollama的包 – pip install ollama v 基于ollama运行DeepSeek – 运行1.5b模型 • ollama run deepseek-r1:1.5b – 运行7b模型 • ollama run deepseek-r1:7b – 运行8b模型 • ollama run deepseek-r1:8b • 学习辅助工具、数据分析助手、论文摘要生成等任务,可以基于deepseek 搭建和部署本地的小模型环境。 模型版本 显存VRAM (GPU) 内存RAM (CPU) 本地存储 运行机器 R1-1.5b 4GB+ 8GB+ 5GB 个人普通机 R1-7b 12GB+ 16GB+ 10GB 个人普通机 R1-8b 16GB+ 32GB+ 15GB 个人普通机 R1-14b 24GB+ 64GB+10 积分 | 57 页 | 38.75 MB | 5 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页73.40 12,950 12.0 8.1 8.9 1.5 1.4 1.3 2.0 1.3 1.4 -0.8% 12.0 8.0 7.6 1.7 1.6 1.5 0.9 0.9 0.8 -23.7% 20 HK Equity 商汤科技 13.5 0.8 0.7 0.6 1.7 1.5 1.5 4.6% 603296 CH Equity 华勤技术 57.19 58110 积分 | 40 页 | 2.60 MB | 5 月前3
山东大学:DeepSeek 应用与部署,在推理能力上表现出色。 • 阿里云百炼: 提供多个 DeepSeek 系列模型 ,如 DeepSeek - V3 、 DeepSeek - R1 - Distill - Qwen - 1.5B 等 , 部分限时免费 ,涵盖文本生成等功能。 • 百度智能云: 千帆 Model Builder 全面支持 DeepSeek - R1/V3 调用 ,且限时免费 ,其模型在百科知 识、 数学推理等任务表现突出。 Distill-Ollama-7B DeepSeek-R1 - Ditill-Qwen-7B DeepSeek DeepSeek-R1 - Ditill-Qwen- 1.5B DeepSeek- V3 DeepSeek- R1 腾讯云部署流程 • Cloud Studio :登录腾讯云官网 ,进入 Cloud Studio ,可一键部署 ,即开即用 ,能快速体验 DeepSeek - R1 蒸馏模型。 • 云原生构建:登录腾讯云 ,云原生构建相关服务 ,一键体验 DeepSeek ,无需等待下载 ,支持 1.5b/7b/8b/14b/32b 多款模型。 • TI 平台:登录腾讯云 TI 平台 ,提供专属算力、多种尺寸模型、 0 代码模型部署等功能。 • HAI :登录腾讯云 HAI 控制台 ,新建10 积分 | 79 页 | 6.52 MB | 5 月前3
AI智能+智慧医疗应用场景解决方案减轻人力 降低传染 1.5 亿人 全部服务用户 用户 8000 台 全部机器人 销量 400 万 次 全部交互量 交互 300 200 100 0 新型专利 外观专利 发明专利 AI 技术应用能 力 脑 眼 口 语音合成技术 耳 360 o 远近场 全面覆盖 6 麦克 风 专为场景定制 1.5 亿 次 实践检验 1.5 亿次唤醒 腿 智慧10 积分 | 68 页 | 25.21 MB | 5 月前3
DeepSeek华为云AI解决方案DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Llama-8B DeepSeek-R1-Distill-Qwen-14B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-14B 和 -Distill-Llama-8B : 1 卡 910B 起步,根据推理并发量配置 DeepSeek-R1-Distill-Qwen-1.5B : 4u4g Flexus X 实例 DeepSeek-R1-Distill-Qwen-7B&Llama-8B : 16u16g Flexus X 实例 更大尺寸模型: Nvidia DeepSeek-R1:1.5B 和 7B 轻量级推理系统 • 基于华为云 GPU 服务器上快速搭建 DeepSeek-R1:7B 和 8B 、 14B 等推 理系统 DeepSeek -R1 模型 方案 云服务 系统 盘 GB 数量 包月(元 / 月) 按需 ( 元 / 小 时 ) Tokens/s 1.5B 方案 1 X 实例10 积分 | 16 页 | 850.86 KB | 5 月前3
麦肯锡企业架构治理EAM现状诊断(26页)14 企业架构管理评估 – 流程 资料来源:麦肯锡 科信部平均分( 6 份答卷) 总平均分( 14 份答卷) 平均 2.2 1.3 1.8 2.4 2.8 2.6 1.8 1.5 2.0 2.4 2.3 2.8 2.3 1.8 2.2 1.8 3.0 1.8 1.8 1.4 4.0 2.2 平均 2.4 2.2 2.7 2.8 2.8 2.1 2.8 2.4 1.2 1.8 1.0 2.2 2.3 2.3 平均 2.0 2.5 1.7 2.4 2.0 2.0 1.9 1.5 2.2 2.6 2.2 1.4 1.7 1.5 企业架构师 企业架构备选库主管 架构需求协调员 业务能力架构师 业务数据架构师 解决方案架构师 业务分析师 信息架构师 软件架构师 总架构师 安全架构师 有关架构创建与维护的角色成熟度平均分 安全架构师 2.6 硬件架构师 2.5 集成架构师 2.4 需求协调员 2.2 流程架构师 1.5 EA 备选库主 管 业务数据架构师 1.4 2.2 2.0 企业架构师 1.7 1.7 功能域架构师 解决方案架构师 基础设施服务产品架构师 1.5 2.0 业务能力架构 1.9 信息系统架构师 被访者关于角色差距的评语 EA 知 识库 主管 业务10 积分 | 27 页 | 4.35 MB | 1 天前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025人工智能大模型算力估计 ■ 人工智能大模型算力估计 ■ 1, 数据量 ( D ) >15* 模型参数量 ( N ) ■ 万亿模型 (N )=1000*109=1012 ■ 数据量 (D )>15*1012 =1.5*1013 ■ 2, 计算次数 C≈ 6* N * D ■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .5*1025 Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.5*1010 秒 (174000 天 ) ■ 1000 张 H800(2.5 亿 ):1 .5*107 秒 (174 天 ) 算力 ( 每秒 ) 显存10 积分 | 23 页 | 7.53 MB | 5 月前3
共 83 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9
