2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking ➢高效创新:在有限算力资源支持下,算法创新模式,突破了算力的“卡脖子”限制 28 技术对比讨论:Kimi K1.5 Moonshot Kimi K1.5 Main Result Kimi K1.5 Long2Short Result K1.5 专注于用长文本CoT 解决推理时Scaling问题 ➢ 利用 RL 探索:Kimi k1.5 的核心思想是利用强化学习,让模型通过试错(探索)来学习解决问题的能 力,而不是仅仅依赖于静态数据集。10 积分 | 76 页 | 8.39 MB | 5 月前3
面向审计行业DeepSeek 大模型操作指南(27页 WORD)3 ,以 DeepSeek-R1 为教师模 型,蒸馏了 6 款小模型,包含 1.5B~70B 在内共有 6 个尺寸,如表 2 所示。 表 2 DeepSeek-R1 蒸馏的 6 个尺寸的模型 蒸馏的模型 基座模型 下载地址 DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B HuggingFace DeepSeek-R1-Distill-Qwen-7B 了稳定可靠的替代方案 。 这些非官方 渠道提供 了 三类模型选择: DeepSeek-V3 模型、完整版 DeepSeek-R1 模型(671B 参数)、轻量级 DeepSeek- R1 模型(参数规模从 1.5B 到 70B 不等)。其中,完整版 R1 模型保留了全部 671B 参数,能发挥出最佳性能,但对计算资源要求较高,通常需要支付一定费 用。轻 量级模型则通过知识蒸馏技术,在保持核心功能的同时大幅降低了参数 这两个的不同点为 R1 提供了从 1.5B 到 671B 不同大小的模型,而 V3 只有 671B,而 671B 需要的电脑性能单个电脑几乎不可能满足,所以建议大家可以直 接安装并且部署 R1 模型。 DeepSeek R1 的链接:https://ollama.com/library/DeepSeek-r1:7b 可以看到 R1 有 7 个版本,其中最小的是 1.5b,它需要的内存大小为 10 积分 | 27 页 | 829.29 KB | 15 小时前3
中控智慧工地通道管理系统(48页PPT)能建筑行业可持续发展过程中 的有力支柱。 方案设计 第二章 1.1 系统介绍 1.2 系统拓扑图 1.3 系统模块 1.4 系统组成 1.5 系统架构 1.1 系统介绍 1.2 系统拓扑图 1.3 系统模块 1.4 系统组成 1.5 系统架构 方案设计 1-1 系统介绍 面对日益复杂的工地安全隐患,中控智慧推 出工地混合生物识别智能化管理系统,引入“实名 四大部分组成 产品介绍 第三章 1.1 身份证阅读器 1.2 生物识别三辊闸 1.3 混合生物识别通道 1.4 通道流程 1.5 实时信息监控 1.1 身份证阅读器 1.2 生物识别三辊闸 1.3 混合生物识别通道 1.4 通道流程 1.5 实时信息监控 产品介绍 1-1 身份证阅读器 劳务实名制信息采集: 建立劳务人员实名制度,快 速采集人员真实身份信息,劳务 百傲瑞达一卡通平台软件统一管理。 软件介绍 第四章 1.1 登录界面 1.2 实名制采集 1.3 面部机接入 1.4 液晶屏展示 1.5 第三方平台对接 1.1 登录界面 1.2 实名制采集 1.3 面部机接入 1.4 液晶屏展示 1.5 第三方平台对接 软件介绍 1-1 登录界面 包含:人事、门 禁、视频、系统 管理 软件介绍 1-2 实名制采集 软件介绍 1-310 积分 | 48 页 | 15.85 MB | 18 小时前3
中控智慧工地通道管理系统PPT(48页)能建筑行业可持续发展过程中 的有力支柱。 方案设计 第二章 1.1 系统介绍 1.2 系统拓扑图 1.3 系统模块 1.4 系统组成 1.5 系统架构 1.1 系统介绍 1.2 系统拓扑图 1.3 系统模块 1.4 系统组成 1.5 系统架构 方案设计 1-1 系统介绍 面对日益复杂的工地安全隐患,中控智慧推 出工地混合生物识别智能化管理系统,引入“实名 四大部分组成 产品介绍 第三章 1.1 身份证阅读器 1.2 生物识别三辊闸 1.3 混合生物识别通道 1.4 通道流程 1.5 实时信息监控 1.1 身份证阅读器 1.2 生物识别三辊闸 1.3 混合生物识别通道 1.4 通道流程 1.5 实时信息监控 产品介绍 1-1 身份证阅读器 劳务实名制信息采集: 建立劳务人员实名制度,快 速采集人员真实身份信息,劳务 百傲瑞达一卡通平台软件统一管理。 软件介绍 第四章 1.1 登录界面 1.2 实名制采集 1.3 面部机接入 1.4 液晶屏展示 1.5 第三方平台对接 1.1 登录界面 1.2 实名制采集 1.3 面部机接入 1.4 液晶屏展示 1.5 第三方平台对接 软件介绍 1-1 登录界面 包含:人事、门 禁、视频、系统 管理 软件介绍 1-2 实名制采集 软件介绍 1-310 积分 | 48 页 | 15.84 MB | 18 天前3
北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 27 K1.5 专注于用长文本 CoT 解决推理时 Scaling 问题 利用 RL 探索: Kimi k1.5 的核心思想是利用强化学习,让模型通过试错(探索)来学习解决问题 的能 力,而不是仅仅依赖于静态数据集。 长文本 CoT 的 RL :将 RL 应用于长文本10 积分 | 76 页 | 6.72 MB | 5 月前3
智慧医院智能化设计方案智慧医院 临床业务 医患互动 科研支持 医院管理 区域医疗 信息设施 公共安全 楼宇自控 机房工程 医疗辅助 信息服务平台 1.4 智慧医院总体设计框架 15 个分系统 87 个子系统 1.5 本项目智慧场景分析 智慧停车管理 智慧门诊 智慧后勤 智慧住院 绿色数字 化产房 智慧产后 康复中心 智慧医技 智慧办公 建筑 区域 楼层 功能分布 -1F 电气、给排水设备用房、尸体暂存、停车场车库 尺寸(米) A 区 外科病房楼大厅 3*2 急诊,急救入口大厅 2*1.5 收费取药入口大厅 1.5*2 B 区 住院大厅 1.5*2 内科住院病房大厅 2*1.5 儿科门诊入口 1*1.5 特需门诊入口 1*1.5 C 区 肠道门诊大厅 1*1.5 发热门诊大厅 1*1.5 住院入口 2*1.5 电梯厅 每个电梯厅两个 46 寸屏 门诊医技区: 35 块 住院区:10 积分 | 74 页 | 30.79 MB | 6 月前3
华为昇腾DeepSeek解决方案SFT+2 阶段 RL 完成,从而解决 R1-Zero 可读性差、 多种 语言混合问题 本次开源同时发布了 6 个基于 DeepSeek-R1 蒸馏的更小稠密模 型 ( Qwen/LLaMa 1.5B 7B 14B 32B 70B ) DeepSeek-R1 以 DeepSeek-V3 Base ( 671B )为基础模型, 使 用 GRPO 算法作为 RL 框架来提升 Reasoning 便捷的部署、敏捷业务上线 DeepSeek-V3-671B DeepSeek-R1-671B DeepSeek-R1-Distill-Qwen-32B DeepSeek-R1-Distill-Qwen-1.5B (蒸馏后较原模型能力提升 10%+ ) BERT-Large Transformer ● 2 工程创新 新一轮百模千态 1 技术摸高 新一轮技术竞争 GPT-4/4o GPT-3/3 R1-Distill-Llama-70B - √ DeepSeek R1-Distill-Qwen-32B - √ DeepSeek R1-Distill-Llama-8B DeepSeek R1-Distill-Qwen-1.5B/7B/14B √ √ 配套版本上线昇腾社区: https://www.hiascend.com/software/modelzo o/models/detail/678bdeb4e1a64c9dae51d350 积分 | 32 页 | 2.52 MB | 5 月前3
2025中国储能行业全球化市场布局与高价值商业模式研究报17%� �研��������EqualOcean�� 2.2.3��������������� ���� ���� 2024�12��������45�������1.564�����务1.5���������������2820MWh�����690.2MW���648���� ���������88.35MW���591.27MWh����� 2023�7������������2 45���������1.564 �����务1.5����� 35�������� 1. ��2820MWh���� ��690.2MW���� 2. 648�����10��� ���� 3. ��88.35MW���� 591.27MWh������ 2023�7��������� ��������够���2.8 ���� 1. �务��������� 1.5���������� 757MW/3GWh������ ������������� �� ���千 ����千 �� �� ��� �� �� ��� �����C� 2� 1.5� 2� 2� 2.5� 3� 3� 2� �����A� 2� 2.5� 2� 2� 2.5� 2� 2� 2� �����G� 3� 1.5� 2� 2� 3� 2� 3� 3� �����E� 3� 2� 2� 2.5� 2.5� 3� 3� 2� 0 10 积分 | 65 页 | 4.34 MB | 5 月前3
浙江大学:DeepSeek的本地化部署与AI通识教育之未来DeepSeek 近期:各行业开始研究部署... 1.DeepSeek简介 16 DeepSeek是谁?咱们通俗说一说...... 基于 Llama 、 Qwen 六个密集模型 (1.5b、7b、8b、 14b、32b、70b) 大师 徒弟 蒸馏版 训练 DeepSeek- R1- Zero DeepSeek- R1 蒸馏 满血版 DeepSeek-V3 671b 基于ollama的本地run(macos或者linux) v 安装ollama的包 – pip install ollama v 基于ollama运行DeepSeek – 运行1.5b模型 • ollama run deepseek-r1:1.5b – 运行7b模型 • ollama run deepseek-r1:7b – 运行8b模型 • ollama run deepseek-r1:8b • 学习辅助工具、数据分析助手、论文摘要生成等任务,可以基于deepseek 搭建和部署本地的小模型环境。 模型版本 显存VRAM (GPU) 内存RAM (CPU) 本地存储 运行机器 R1-1.5b 4GB+ 8GB+ 5GB 个人普通机 R1-7b 12GB+ 16GB+ 10GB 个人普通机 R1-8b 16GB+ 32GB+ 15GB 个人普通机 R1-14b 24GB+ 64GB+10 积分 | 57 页 | 38.75 MB | 5 月前3
智慧电力信息化系统建设及应用方案心 智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案 45 喇叭 设 计 标准 功放功率的选择:功放功率≧单个喇叭功率 X 喇叭数量 X 1.5 倍 广播系统 理想情况下,喇叭功率与距离的关系(仅供参考) 喇叭功率( W ) 3W 吸顶喇叭 6W 吸顶喇叭 10W 壁挂喇叭 15W 仿真草地音响 20W 壁挂喇叭 两只喇叭之间距离(米) 定压功放,输出是 100V ,根据 公式 P ( 功率) =U (电压) x I (电流 ) 可得出电流 I=15A ,室内的广播线就选用选用 RVV2*1.5 或者 RVS2*1.5 ,室外的 就选用 RVV2*2.5 或者 RVS2*2.5 ( 注意:室外比室内的线要粗 1 mm2 左右) 线径大小公式法: R ( 线径 )=5 x 5 0.5 0.5 0.5 0.75 0.75 1.0 1.5 250 米 0.5 0.5 0.75 0.75 1.0 1.0 1.5 2.5 500 米 0.5 0.75 1.0 1.0 1.5 2.0 2.5 4.0 750 米 0.75 1.0 1.0 1.5 2.0 2.5 4.0 6.0 1000 米 1.0 1.5 1.5 2.0 2.5 4.0 6.0 10.0 智慧小区云20 积分 | 48 页 | 44.48 MB | 4 月前3
共 620 条
- 1
- 2
- 3
- 4
- 5
- 6
- 62
