2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero DeepSeek-R1 在知识类问答上推动科学探索边界: ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 的潜力 ➢ 在长文本依赖任务如 FRAMEs 和 事实性推断任务 Simple-QA上表现突出 5 回顾:Pre-Training Scaling Scaling Model Parameters 8 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale10 积分 | 76 页 | 8.39 MB | 5 月前3
山东大学:DeepSeek 应用与部署( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( Reward )。 DeepSeek : 技术创新—推理模型 | RL DeepSeek 应用场 景 DeepSeek 的能力层级 • 1. 基础能力层 多模态数据融合与结构化理解 ,包括跨模态语义对齐(文本、 图像、 音频、 视频、 代 Qwen 蒸馏 的 DeepSeek - R1 推理模型 ,涵盖多种不同参数规模 ,适合想在本地运行模型的用户。 • 第三方 UI 客户管接入服务: 可通过 Anything LLM 、 Cherry Studio 、 Chatbox 等选择 API 接入。 • 秘塔 AI 搜索: 接入满血版 DeepSeek - R1 推理模型 , 无广告且搜索结果直达。 以学习 JDK21 新特性 siliconflow.cn/i/z0sI0urY 通过创建 API key 调 用 模型微调工程 u 对话模型微调 u 生图模型微调 华为云模型微调 老师模型 模型蒸馏工程 DeepSeek : 推理模型 | 推理能力 蒸馏 DeepSeek 蒸馏模 型 学生模型 小模型:相当于一枚小学生 ,知识面非常有限 ,但是胜在 没 教授那么大谱 ,给个板凳坐着就够了(部署成本低 ,推 理成 本低)。10 积分 | 79 页 | 6.52 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研20252 0 2 4 年 9 月 份 。 2 0 2 4 年 9 月 1 2 日 , OpenAI 官方宣布了 OpenAI o1 推 理大模 型。 OpenAI 定义推理模型 在 OpenAI 的官网上 , OpenAI 定义推理模 型是在回答之前进行思考 , 并在回复用户 之前 ,在内部生成一长串的思维链过程。 思维链是一种提示大语言模型进行逐步推 先显式地写出推理的中间步骤。这就像人 类解决复杂问题时会先把思考过程写下来 一样。 推理模型的核心 也就是说 ,如果模型在回复你之前有一 长 串的思考过程(这个过程必须可以显 示输 出) ,探索了很多不同的路径之后 给出答 案 ,那么有这个能力的大模型就 是推理大 模型。推理模型的核心在于处 理那些需要 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 Raschka 博士( Lightning AI 的首席教育学家) 将“推理”定义为通过生成中间步骤来回答复杂问 题的过程 通用的大语言模型( LLM ) 可能直接输出简短答案(如” 180 英里”) 推理模型的特点在于显式展示中间推导过程 3.4 大模型的分 类 特性 推理大模型 通用大模型 适用场景 复杂推理、 解谜、 数学、 编码难题 文本生成、 翻译、 摘要、 基础知识问答 复杂问题解决能力10 积分 | 123 页 | 15.88 MB | 5 月前3
华为昇腾DeepSeek解决方案建议 https://modelers.cn/models/MindI E/deepseekv3 模型资源获取 推理环境调测 推理模型部署 推理模型测试 集群连通测试 推理镜像制作 纯模型测试 服务化启动 运行环境部署 Python=3.x, PyTorch =2.0 ENV_A Python=0 积分 | 32 页 | 2.52 MB | 5 月前3
共 4 条
- 1
