推理模型 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班” 主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero DeepSeek-R1 在知识类问答上推动科学探索边界： ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 的潜力 ➢ 在长文本依赖任务如 FRAMEs 和事实性推断任务 Simple-QA上表现突出 5 回顾：Pre-Training Scaling Scaling Model Parameters 8 DeepSeek-R1 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT，纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale

10 积分 | 76 页 | 8.39 MB | 1 年前
3
山东大学：DeepSeek 应用与部署

（ Environment ）中不断尝试、学习，并优化自己的策略（ Policy ），最终获得最大化的奖励（ Reward ）。 DeepSeek ：技术创新—推理模型 | RL DeepSeek 应用场景 DeepSeek 的能力层级 • 1. 基础能力层多模态数据融合与结构化理解，包括跨模态语义对齐（文本、图像、音频、视频、代 Qwen 蒸馏的 DeepSeek - R1 推理模型，涵盖多种不同参数规模，适合想在本地运行模型的用户。 • 第三方 UI 客户管接入服务：可通过 Anything LLM 、 Cherry Studio 、 Chatbox 等选择 API 接入。 • 秘塔 AI 搜索：接入满血版 DeepSeek - R1 推理模型，无广告且搜索结果直达。以学习 JDK21 新特性 siliconflow.cn/i/z0sI0urY 通过创建 API key 调用模型微调工程 u 对话模型微调 u 生图模型微调华为云模型微调老师模型模型蒸馏工程 DeepSeek ：推理模型 | 推理能力蒸馏 DeepSeek 蒸馏模型学生模型小模型：相当于一枚小学生，知识面非常有限，但是胜在没教授那么大谱，给个板凳坐着就够了（部署成本低，推理成本低）。

10 积分 | 79 页 | 6.52 MB | 1 年前
3
DeepSeek大模型赋能高校教学和科研2025

2 0 2 4 年 9 月份。 2 0 2 4 年 9 月 1 2 日， OpenAI 官方宣布了 OpenAI o1 推理大模型。 OpenAI 定义推理模型在 OpenAI 的官网上， OpenAI 定义推理模型是在回答之前进行思考，并在回复用户之前，在内部生成一长串的思维链过程。思维链是一种提示大语言模型进行逐步推先显式地写出推理的中间步骤。这就像人类解决复杂问题时会先把思考过程写下来一样。推理模型的核心也就是说，如果模型在回复你之前有一长串的思考过程（这个过程必须可以显示输出），探索了很多不同的路径之后给出答案，那么有这个能力的大模型就是推理大模型。推理模型的核心在于处理那些需要多步骤逻辑推导才能解决的复杂问题。 3.4 大模型的分类大语言模型可以分为通用大模型和推理大模型 Raschka 博士（ Lightning AI 的首席教育学家）将“推理”定义为通过生成中间步骤来回答复杂问题的过程通用的大语言模型（ LLM ）可能直接输出简短答案（如” 180 英里”）推理模型的特点在于显式展示中间推导过程 3.4 大模型的分类特性推理大模型通用大模型适用场景复杂推理、解谜、数学、编码难题文本生成、翻译、摘要、基础知识问答复杂问题解决能力

10 积分 | 123 页 | 15.88 MB | 1 年前
3
华为昇腾DeepSeek解决方案

建议 https://modelers.cn/models/MindI E/deepseekv3 模型资源获取推理环境调测推理模型部署推理模型测试集群连通测试推理镜像制作纯模型测试服务化启动运行环境部署 Python=3.x, PyTorch =2.0 ENV_A Python=

0 积分 | 32 页 | 2.52 MB | 1 年前
3

共 4 条前往

页

2025 DeepSeek R1Kimi 1.5 及类推理模型推理模型开发解读报告山东东大大学山东大学应用部署赋能高校教学科研华为解决方案解决方案

分类

语言

格式

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

山东大学：DeepSeek 应用与部署

DeepSeek大模型赋能高校教学和科研2025

华为昇腾DeepSeek解决方案