推理模型 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班” 主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero DeepSeek-R1 在知识类问答上推动科学探索边界： ➢ MMLU \ MMLU-Pro \ GPQA Diamond 等 STEM- related 榜单上取得良好表现 ➢ R1 展现出强推理模型在 AI-Driven Research 的潜力 ➢ 在长文本依赖任务如 FRAMEs 和事实性推断任务 Simple-QA上表现突出 5 回顾：Pre-Training Scaling Scaling Model Parameters 8 DeepSeek-R1 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT，纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale

10 积分 | 76 页 | 8.39 MB | 1 年前
3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)

系列专题线上公开课（第二季）从大模型、智能体到复杂 AI 应用系统的构建 —— 以产业大脑为例肖俊浙江大学计算机学科与技术学院人工智能研究所 2025 03 杭州 • 大模型推理能力快速提升 • 推理模型和思维链 (CoT) • 智能体是什么？ • 四链融合产业大脑案例提纲大模型推理能力快速提升开始模仿人脑进行大量数据的标记和训练神经网络 CNN RNN GAN OpenAI o1/o3 、 DeepSeek- R1 等 1. 早期的大模型推理能力不足 2. OpenAI-o 系列模型和 DeepSeek-R1 等胜在推理能力较强小结一：推理模型和思维链 (Chain of Thought, CoT) QwQ 由通义千问开发， QwQ 能通过思考与疑问解决一些复杂的问题。 HIMl DeepSeek-R1 DeepSeek-R1 的推理过程 s1 通过在一个精心构建的小规模数据集上（ 1000 条数据）进行微调，并结合预算强制技术，实现了强大的推理能力和测试时计算扩展性如何低成本实现推理模型？ Less Is More for Reasoning LIMO 假说：在预训练阶段已经充分编码领域知识的基础模型中，复杂的推理能力可以通过最少但精确编排的认知过程演示来涌现：

20 积分 | 61 页 | 13.10 MB | 6 月前
3
山东大学：DeepSeek 应用与部署

（ Environment ）中不断尝试、学习，并优化自己的策略（ Policy ），最终获得最大化的奖励（ Reward ）。 DeepSeek ：技术创新—推理模型 | RL DeepSeek 应用场景 DeepSeek 的能力层级 • 1. 基础能力层多模态数据融合与结构化理解，包括跨模态语义对齐（文本、图像、音频、视频、代 Qwen 蒸馏的 DeepSeek - R1 推理模型，涵盖多种不同参数规模，适合想在本地运行模型的用户。 • 第三方 UI 客户管接入服务：可通过 Anything LLM 、 Cherry Studio 、 Chatbox 等选择 API 接入。 • 秘塔 AI 搜索：接入满血版 DeepSeek - R1 推理模型，无广告且搜索结果直达。以学习 JDK21 新特性 siliconflow.cn/i/z0sI0urY 通过创建 API key 调用模型微调工程 u 对话模型微调 u 生图模型微调华为云模型微调老师模型模型蒸馏工程 DeepSeek ：推理模型 | 推理能力蒸馏 DeepSeek 蒸馏模型学生模型小模型：相当于一枚小学生，知识面非常有限，但是胜在没教授那么大谱，给个板凳坐着就够了（部署成本低，推理成本低）。

10 积分 | 79 页 | 6.52 MB | 1 年前
3
金融-DeepSeek银行部署加速，AI金融应用迎来跃迁

关键信息，高效完成合同质检、条款比对等工作，大幅提升工作效率与准确性。 n 江苏银行已成功本地化部署微调 DeepSeek-VL2 多模态模型、轻量 DeepSeek-R1 推理模型，分别运用于智能合同质检和自动化估值对账场景中。资料来源：上海证券报，搜狐，中泰证券研究所 16 降本增效场景之三：智能合同质检图表：江苏银行 AI 布局 n AI Coding “抵押率”“偿债覆盖率”等术语转化为业务逻辑，应用于合同解析与风险建模邮储银行技术落地：依托自有大模型“邮智”，本地部署并集成 DeepSeek-V3 模型和 DeepSeek-R1 推理模型应用场景：应用于智能客服“小邮助手”后，新增逻辑推理功能，可精准识别用户需求，提供个性化和场景化的服务方案，加快响应速度和任务处理效率技术落地：“ AI 理财顾问”引入 DeepSeek 浦发银行应用场景：融合“五横六纵”企业级知识库，嵌入数字员工助手应用，赋能智能问答、指标问答、财务分析、报告写作等多个应用场景江苏银行技术落地：部署 DeepSeek-VL2 多模态模型和 R1 推理模型成效展示：合同质检准确率达 96% ，自动化估值对账场景日均节省 9.68 小时人工工作量，风险预警响应速度提升 20% DeepSeek 应用进展数据来源：中电金信研究院公众号，中泰证券研究所

10 积分 | 25 页 | 1.44 MB | 6 月前
3
DeepSeek大模型赋能高校教学和科研2025

2 0 2 4 年 9 月份。 2 0 2 4 年 9 月 1 2 日， OpenAI 官方宣布了 OpenAI o1 推理大模型。 OpenAI 定义推理模型在 OpenAI 的官网上， OpenAI 定义推理模型是在回答之前进行思考，并在回复用户之前，在内部生成一长串的思维链过程。思维链是一种提示大语言模型进行逐步推先显式地写出推理的中间步骤。这就像人类解决复杂问题时会先把思考过程写下来一样。推理模型的核心也就是说，如果模型在回复你之前有一长串的思考过程（这个过程必须可以显示输出），探索了很多不同的路径之后给出答案，那么有这个能力的大模型就是推理大模型。推理模型的核心在于处理那些需要多步骤逻辑推导才能解决的复杂问题。 3.4 大模型的分类大语言模型可以分为通用大模型和推理大模型 Raschka 博士（ Lightning AI 的首席教育学家）将“推理”定义为通过生成中间步骤来回答复杂问题的过程通用的大语言模型（ LLM ）可能直接输出简短答案（如” 180 英里”）推理模型的特点在于显式展示中间推导过程 3.4 大模型的分类特性推理大模型通用大模型适用场景复杂推理、解谜、数学、编码难题文本生成、翻译、摘要、基础知识问答复杂问题解决能力

10 积分 | 123 页 | 15.88 MB | 1 年前
3
DeepSeek大模型及其企业应用实践

先显式地写出推理的中间步骤。这就像人类解决复杂问题时会先把思考过程写下来一样。 OpenAI定义推理模型也就是说，如果模型在回复你之前有一长串的思考过程（这个过程必须可以显示输出），探索了很多不同的路径之后给出答案，那么有这个能力的大模型就是推理大模型。推理模型的核心在于处理那些需要多步骤逻辑推导才能解决的复杂问题。推理模型的核心 1.4 大模型的分类 n 推理大模型DeepSeek R1的对话效果推理问题： ”一列火车以每小时60英里的速度行驶3小时，行驶距离是多少？” （需先理解”距离=速度×时间”的关系，再分步计算）通用的大语言模型（LLM）可能直接输出简短答案（如”180英里”）推理模型的特点在于显式展示中间推导过程 1.4 大模型的分类在应用方面二者各有擅长的领域，而不是简单的谁强谁弱问题 n 如果你需要完成数据分析、逻辑推理、代码生成等逻辑性较强且较为复杂的任务，请选择推理大模型灯红酒绿的霓虹灯，热闹非凡的唐人街正在进行舞龙表演，熙熙攘攘的人群目光都聚焦在跃动的彩龙身上，整个环境的喜庆氛围仿佛令人身临其境 2.1 国外的大模型产品 n OpenAI o3 2024年12月20日，OpenAI发布推理模型o3，无论在软件工程、编写代码，还是竞赛数学、掌握人类博士级别的自然科学知识能力方面，o3都达到了很高的水平 2.2 国内的大模型产品大模型图标指标排名 DeepSeek 能力测评第一

10 积分 | 147 页 | 16.82 MB | 1 年前
3
腾讯云：2025年解码DeepSeek构建医药行业新质生产力报告

科研与学术⽅式和效率→通过⼤模型进⾏科研课题筛选、⽂献收集、数据结构化提取和分析、摘要及初稿撰写等医⽣基于DeepSeek推理模型，整合患者的信息，辅助医⽣深度问诊、鉴别诊断、病情分析和建议，提出治疗、预防等建议 • 基于Deepseek⼤模型，再现医⽣临床思维链路的推理模型 • ⾃动⽣成病情分析、IDC⾃动编码 • 分析准确率达90%，为医⽣提供权威决策⽀持 • 指出权威出处（如指南、专家共识等）

10 积分 | 32 页 | 14.20 MB | 1 年前
3
电子行业深度报告：DeepSeek推动模型平权，关注AI终端及算力领域

Gemini 2.0 家族，包括 Gemini 2.0 Pro 实验版本、Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite，并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking，在数据、代码等领域上较前代版本进一步提升。价格方面，o3 mini API 定价为每百万 tokens 输入 0.55 美元（缓存命中）/1 家族大模型，包括 Grok 3、Grok 3 mini 以及推理模型 Grok 3 reasoning、Grok 3 mini reasoning。其中 Grok 3 在数学、科学、编程等领域的性能进一步提升，表现好于 Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o 等模型；而推理模型 Grok 3 reasoning Beta 在数学、科学、编程等表现上

10 积分 | 23 页 | 2.65 MB | 1 年前
3
华为昇腾DeepSeek解决方案

建议 https://modelers.cn/models/MindI E/deepseekv3 模型资源获取推理环境调测推理模型部署推理模型测试集群连通测试推理镜像制作纯模型测试服务化启动运行环境部署 Python=3.x, PyTorch =2.0 ENV_A Python=

0 积分 | 32 页 | 2.52 MB | 1 年前
3
抢滩接入Deepseek，教育行业迈入AI深度整合新阶段

型自研的RAG引擎“QAnything”、AI开放平台有道智云也全面接入DeepSeek的推理能力进行升级。 3、AI教育硬件创新：推出AI原生学习硬件“SpaceOne”，作为全面屏答疑词典笔具备DeepSeek-R1推理模型能力，且内置网易有道AI家教软件及教育资源、知识库，创新学科难题深度讲解方式。网易有道围绕DeekSeek的AI教育布局情况网易有道对DeepSeek的抢滩布局快速且全面，覆盖软件（翻译、口语、伴学

10 积分 | 6 页 | 1.23 MB | 6 月前
3

共 26 条前往

页

分类

语言

格式