2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告10 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 ➢ 推理为中心大规模强化学习:组相对策略优化(GRPO)+ 瞄准 Reasoning 推理任务 ➢ 自我迭代提升Self-Evolution:随着训练步数的增长,模型的thinking response length 逐 渐增加(对应着 了传统策略优化算法中需要使用与策略模型大小相同的评论模型。 ➢ 大幅度降低 RL 训练的计算成本,同时还能保证模型能够有效地学习到策略。 ➢ 具体来说,在传统的 RL 训练中,评论模型需要与策略模型具有相同的大小,增加计算资源的 消耗。而 GRPO 算法利用群组内的相对信息来估计基线,避免了使用Critic Model的需要。 ➢ 此外,GRPO 算法还引入了一些额外的优化策略(奖励缩放和策略裁剪),提升训练的稳定性。 和策略裁剪),提升训练的稳定性。 ➢ From PPO to GRPO: ➢ PPO 作为 Actor-Critic 算法被广泛运用于 Post-Training, 核心目标是最大化下面的目标函数 ➢ 其中, 𝜋𝜃和 𝜋𝜃𝑜𝑙𝑑 分别表示当前策略模型和旧策略模型,q, o是从问题数据集和旧策略 𝜋𝜃𝑜𝑙𝑑中 采样的输入和输出, 𝐴𝑡是基于广义优势估计(GAE)计算的优势值,依赖于奖励序列10 积分 | 76 页 | 8.39 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南5B,手机都能运行专业级 AI 5.国际影响:技术出海的东方智慧 ⚫ 在东南亚、中东等地区,DeepSeek 成为数智主权建设工具,帮助发展中国家摆脱 对西方技术的依赖 ⚫ 开源策略吸引全球 20 万开发者,形成中美双极化的 AI 生态格局 二、核心能力图谱 1.技术特性:AI 界的“六边形战士” DeepSeek 之所以成为现象级 AI 工具,关键在于它在效率、成本、能力三大维度实现 ②核心功能切换 ③文件交互技巧 支持格式:PDF(需文字可复制)、Word、Excel、图片(JPG/PNG) 高阶用法: ⚫ 文档对比:上传 A/B 两份文件,输入“分析市场策略差异” ⚫ 数据提取:从实验报告 PDF 中自动整理温度数据表格 避坑指南:超过 50 页的长文档建议拆分处理,避免解析超时 3.常见问题速查 Q1:为什么联网搜索时断时续? Claude 整理数据图表” 效率提升:全流程时间缩短 70% ③批判性训练 ⚫ 逆向推演:“假设我的奶茶店三个月后倒闭,请逆向分析失败原因链” ⚫ 跨界迁移:“参考迪士尼排队管理策略,优化咖啡店高峰时段服务流程” 5.官方推荐模板(简化版) 1.代码优化: “下面这段 Python 代码运行缓慢,请解释问题并提供两种优化方案” 2.内容润色: “将这段10 积分 | 21 页 | 1.01 MB | 5 月前3
华为昇腾DeepSeek解决方案• 每个 MTP 模块共享嵌入层和输出头 • 每个 MTP 模块独占一个 Transformer Block 和一个投影矩阵 • 多个 MTP 模块串联保持完整的因果关系链 ② 训练策略 • 每个 MTP 模块输出预测 token 的概率分布 • 每个 MTP 模块计算对应的交叉熵损失函数 • 多个 MTP 模块的损失函数加权平均得到最终训练目标 ③ 关键作用 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 MHA/GQA 分组共享减少缓存 GPT4 16 专家选 2 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法 强化学习 Attention MOE Token 结合场景差异优化 运行时 NV Runtime KS 直 接 发 起 Kernel Launch GE 图引擎 MT 、 KS 自定义图融合 Pattern 类库 / 模板 XF 自定义切分策略 集合通信库 TX 、 MT hash 算法自定义调优 通用编程 KS 自定义算子开发 毕昇编译器 | Runtime 运行时 开放硬件资源接口,满足开发者对模型开发、系统优化、三方生态对接等各场景需求0 积分 | 32 页 | 2.52 MB | 5 月前3
山东大学:DeepSeek 应用与部署Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 ( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( Reward )。 DeepSeek : 技术创新—推理模型 | RL DeepSeek 应用场 景 DeepSeek 智能客服与消费者互动 - 新品研发与口味预测 - 施工进度管理与优化 - 材料采购与供应链优化 - 客户需求分析与个性化服务 - 智能客服与售后支持 - 装修质量检测与问题预测 - 市场趋势分析与营销策略优化 DeepSeek 赋能各行业的应用场 景 • 2. DeepSeek 赋能房产装 修 - 智能设计与方案生成 ( VR ) 与增强现实 ( AR ) - 虚拟现实 体验 xu •10 积分 | 79 页 | 6.52 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版推动 制造业向更高效、智能的方向发展。 经营管理优化 • 库存管理:利用深度学习和大数据分析,分析历史销 售数据、季节性变化、市场趋势等因素,预测库存 需求、实时监控库存水平、自动调整补货策略、精准 管理库存品类、优化库存地域布局等,提高库存周 转率,降低库存成本。AI 聊天机器人可以随时了解 ERP 库存系统、跟踪订单和其他更新。 • 物流配送与运输管理:机器人在深度学习算法和 (AI) 行业观察 新材料的 快速筛选 加速设计 锂电池未来的技术核心竞争点在于材料。快速筛选出高能效的材料,是掌握竞争优势的关键。大模型通过高通量计 算与数据库构建、分子生成模型和高通量筛选策略等步骤,能从数百万种材料中,快速筛选出具有高能效潜力的材 料,缩短新材料的发现周期。 高效能材料的发现,直接关系着电池的能量密度、性能表现、使用寿命、安全性和成本等关键指标。电池企业正在 材料筛选及研发上积极探索 错的时间,加速了设计迭代过程。在布局布线阶段,优化布局布线是集成电路设计中最为耗时的步骤之一,涉及到 芯片上数百万甚至数十亿个元器件的物理位置和连接。AI 技术可以在此阶段通过强化学习等方法,自动学习最优 的布局策略,实现快速而高效的布局布线,同时优化信号完整性、功耗和热管理等关键指标。 半导体晶圆制造过程极为复杂、精密,任何微小缺陷都可能影响芯片性能。晶圆中常见的缺陷包括表面的划痕、裂 纹、污染物、凸起,0 积分 | 82 页 | 5.13 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025可行性分析:国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析:国内做工业化低成本有绝对优势 国内人工智能的发展模式、可行性分析 美国限制中国 AI 发展的策略 Y ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) 可行性分析:资金没问题,尤其优质生产力领域 ■ 3 , 用 GPU 训练性能领先的大模型 ■10 积分 | 23 页 | 7.53 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025)模型微调;( 2 )本地知识 库 模型微调技术要点 ( 1 )高质量的标注数据: 标注数 据 的质量直接影响微调的效果 , 需 要确 保数据标注的准确性和一致性。 ( 2 )合理的微调策略: 选择合适 的 微调算法和超参数 ,避免过拟合 或欠 拟合问题。 4.4 本地部署大模型方 案 在监督微调阶段 ,模型会学习一个 指令 - 响应( Instruction-Response n 无需逐步指导 ,模型自动生成结构 化推理过程(若强行拆解步骤 , 反 而可能限制其能力)。 5.1.5 AIGC 大模型的提示词 推理模型 提示词之道: 通用大模型与推理大模型在提示词策略方面也有不同侧重与技 巧 5.2 文本类 AIGC 应用实 践 进入百度官网访问 DeepSeek 保证正常快速使 用 步骤 1 : 登录 DeepSeek 平台。在浏览器地址栏 中 输入“ 实时调整教学节奏 n 实验智能体: VR+ 数字孪生模拟高危实验操作 服务场景 n 心理咨询智能体: 通过微表情识别学生心理状态 n 就业指导智能体: 分析百万岗位数据生成个性化 求职策略 管理场景 n 招生智能体: A I 面试官评估考生综合素质 n 行政智能体: 自动处理盖章、 证明开具、 报销等 流程 6. 基于大模型的智能体 智能体在高校的应用场景10 积分 | 123 页 | 15.88 MB | 5 月前3
从智慧教育到智慧课堂:理论、规范与实践智慧课堂:促进学生成功的新智能 在校学生的绩效数据增长非常快 46 智慧体现在什么地方? 将学生的绩效数据集成在一起,以更好 支撑对学生学习过程的理解。 了解学生参与习惯,实现对学生施加具 有针对性的干预策略。 智慧教育结果 掌握学生每年的进步情况 早期诊断学生学习中遇到的困难,并施 加补救措施。 矩阵 仪表盘 学习分析 管理报告 学生信息系统 学生管理系统 财政系统 人力资源10 积分 | 74 页 | 10.39 MB | 5 月前3
共 8 条
- 1
