2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告10 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 ➢ 推理为中心大规模强化学习:组相对策略优化(GRPO)+ 瞄准 Reasoning 推理任务 ➢ 自我迭代提升Self-Evolution:随着训练步数的增长,模型的thinking response length 逐 渐增加(对应着 表现出在推理任务上思维链长度的自然增长和涌现 ➢ 反思深度逐层加深,出现标记不明确的步骤、保持中间结论、验证、混合语言推理等现象 ➢ 模型在准确率奖励和格式奖励下自然探索到 验证、回溯、总结、反思 的行为范式 ➢ 如何控制来保证最后的response 长度能够稳定上升,可能会出现反复重复验证、或者验 证时间过晚的情况; (REINFORCE 系列更快;PPO训练稳定但是慢) ➢ 多语言可能是因为预训练数据是多语言的,“一视同仁”被 了传统策略优化算法中需要使用与策略模型大小相同的评论模型。 ➢ 大幅度降低 RL 训练的计算成本,同时还能保证模型能够有效地学习到策略。 ➢ 具体来说,在传统的 RL 训练中,评论模型需要与策略模型具有相同的大小,增加计算资源的 消耗。而 GRPO 算法利用群组内的相对信息来估计基线,避免了使用Critic Model的需要。 ➢ 此外,GRPO 算法还引入了一些额外的优化策略(奖励缩放和策略裁剪),提升训练的稳定性。10 积分 | 76 页 | 8.39 MB | 6 月前3
华为昇腾DeepSeek解决方案• 每个 MTP 模块共享嵌入层和输出头 • 每个 MTP 模块独占一个 Transformer Block 和一个投影矩阵 • 多个 MTP 模块串联保持完整的因果关系链 ② 训练策略 • 每个 MTP 模块输出预测 token 的概率分布 • 每个 MTP 模块计算对应的交叉熵损失函数 • 多个 MTP 模块的损失函数加权平均得到最终训练目标 ③ 关键作用 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 MHA/GQA 分组共享减少缓存 GPT4 16 专家选 2 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法 强化学习 Attention MOE Token 结合场景差异优化 运行时 NV Runtime KS 直 接 发 起 Kernel Launch GE 图引擎 MT 、 KS 自定义图融合 Pattern 类库 / 模板 XF 自定义切分策略 集合通信库 TX 、 MT hash 算法自定义调优 通用编程 KS 自定义算子开发 毕昇编译器 | Runtime 运行时 开放硬件资源接口,满足开发者对模型开发、系统优化、三方生态对接等各场景需求0 积分 | 32 页 | 2.52 MB | 5 月前3
山东大学:DeepSeek 应用与部署Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 ( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( Reward )。 DeepSeek : 技术创新—推理模型 | RL DeepSeek 应用场 景 DeepSeek 1.5b/7b/8b/14b/32b 多款模型。 • TI 平台:登录腾讯云 TI 平台 ,提供专属算力、多种尺寸模型、 0 代码模型部署等功能。 • HAI :登录腾讯云 HAI 控制台 ,新建 DeepSeek - R1 应用 ,创建完成后可通过站内信获取密码 ,选择可 视化 界面( ChatbotUI )或命令行( JupyterLab )直接调用 DeepSeek - R1 云应用:登录腾讯云找到云应用服务 ,直接购买成品 DeepSeek 应用 ,或利用云应用定制化软件功能 , 快速 部署 AI 应用或定制传统软件。 • 搜索方案:大模型知识引擎:注册并登录腾讯云 ,在控制台搜索“大模型知识引擎” 体验”开通服务。新 建 应用并配置基础信息 ,选择 DeepSeek - R1/V3 模型 ,即可在右侧调试窗口提问搜索。 • API 接口: 申请腾讯云 DeepSeek10 积分 | 79 页 | 6.52 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版1.2 工业 AI 的应用范畴 04 01 工业人工智能 (AI) 行业观察 生产过程管控 在生产过程管控方面,AI 技术的应用主要集中在提高生 产效率、优化资源配置、增强质量控制和实现生产过程 的自动化与智能化。具体包括: • 设备管理: 在设备入库管理方面,AI 通过深度学习识别设备上的 条形码、二维码或设备特征,自动读取设备信息如型 号、序列号等;AI 的自然语言处理功能,可以自动 推动 制造业向更高效、智能的方向发展。 经营管理优化 • 库存管理:利用深度学习和大数据分析,分析历史销 售数据、季节性变化、市场趋势等因素,预测库存 需求、实时监控库存水平、自动调整补货策略、精准 管理库存品类、优化库存地域布局等,提高库存周 转率,降低库存成本。AI 聊天机器人可以随时了解 ERP 库存系统、跟踪订单和其他更新。 • 物流配送与运输管理:机器人在深度学习算法和 技术和工业大模型落地应用的一个重 点行业。 AI 技术强大的计算和分析能力,已经为锂电制造行业带来巨大变革,从材料选型、器件设计和优化生产保障质量方面,帮 助锂电制造企业缩短开发周期,提升检测效率,控制成本投入。 1.4.2 消费电子行业 1.4.3 新能源锂电行业 精准高效 的缺陷 检测 锂电池 质量检测 加速产品 的更新 换代 智能化 功能增强 消费电子产品对0 积分 | 82 页 | 5.13 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025以及进行决策和控制,提高自动驾驶的安 全性和效率 3.7 大模型的应用领 域 大模型可以用于自动驾驶中的感知、决策 等任务 。通过学习大量的驾驶数据 ,大 模 在生物信息学领域 ,大模型可以用于基 因 序列分析(识别基因中的功能元件和变异 位点) 、蛋白质结构预测(推测蛋白质 的 二级和三级结构) 、药物研发(预测分 子 与靶点的相互作用)等 大模型可以用于质量控制、故障诊断等任 大模型可以用于质量控制、故障诊断等任 务 。通过学习大量的工业制造数据 ,大 模 型可以辅助工程师进行产品质量控制 和故 障诊断,提高生产效率和产品质量 在气候研究领域 ,大模型可以处理气象 数 据 ,进行天气预测和气候模拟 。 它们能 够 分析复杂的气象现象,提供准确的气 象预 报 ,帮助人们做出应对气候变化的 决策 3.7 大模型的应用领 域 工业制造 生物信息学 气候研究 4. 高校本地部署 DeepSeek )模型微调;( 2 )本地知识 库 模型微调技术要点 ( 1 )高质量的标注数据: 标注数 据 的质量直接影响微调的效果 , 需 要确 保数据标注的准确性和一致性。 ( 2 )合理的微调策略: 选择合适 的 微调算法和超参数 ,避免过拟合 或欠 拟合问题。 4.4 本地部署大模型方 案 在监督微调阶段 ,模型会学习一个 指令 - 响应( Instruction-Response10 积分 | 123 页 | 15.88 MB | 6 月前3
从智慧教育到智慧课堂:理论、规范与实践实现无缝迁移 具体 体现 16 全向交 互 • 自然交互 • 深度互动 • 过程记录 17 智能管 控 教育环境、资源、管理与服务的智能管理是智慧教 育的核心特征。 智能控制 智能诊断 智能分析 智能调节 智能调度 18 按需推 送 智能教育要达成“人人教、人人学”的美好愿望,教育 资源可以按需获取和使用,教与学可以按需开展。 • 按需推送资源 智慧课堂:促进学生成功的新智能 在校学生的绩效数据增长非常快 46 智慧体现在什么地方? 将学生的绩效数据集成在一起,以更好 支撑对学生学习过程的理解。 了解学生参与习惯,实现对学生施加具 有针对性的干预策略。 智慧教育结果 掌握学生每年的进步情况 早期诊断学生学习中遇到的困难,并施 加补救措施。 矩阵 仪表盘 学习分析 管理报告 学生信息系统 学生管理系统 财政系统 人力资源 教育者开发并使用工具。 降低成本 集中化设施更加易于维护; 软件易于升级维护 基本可以放弃桌面端的支持需求。 提高可靠性、利用性和产出。 有能力运行最新的应用 控制、安全、集中放置。 当出现错误时可以无缝连接到空闲设备上; 教育者不必在纠结于技术问题 集中式架构 为在客户端和服务器之间提供 高速网络接入服务 集成性门户为实体接入应用和10 积分 | 74 页 | 10.39 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南5B,手机都能运行专业级 AI 5.国际影响:技术出海的东方智慧 ⚫ 在东南亚、中东等地区,DeepSeek 成为数智主权建设工具,帮助发展中国家摆脱 对西方技术的依赖 ⚫ 开源策略吸引全球 20 万开发者,形成中美双极化的 AI 生态格局 二、核心能力图谱 1.技术特性:AI 界的“六边形战士” DeepSeek 之所以成为现象级 AI 工具,关键在于它在效率、成本、能力三大维度实现 ②核心功能切换 ③文件交互技巧 支持格式:PDF(需文字可复制)、Word、Excel、图片(JPG/PNG) 高阶用法: ⚫ 文档对比:上传 A/B 两份文件,输入“分析市场策略差异” ⚫ 数据提取:从实验报告 PDF 中自动整理温度数据表格 避坑指南:超过 50 页的长文档建议拆分处理,避免解析超时 3.常见问题速查 Q1:为什么联网搜索时断时续? Claude 整理数据图表” 效率提升:全流程时间缩短 70% ③批判性训练 ⚫ 逆向推演:“假设我的奶茶店三个月后倒闭,请逆向分析失败原因链” ⚫ 跨界迁移:“参考迪士尼排队管理策略,优化咖啡店高峰时段服务流程” 5.官方推荐模板(简化版) 1.代码优化: “下面这段 Python 代码运行缓慢,请解释问题并提供两种优化方案” 2.内容润色: “将这段10 积分 | 21 页 | 1.01 MB | 6 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025可行性分析:国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析:国内做工业化低成本有绝对优势 国内人工智能的发展模式、可行性分析 美国限制中国 AI 发展的策略 Y ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) 可行性分析:资金没问题,尤其优质生产力领域 ■ 3 , 用 GPU 训练性能领先的大模型 ■10 积分 | 23 页 | 7.53 MB | 5 月前3
共 8 条
- 1
