2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告技术对比探讨 ➢ STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 Large-Scale Reasoning-Oriented RL 大规模推理为中心的强化学习,提升模型数学代码能力 RL驱动下自然涌现长文本推理能力10 积分 | 76 页 | 8.39 MB | 6 月前3
从智慧教育到智慧课堂:理论、规范与实践智慧教育的内涵与特征 3 智慧战略引重视 • 2008 年 IBM 提 出智慧地球战略 智慧教 育 已 成 共 识 新加坡 2006 年iN2015 计划 智慧教育计划 提出 建立学习者为中 心的个性化学习 空间 建设国家范围的 教育基础设施 使新加坡成为全 球教育领域使用 信息技术的创新 中心 5 智慧教 育 已 成 韩国 " 智 慧 教 育 推 进 战 略 " 2011 年 数字教科书的普及推广 智 慧 教 育 什么是智慧教育? 在信息化基础之上建构的信息时代的教育新秩序,是信 息时代的教育新形态、教育的“新常态”,是信息化元素充分 融入教育以后,在“时代催化剂”的作用下教育发生的“化学反 应”。 信息化 教育 时代催化剂 智慧教育” 智慧教育体系 智慧教师 智慧管理 智慧学习者及智慧学习 智慧课程 智慧教学 智慧教育资源 智慧评价(教、学) 教学内容富媒体呈现 创设适应性虚拟学习环境 个性化学习环境 大数据学习分析 智慧型未来教室 在充足的空间内利用虚拟现实等技术,创造虚拟的学习情境 和教学资源扩展平台,为老师和学生提供适应性的自主学习 平台与资源,提供各种可视化的教学设备,运用教学平台的 及时交互与展示,为学生提供更多的学习资源,更好的自主 与个性化学习。 优势 设备和技术更加先进 不同的学习区域方便学生进行多种形式的学习10 积分 | 74 页 | 10.39 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025部分高级模型还会使用强化学习进行优化。 例如 , ChatGPT 和 Claude 使用 人类 反馈 强化学习( RLHF ) 让模型的回答更符合用户期望 ,更好地选择符合人类偏好的答案 数据准备成本高 需要收集、 整理和标注大量特定领域的数据 ,这是一个 耗 时费力的过程 4.4 本地部署大模型方 案 模型微调主要是指令微调 ,指令微调包括两个阶段: 监督微调和强化学 习 监督微调 强化学习 不足之处: 人类一样使用计算机的智能体。 它基于 OpenAI 最新研发的 CUA ( Computer- Using Agent )模型 , CUA 将 GPT-4o 的视觉功能与通过强化学习获得的高级推理相 结合 ,经 过训练可以与图形用户界面( GUI ,即人们在屏幕上看到的按钮、菜单和文 本字段)进行 交互。 Operator 通过观察屏幕并使用虚拟鼠标和键盘来完成任务 引用次数等指标对结果进行排序。 其独特的语义检索功能 , 能更精确地理解用户需求 , 提供高质量的文献结果 , 减少传统文献检 索 的盲目性 DeepSeek 不仅适用于医学领域 ,还能够跨学科地支持生物学、 化学、 物理学等多个学科的研究。 它能够帮助科研人员打破学科间的壁垒 ,从其他领域汲取创新思路 ,开拓新的研究方向 基于已有文献和数据 , DeepSeek 能够为用户提供智能化的实验设计建议。 它通过对相关文献10 积分 | 123 页 | 15.88 MB | 6 月前3
华为昇腾DeepSeek解决方案AI 模型算法: GPT 、 LLaMA AI 框架: PY 、 TF 异构计算架构: CUDA 互联技术: NV Link AI 芯片: NV 、 AMD • DS 对强化学习的创新使用, 可以让大模型便捷的获 得 通用性 + 专用性, 可以满足各应用场景需求 • DS 对通过从模型结构到训推全流程的极致工程优化, 大幅提升 AI 的计算效率, 提升模型落地经济性 70% DeepSeek 通过从模型结构到训推全流程的优化,带来大模型新 范式 DeepSeekV3/R1 ,大幅提升从训练到推理的计算效率,降低模型创新及应用落地的门槛 降低学习复杂度 简化强化学习流程 降低后训练复杂度 推理优化 单次推理效率倍级提升 一次预测多个 token 推理倍级提升 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法 强化学习 Attention MOE Token 预测 业界 LLM 大模 型 核心 收益效果 Huawei Proprietary - Restricted Distribution DeepSeek0 积分 | 32 页 | 2.52 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南多头潜在注意力:像多线程处理信息,显存占用降低 50%,适合普通电脑运 行 ⚫ MoE 混合专家系统:遇到问题自动召唤“专业团队”,比如数学题找数学专家模 块,写诗找创意模块 ⚫ 强化学习驱动:通过“试错+奖励”机制自我进化,类似游戏 AI 自学通关 2.划时代意义:中国 AI 的破局之战 DeepSeek 的诞生不仅是技术突破,更是国家战略级的里程碑: 成本革命: 赋能日常生活 DeepSeek 通过技术普惠,正在重塑个人与组织的生产力模式,以下是三大用户群体的 典型应用场景: ①学生党:从题海战术到精准学习 ⚫ 论文润色:上传论文草稿→输入“优化学术表达,确保符合 APA 格式”→10 分钟完 成专业级修改 ⚫ 知识点图谱:输入“用思维导图整理高中生物遗传学核心概念”→生成可打印的学习 框架 ⚫ 解题思路:拍摄数学题照片→R1 ⚫ 非遗传承人创建数字分身传授濒危技艺 3.伦理治理:构建人机共生新秩序 面对指数级进化的 AI,人类需建立“三层防护体系”: ①技术免疫层 ⚫ 价值观对齐:用强化学习植入伦理准则(如“不得伤害人类”) ⚫ 反误导机制:自动检测并修正“幻觉输出” 案例:医疗 AI 拒绝提供安乐死指导 ②法律监管层 ⚫ 数字身份法:赋予 AI 实体“有限法律责任”10 积分 | 21 页 | 1.01 MB | 6 月前3
山东大学:DeepSeek 应用与部署: 技术创新—模型架构 | V3 PPO : Proximal Policy Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 ( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( Reward )。10 积分 | 79 页 | 6.52 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版大减少了人工试 错的时间,加速了设计迭代过程。在布局布线阶段,优化布局布线是集成电路设计中最为耗时的步骤之一,涉及到 芯片上数百万甚至数十亿个元器件的物理位置和连接。AI 技术可以在此阶段通过强化学习等方法,自动学习最优 的布局策略,实现快速而高效的布局布线,同时优化信号完整性、功耗和热管理等关键指标。 半导体晶圆制造过程极为复杂、精密,任何微小缺陷都可能影响芯片性能。晶圆中常见的缺陷包括表面的划痕、裂 工厂的智能化和数字化转型奠定了基础。 2.3.4 人形机器人 基础人形机器人负载 以满足需求的运动执行能力为 核心,任务相对固定,以传统 运控算法为主。 标准人形机器人负载 借助强化学习增强运动执行能 力,借助本地及云端大模型实 现覆盖场景需求的感知泛化能 力与任务生成能力。 旗舰人形机器人负载 在智能性,自主性层面增强, 在技术路径层面通过端到端模 型代替分层决策模型,整体负 也负责协调其他处理器的工作,如分配任务给 GPU 或 NPU。 45 02 英特尔 ® 技术方案 GPU/NPU 负责大脑: • 负载:VSLAM,环境感知,任务编排,自主规划,模仿学习,强化学习。 • 在人形机器人中,GPU 常用于视觉处理任务,如图像识别、视频分析、3D 建模和环境映射。 • 随着深度学习的发展,GPU 也被广泛用于加速神经网络的训练和推理过程。 • NPU 是专0 积分 | 82 页 | 5.13 MB | 5 月前3
共 7 条
- 1
