北大:DeepSeek-R1及类强推理模型开发解读技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: 和 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; Laws [1] 。 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 8 大规模推理为中心的强化学习,提升模型数学代码能力 RL 驱动下自然涌现长文本推理能力10 积分 | 76 页 | 6.72 MB | 5 月前3
信通院:“机器人+人工智能”工业应用研究报告2025行 自我调整和优化。从模型架构来看,结构相对简单、参数较少的机器 学习模型正在转化为多层级、大参数量的深度学习、强化学习模型, 学习方法也从手动数据标记转变为自动的数据特征提取。从支撑要素 来看,机器学习对于数据和算力的需求较小,训练时间也相对较短, 而深度学习、强化学习则需要高性能的 GPU、TPU 等算力支撑,数据 需求也增长至百万量级。从应用场景来看,机器学习能够广泛用于各 类 交互技术的语言类模型虽然较为成熟,但是主要用于陪伴对话、教育 辅导、智能家居等服务型场景,而由于可靠性要求高、工业知识积累 6 不足等限制,尚未在工业中大规模应用。在推理决策方面,基于深度 学习、强化学习的方法,机器人可以通过训练学习数据以模仿人类, 甚至通过与操作对象或环境进行交互实现非结构性的复杂操作和自 主导航。 2、三种应用模型及其组合催生出多种功能的机器人 运动控制类模型推动传统工业机器人升级为“能精细化控制”的 实现传统机器人无法实现的焊接、喷涂和装配等操作,如喷涂机器人 通过学习大量的喷涂数据和工件表面特征,实现对复杂工件的精准轨 迹规划;焊接机器人能够根据焊接过程中遇到的不同情况进行自我调 整,以达到最佳的焊接效果;装配机器人利用强化学习算法,在装配 过程中自主学习轴孔装配技能,通过在线辨识控制器的最优参数,提 高装配操作质量。二是自主导航类,随着激光地图建模技术不断成熟, 基于地图开展移动路径设计的自主导航功能也实现广泛应用,发展出0 积分 | 37 页 | 2.06 MB | 5 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会认为大模型的能力无法进一步得到质的提升 开辟强化学习新范式 从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的 预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law • 利用合成数据解决数据用尽问题 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26 政企、创业者必读 预训练模型如GPT——疯狂读书,积 累知识,Scaling law撞墙 预训练模型思考深度不够 算力见顶,变成少数巨头游戏 预训练大模型 预训练大模型 推理大模型 预训练大模型难以通往AGI之路 推理模型如R1——通过逻辑链条推导答案, 分解规划,自我反思 预训练范式像是记忆和模仿,强化学习范 式更像探索实践 记住很多东西只是基础,真正有价值的是 融会贯通 R1找到了人类通往AGI的方向 DeepSeek颠覆式创新——技术创新 27 DeepSeek-R1和GPT-4o不是同一个物种 政企、创业者必读 快思考10 积分 | 76 页 | 5.02 MB | 5 月前3
解码DeepSeek构建医药行业新质生产力BERT 在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗 AI 小模型年代主要技术路线 “ 大数据、小算力、专用决策” DeepSeek-R1 基于 DS-v3 构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI 技术演变 路线 数据来源: 1. 甲⼦光年智库梳理, 2023 年; 5 体验: 哎哟 不错噢 低成本,超出⽤户预期的“智能” 增长:破圈,两个⽉到⼀亿⽤户的速度 快速推出全家桶和云服务矩阵 市场:典型的 B 端商业模式 快速市场预热和商业化 Prompt engineering 提⽰词⼯程 Nvidia A100 ( A800 ) ⾼性 能卡 RLHF 强化学习 SFT RDMA 监督微调 解决数据处理的延迟 顶尖的 AI ⼈才 提升训练速度同时保持精度,降低硬件门槛 数据蒸馏技术 • 从海量数据中提炼⾼价值信息,提升模 型 学习 效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模 型 GRPO( 群体相对策略优 化 ) • ⼤道⾄简,⽤强化学习跳出题海和⼩ 测 让模型⾃⼰学会 思考 DeepSeek 的创新突破 效果体验惊艳,成本极致压缩 8 成本优势 技术震撼 开源引爆 垂直适配 • 550 万美元预训练成 本达到0 积分 | 32 页 | 3.98 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” 基于DS-v3构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI技术演变路线 5 理解Chatgpt,J⼀个AI领域的“⼯程奇迹” Chatbot: ⽂本交互式应⽤ Gpt3: 预训练⼤模型 Prompt engineering 提⽰词⼯程 RLHF 强化学习 Nvidia A100(A800) ⾼性能卡 SFT 监督微调 RDMA 提升训练速度同时保持精度,降低硬件门槛 FPBn混合精度训练 • 从海量数据中提炼⾼价值信息,提升模型 学习效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模型 数据蒸馏技术 • ⼤道⾄简,⽤强化学习跳出题海和⼩测 让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳,成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 • 550万美元预训练成 本达到GPT-4级别性 患者新旅程:终端+数据+AI+服务,AI串联全流程,激发新需求 19 “精益求精”⽤户画像 “细致⼊微”⾏为管理 “极致简化”服务路径 DeepSeek对于医疗体系有那些影响?-医⽣ • 学习/培训模式发⽣改变→交互性、个性化学习 模式 • 医⽣临床决策影响模式发⽣改变→从经验驱动 →基于医学搜索、循证医学证据的驱动 • 科研与学术⽅式和效率→通过⼤模型进⾏科研 课题筛选、⽂献收集、数据结构化提取和分析、 摘要及初稿撰写等10 积分 | 32 页 | 14.20 MB | 5 月前3
2024年中国人工智能产业研究报告众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期 大模型应用逻辑:1)替代逻辑-小模型既有场景,但大 模型的效果更好 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 com.cn 中国人工智能产业技术环境(2/2) Scaling Law是否失效?思维链、强化学习、后训练可提升模型训练ROI 来源:艾瑞咨询研究院自主研究绘制。 AI技术动态 Scaling Law 演进:Scaling未到尽头,各家仍在积极探索,探索大模型能力边界 思维链 CoT 优化:强化学习完成推理侧优化,在复杂计算、科学研究等方向持续加强 跨模态响应:将大语言模型、视觉理解模型及和视觉生成模型等能力实现高阶融合0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期 大模型应用逻辑:1)替代逻辑-小模型既有场景,但大 模型的效果更好 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 com.cn 中国人工智能产业技术环境(2/2) Scaling Law是否失效?思维链、强化学习、后训练可提升模型训练ROI 来源:艾瑞咨询研究院自主研究绘制。 AI技术动态 Scaling Law 演进:Scaling未到尽头,各家仍在积极探索,探索大模型能力边界 思维链 CoT 优化:强化学习完成推理侧优化,在复杂计算、科学研究等方向持续加强 跨模态响应:将大语言模型、视觉理解模型及和视觉生成模型等能力实现高阶融合10 积分 | 51 页 | 3.35 MB | 6 月前3
5G +AI投资策略研究报告面板材料:偏光片国产化获突破,将进入高速替代期 资料来源:HIS,三利谱,国泰君安证券研究 偏光片国产化替代加速:偏光片是液晶面板关键原材料之一,占面板总成本的12%~15%,市场主要被日韩企业垄断,主要供应商包括LG化 学、住友化学、日东电工,三家厂商占据全球约60%的市场份额。随着国内厂商的不断突破,国产偏光片正在逐步突破大陆面板厂商,三利 谱作为国内偏光片龙头,2018年顺利切入京东方和HKC,实现了国内大尺寸偏光片从零 ,及足 够的硬度。可采用 CPI去替代现有玻璃盖板,CPI本身具有不错的可折叠性,但是PI材料无法满足硬度要求,PI膜表面需要增加 涂层来增强硬度。预计三星电子的首款折叠屏手机的透明PI膜将会由住友化学来供应。受益标的:新纶科技; 2)铰链:铰链要保证可折叠屏手机在折叠以后保持一定的R角,翻开之后又要保持平整,而且还需要经得起10万次以上的折叠 测试。铰链设计非常难,据KIPO称,韩国与折叠面板 ,但是难以做窄边框、蚀刻痕明显。预计未来柔性In- cell是未来的主要方向,即把触控电极直接做在柔性封装层上。 变化 传统手机 可折叠手机 三星可折叠手机供应商 1 盖板玻璃 透明PI膜 住友化学 2 偏光片 偏光膜 日东电工 3 传统光学胶OCA 新型光学胶OCA 三星SDI 4 无铰链 铰链(Hinge) KH Vatec 可折叠手机材料变化 资料来源:国泰君安证券研究 传统聚酰亚胺材料10 积分 | 206 页 | 10.47 MB | 5 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代通过摄像头图像直接输出转向指令。这是端到端技术的早期 尝试,标志着自动驾驶从模块化向一体化迈进的起点。 2017年:Wayve.AI成立并发布“Learning to Drive in a Day”。Wayve.AI采用强化学习结合深度学习的方法,仅用 一天时间训练即可应对复杂城市驾驶场景,展示了端到端技 术在快速学习和适应能力上的潜力。 2017 年 : Comma.ai 推 出 OpenPilot 。 Comma.ai 知、预测和规划模 块,进一步提升了复杂场景下的环境理解和决策能力。 Pipeline架构 MontionFormer Planner OccFormer 请务必阅读正文之后的免责条款部分 强化学习(RL) 策略蒸馏 多模态/先进结构 合成数据 模仿学习(IL) 条件模仿学习 泛化 可解释性 策略预训练 模块化端到端 图4:端到端发展历程 资料来源:Chen L, Wu P, Chitta 利用相机和激光测距仪的输入,通过简单神经网络生成转向指令。 2016年,英伟达开发了端到端CNN原型系统,推动了这一概念在GPU计算时代的发展。随着深度神经网络的进步,端到端自动驾 驶在模仿学习和强化学习方面取得突破,LBC中的策略蒸馏方法通过模仿优秀专家,提升了闭环性能。 为增强系统的泛化能力,尤其是针对专家策略和学习策略之间的差异,业内研究提出了在训练过程中聚合在线数据的策略。 2021年左10 积分 | 95 页 | 6.54 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025它做到这个水平只用到少得多的资源,所以价格十分便宜 • 它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门 • DeepSeek深度求索公司是一家纯粹的中国公司 混合专家 MOE 多头潜在注意力 MLA 强化学习 GRPO Deepseek官网地址: http://ai.com https://chat.deepseek.com DeepSeek-R1 训练技术全部公开,论文链接: https://github Pre-trained (预训练) Transformer (变换器) LLM:Large Language Model GPT工作原理-2 预训练 (自监督) 监督微调 人类反馈 强化学习 接收输入 处理输入 进行推理 生成输出 上下文 + 训练知识 阶段1:模型训练 阶段2:推理 大模型工作过程 GPT工作原理-3 数据来源 说明 维基百科 在线百科,严谨 图书 推理模型(DeepSeek-R1)工作原理 让模型进行慢思考 思维链 (Chain of Thought) 在不损失能力的情况下缩小模型 蒸馏 (Distillation) 让模型自我探索和训练 强化学习 (Reinforcement Learning) l DeepSeek R1论文:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R110 积分 | 57 页 | 9.65 MB | 5 月前3
共 20 条
- 1
- 2
