北大:DeepSeek-R1及类强推理模型开发解读随着训练步数的增长,模型的 thinking response length 逐 渐增加(对应着 test-time computation increasing ) Aha moment: 自然学会增加更多的推理时间,反思评价先前步骤、 探索其他方法 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 训练步数的增长,模型的 thinking response length 逐渐增加 (test-time computation increasing) DeepSeek-R1-Zero 自主涌现学会重新评测原来的方法、反思和主动探索其他的路径 多阶段训练下的冷启动让 RL 训练更加稳定,避免初期不稳定、加速收敛、提升思维链可读性 未来后训练的重心会逐步倾向于 RL ,但是少量训练用于 SFT Structure, 人为加 入 Inductive Bias 强求 LLM 按照人为的结构化先验进行思 考可能会限制模型的能力; 不通过额外的 Structure, 模型自身是否可以学会思考: Algorithm Distillation: 将 RL 的 Training History 序列直 接 建模到语言模型中,学习到 Data-Efficient RL 算法 Stream10 积分 | 76 页 | 6.72 MB | 5 月前3
解码DeepSeek构建医药行业新质生产力从海量数据中提炼⾼价值信息,提升模 型 学习 效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模 型 GRPO( 群体相对策略优 化 ) • ⼤道⾄简,⽤强化学习跳出题海和⼩ 测 让模型⾃⼰学会 思考 DeepSeek 的创新突破 效果体验惊艳,成本极致压缩 8 成本优势 技术震撼 开源引爆 垂直适配 • 550 万美元预训练成 本达到 GPT-4 级别性 能,0 积分 | 32 页 | 3.98 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告提升训练速度同时保持精度,降低硬件门槛 FPBn混合精度训练 • 从海量数据中提炼⾼价值信息,提升模型 学习效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模型 数据蒸馏技术 • ⼤道⾄简,⽤强化学习跳出题海和⼩测 让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳,成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 • 550万美元预训练成 本达到GPT-4级别性 能,打破“算⼒军备 竞赛”魔咒10 积分 | 32 页 | 14.20 MB | 5 月前3
2025具身机器人行业未来展望报告遥操作-VR+动捕服加速特斯拉Optimus训练 05 30 资料来源:机器之心、映维网、浙商证券产业研究院 2024年5月,特斯拉发布了Optimus人型机器人的演示视频中,展示了二代Optimus学会了分装电池,并且比以前走得更快更远更稳。特斯拉表示, Optimus人型机器人的训练数据都是来自穿戴VR头显的人类训练员。可以看到,完整的系统集成了VR头显、传感器、手套、动捕服和相关软件。 通0 积分 | 31 页 | 3.33 MB | 5 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会个物种 政企、创业者必读 快思考 慢思考 快 慢 人类真正智力表现 的形式 直觉经验型 速度快、准确性低 GPT、DeepSeek-V3擅长的 思考方式 推理能力获得突破的关键是学会了「慢思考」 例:课堂提问 快问快答 长思维链强大的推理能力是真正人类智力的体现 预训练大模型是人记忆和学习的能力,推理模型是对复杂问题 进行规划、分解、预测的能力,实现了真正的慢思考10 积分 | 76 页 | 5.02 MB | 5 月前3
2025年自动化人工智能报告对于使这些机器在实际环境中具有可行性至关重要 。极低的能耗将是核心竞争力,使得它们能够持续 运行并具备所需的效率来应对分配给它们的任务。 延迟也将是关键: 现在是开始构建您的机器人未来的时刻。随着通才学会在新环 境中导航、与其中的人建立联系,并通过自主“思考”解决问题 ,他们的范围和影响将迅速而大幅扩展。机器人即将进入他们 以前从未到达过的地方,而您需要重新构想您的业务以适应这 个新世界。 acy-nightmare-7-reaso ns-you-can-stop-worrying-about-it/ 50. Moskvitch, K. (2017, February 15). 机器学会了倾听。BBC: https://www.bbc.co m/future/article/20170214-the-machines-that- learned-to-listen 51. Sa10 积分 | 66 页 | 5.50 MB | 5 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代据结 果得到奖励或惩罚,从而学习哪些动作是好的,哪些是不好的。这种方法最早依托于“深度Q网络”(DQN)应用 在Atari游戏中,通过学习来控制游戏中的角色。 在自动驾驶中,强化学习的目标是让车辆学会在复杂多变的交通环境中做出最优决策,例如如何转弯、加速、刹 车等。由于驾驶过程中存在众多不确定因素,如交通流量、路况变化等,决策任务极为复杂。强化学习通过让系 统与环境互动,不断优化驾驶策略,从而提高驾驶的舒适性和安全性。 大的灵活性。同时,系统可以根据驾驶模式选择性地 调整路感反馈,优化驾驶体验,使驾驶过程更加轻松和舒适。 请务必阅读正文之后的免责条款部分 图91:线控转向技术演进过程 资料来源:中国汽车工程学会标准,汽车技研,盖世汽车社区,国元证券研究所 线控转向是L4级及以上自动驾驶必备,尚处起步阶段 86 机械液压助力转向 (HPS) 电子助力转向 (EPS) 电子液压助力转向 (EHPS)10 积分 | 95 页 | 6.54 MB | 5 月前3
2024年中国人工智能产业研究报告输出音频,支持灵活的双工交互。 未来在直接视频分析及交互领域是跨模态、多模态领域新的突破方向。 • 2024年OpenAI发布GPT o系列,通过大规模强化学习算法让模型在数据 高效训练过程中学会更好应用内部思维链(CoT,Chain of Thoughts), 在解决复杂问题时表现更加出色,但彼时尚未公开技术细节。而2025年初, DeepSeek开源R1系列推理思考模型,将思维链过程开放公开,极大推动0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告输出音频,支持灵活的双工交互。 未来在直接视频分析及交互领域是跨模态、多模态领域新的突破方向。 • 2024年OpenAI发布GPT o系列,通过大规模强化学习算法让模型在数据 高效训练过程中学会更好应用内部思维链(CoT,Chain of Thoughts), 在解决复杂问题时表现更加出色,但彼时尚未公开技术细节。而2025年初, DeepSeek开源R1系列推理思考模型,将思维链过程开放公开,极大推动10 积分 | 51 页 | 3.35 MB | 6 月前3
人形机器人标准化白皮书(2024版)Society,负责制定机器人相关标准,其发布标准主要关 于机器人自动化本体、任务表示、伦理驱动的机器人及自动化系统、 自动系统透明度、地图数据表示以及电力系统与医疗电气系统用机器 人等。 美国材料试验学会 ASTM 在 2014 年成立的 Committee F45 on Robotics, Automation, and Autonomous Systems 负责制定工业/商业 机器人、自动化0 积分 | 93 页 | 3.74 MB | 5 月前3
共 12 条
- 1
- 2
