学会 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

北大：DeepSeek-R1及类强推理模型开发解读

随着训练步数的增长，模型的 thinking response length 逐渐增加（对应着 test-time computation increasing ） Aha moment: 自然学会增加更多的推理时间，反思评价先前步骤、探索其他方法 DeepSeek-R1 Zero: 无需监督微调 SFT ，纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析： DeepSeek-R1 训练步数的增长，模型的 thinking response length 逐渐增加 (test-time computation increasing) DeepSeek-R1-Zero 自主涌现学会重新评测原来的方法、反思和主动探索其他的路径多阶段训练下的冷启动让 RL 训练更加稳定，避免初期不稳定、加速收敛、提升思维链可读性未来后训练的重心会逐步倾向于 RL ，但是少量训练用于 SFT Structure, 人为加入 Inductive Bias 强求 LLM 按照人为的结构化先验进行思考可能会限制模型的能力；不通过额外的 Structure, 模型自身是否可以学会思考： Algorithm Distillation: 将 RL 的 Training History 序列直接建模到语言模型中，学习到 Data-Efficient RL 算法 Stream

10 积分 | 76 页 | 6.72 MB | 10 月前
3
解码DeepSeek构建医药行业新质生产力

从海量数据中提炼⾼价值信息，提升模型学习效率 • 蒸馏垂类⼩模型能⼒，不输于全尺⼨模型 GRPO( 群体相对策略优化 ) • ⼤道⾄简，⽤强化学习跳出题海和⼩测让模型⾃⼰学会思考 DeepSeek 的创新突破效果体验惊艳，成本极致压缩 8 成本优势技术震撼开源引爆垂直适配 • 550 万美元预训练成本达到 GPT-4 级别性能，

0 积分 | 32 页 | 3.98 MB | 10 月前
3
腾讯云：2025年解码DeepSeek构建医药行业新质生产力报告

提升训练速度同时保持精度，降低硬件门槛 FPBn混合精度训练 • 从海量数据中提炼⾼价值信息，提升模型学习效率 • 蒸馏垂类⼩模型能⼒，不输于全尺⼨模型数据蒸馏技术 • ⼤道⾄简，⽤强化学习跳出题海和⼩测让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳，成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 • 550万美元预训练成本达到GPT-4级别性能，打破“算⼒军备竞赛”魔咒

10 积分 | 32 页 | 14.20 MB | 10 月前
3
2025具身机器人行业未来展望报告

遥操作-VR+动捕服加速特斯拉Optimus训练 05 30 资料来源：机器之心、映维网、浙商证券产业研究院 2024年5月，特斯拉发布了Optimus人型机器人的演示视频中，展示了二代Optimus学会了分装电池，并且比以前走得更快更远更稳。特斯拉表示， Optimus人型机器人的训练数据都是来自穿戴VR头显的人类训练员。可以看到，完整的系统集成了VR头显、传感器、手套、动捕服和相关软件。通

0 积分 | 31 页 | 3.33 MB | 9 月前
3
2025年DeepSeek手册：DeepSeek给我们带来的创业机会

个物种政企、创业者必读快思考慢思考快慢人类真正智力表现的形式直觉经验型速度快、准确性低 GPT、DeepSeek-V3擅长的思考方式推理能力获得突破的关键是学会了「慢思考」例：课堂提问快问快答  长思维链强大的推理能力是真正人类智力的体现  预训练大模型是人记忆和学习的能力，推理模型是对复杂问题进行规划、分解、预测的能力，实现了真正的慢思考

10 积分 | 76 页 | 5.02 MB | 10 月前
3
2025年自动化人工智能报告

对于使这些机器在实际环境中具有可行性至关重要。极低的能耗将是核心竞争力，使得它们能够持续运行并具备所需的效率来应对分配给它们的任务。延迟也将是关键：现在是开始构建您的机器人未来的时刻。随着通才学会在新环境中导航、与其中的人建立联系，并通过自主“思考”解决问题，他们的范围和影响将迅速而大幅扩展。机器人即将进入他们以前从未到达过的地方，而您需要重新构想您的业务以适应这个新世界。 acy-nightmare-7-reaso ns-you-can-stop-worrying-about-it/ 50. Moskvitch, K. (2017, February 15). 机器学会了倾听。BBC: https://www.bbc.co m/future/article/20170214-the-machines-that- learned-to-listen 51. Sa

10 积分 | 66 页 | 5.50 MB | 10 月前
3
国元证券-汽车智能驾驶行业深度报告：端到端与AI共振，智驾平权开启新时代

据结果得到奖励或惩罚，从而学习哪些动作是好的，哪些是不好的。这种方法最早依托于“深度Q网络”（DQN）应用在Atari游戏中，通过学习来控制游戏中的角色。在自动驾驶中，强化学习的目标是让车辆学会在复杂多变的交通环境中做出最优决策，例如如何转弯、加速、刹车等。由于驾驶过程中存在众多不确定因素，如交通流量、路况变化等，决策任务极为复杂。强化学习通过让系统与环境互动，不断优化驾驶策略，从而提高驾驶的舒适性和安全性。大的灵活性。同时，系统可以根据驾驶模式选择性地调整路感反馈，优化驾驶体验，使驾驶过程更加轻松和舒适。请务必阅读正文之后的免责条款部分图91：线控转向技术演进过程资料来源：中国汽车工程学会标准，汽车技研，盖世汽车社区，国元证券研究所线控转向是L4级及以上自动驾驶必备，尚处起步阶段 86 机械液压助力转向（HPS）电子助力转向（EPS）电子液压助力转向（EHPS）

10 积分 | 95 页 | 6.54 MB | 10 月前
3
2024年中国人工智能产业研究报告

输出音频，支持灵活的双工交互。未来在直接视频分析及交互领域是跨模态、多模态领域新的突破方向。 • 2024年OpenAI发布GPT o系列，通过大规模强化学习算法让模型在数据高效训练过程中学会更好应用内部思维链（CoT，Chain of Thoughts），在解决复杂问题时表现更加出色，但彼时尚未公开技术细节。而2025年初， DeepSeek开源R1系列推理思考模型，将思维链过程开放公开，极大推动

0 积分 | 51 页 | 3.35 MB | 10 月前
3
2024年中国人工智能产业研究报告

输出音频，支持灵活的双工交互。未来在直接视频分析及交互领域是跨模态、多模态领域新的突破方向。 • 2024年OpenAI发布GPT o系列，通过大规模强化学习算法让模型在数据高效训练过程中学会更好应用内部思维链（CoT，Chain of Thoughts），在解决复杂问题时表现更加出色，但彼时尚未公开技术细节。而2025年初， DeepSeek开源R1系列推理思考模型，将思维链过程开放公开，极大推动

10 积分 | 51 页 | 3.35 MB | 10 月前
3
人形机器人标准化白皮书（2024版）

Society，负责制定机器人相关标准，其发布标准主要关于机器人自动化本体、任务表示、伦理驱动的机器人及自动化系统、自动系统透明度、地图数据表示以及电力系统与医疗电气系统用机器人等。美国材料试验学会 ASTM 在 2014 年成立的 Committee F45 on Robotics, Automation, and Autonomous Systems 负责制定工业/商业机器人、自动化

0 积分 | 93 页 | 3.74 MB | 10 月前
3

共 12 条前往

页

分类

语言

格式

北大：DeepSeek-R1及类强推理模型开发解读

解码DeepSeek构建医药行业新质生产力

腾讯云：2025年解码DeepSeek构建医药行业新质生产力报告

2025具身机器人行业未来展望报告

2025年DeepSeek手册：DeepSeek给我们带来的创业机会

2025年自动化人工智能报告

国元证券-汽车智能驾驶行业深度报告：端到端与AI共振，智驾平权开启新时代

2024年中国人工智能产业研究报告

2024年中国人工智能产业研究报告

人形机器人标准化白皮书（2024版）