2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告Result ➢ 二者都关注RL的方法带来的提升,MCTS 和 PRM 没有被使用 (Reward Hacking 的考虑) ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入 Inductive Bias 强求LLM按照结构化先验进 行思考可能会限制模型的能力; ➢ PRM 容易被 Reward Hacking, 且 绝对值 Value 很难准确 ➢ Kimi 相比于利用MCTS造数据,直接将MCTS 应用于模型的训练 可能会限制模型的思考过程? ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入 Inductive Bias 强求LLM按照人为的结构化先验进行思 考可能会限制模型的能力; ➢ 不通过额外的Structure, 模型自身是否可以学会思考: ➢ Algorithm Distillation: 将RL的10 积分 | 76 页 | 8.39 MB | 9 月前3
共 1 条
- 1
