2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告核心目标是最大化下面的目标函数 ➢ 其中, 𝜋𝜃和 𝜋𝜃𝑜𝑙𝑑 分别表示当前策略模型和旧策略模型,q, o是从问题数据集和旧策略 𝜋𝜃𝑜𝑙𝑑中 采样的输入和输出, 𝐴𝑡是基于广义优势估计(GAE)计算的优势值,依赖于奖励序列 {𝑟≥t} 和学 习的价值函数𝑉𝜓 。因此,PPO需要同时训练策略模型和价值函数。为避免奖励模型的过度优化, 标准做法是在每个词元的奖励中添加与参考模型的KL惩罚项10 积分 | 76 页 | 8.39 MB | 9 月前3
共 1 条
- 1
