2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告数据量上pre-training显著多于post-training,模 型为提高整体压缩率,倾向优先保留预训练部分的 分布而抗拒微调对齐的分布,从而表现出模型弹性; ◆ 理论上发现:当对齐模型受到扰动时,模型对于预 训练数据集𝐷1的压缩率变化显著小于对齐数据集𝐷2, 且两者之比与 |𝑫𝟐| /|𝑫𝟏| 同阶; 从直觉上考虑: 在一个有大都市和郊区村落的地区,为了最大化 整个地区的经济生产力,我们会倾向于将资源优10 积分 | 76 页 | 8.39 MB | 7 月前3
共 1 条
- 1
