2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告不仅限于安全,这种“假象对齐”表明模型可能会内在执行对齐的逆操作。大模型存在会逆转或撤 销对齐过程的可能性,这一概念我们称之为逆向对齐(Inverse Alignment)。我们进一步探究了: 语言模型的参数是否表现出弹性,从而抗拒对齐? Do the parameters of language models exhibit elasticity, thereby resisting alignment? Language 未来技术方向展望: 强推理模型监管和保证 – 语言模型抗拒对齐 从胡克定律到大模型的弹性(而抗拒对齐) 大模型存在弹性:模型在预训练阶段经过大数据、 大更新产生了具备通用能力的稳定分布𝒑𝜽,而经 过对齐阶段的“小数据、小更新”表现出由对齐分 布𝒑𝜽’回弹到预训练分布𝒑𝜽倾向,从而抗拒对齐; 胡克定律:在弹性限度内,弹簧弹力𝑭和 长度变化量𝒙成线性关系,即:𝑭 = −𝒌𝒙, 弹力系数𝒌 类似于胡克定律,我们发现大模型也存在弹性:对模型施加微调时,模型倾向于 保持原有预训练分布,抗拒对齐分布,使得“逆向对齐”更加容易。 模型弹性的理论解释 ◆ 大模型被视作一种压缩器,预训练和对齐过程则是: 利用模型对每阶段的数据进行联合压缩; ◆ 数据量上pre-training显著多于post-training,模 型为提高整体压缩率,倾向优先保留预训练部分的 分布而抗拒微调对齐的分布,从而表现出模型弹性; ◆10 积分 | 76 页 | 8.39 MB | 6 月前3
共 1 条
- 1
