Loading...
本文分析了大型语言模型(LLM)微调中的学习动力学,提出了统一框架解释指令微调和偏好微调中的现象,包括幻觉增强、重复短语和“挤压效应”。通过对softmax层负梯度的影响,揭示了off-policy DPO中置信度下降的机制,并解释了on-policy DPO的优势。实验中观察到,模型在微调过程中对特定响应的概率变化,验证了“挤压效应”的存在,为提升模型对齐性能提供了理论基础和实践方法。