Loading...
本文分析了大型语言模型(LLM)微调中的学习动力学,提出了统一框架解释指令微调和偏好微调中的现象,包括幻觉增强、重复短语和“挤压效应”。通过对softmax层负梯度的影响,揭示了off-policy ...