智能AI morning

灾难性遗忘的机制起源:为什么强化学习比 SFT 更好地保留电路?

2026-05-29 1 阅读 Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary
arXiv:2605.28860v1 公告类型:新 摘要:微调大型语言模型 (LLM) 经常会导致对先前功能的灾难性遗忘。最近的工作表明,强化学习(RL)比监督微调(SFT)更有效地保留先验能力,这归因于策略梯度更新仍然更接近基本策略\cite{shenfeld2025rl}。我们将这种行为解释扩展到机械层面,并询问强化学习的优势是否反映在内部计算电路的更强保留上。我们引入了差分电路脆弱性,这是一种衡量电路在微调下退化程度的头级测量方法,并用它来比较适用于科学问答的 Qwen2.5-3B-Instruct 上的 RL 和 SFT。我们发现了一个明显的机制权衡:SFT 可以更快地适应目标任务,但会产生更大的电路中断和对先前功能的遗忘,而 RL 则以较慢的任务适应为代价保留了大部分基本电路。这些发现表明,电路保留可能有助于解释为什么强化学习对于灾难性遗忘更加稳健。我们在这里发布了我们的代码:https://github.com/rl-sft- Circuit-research/ Differential-Circuit-vulnerability。