灾难性遗忘的机制起源：为什么强化学习比 SFT 更好地保留电路？

摘要

28860v1 Announce Type: new Abstract: Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities。

circuit the and tuning forgetting

2026-05-29 1 阅读约1分钟阅读 Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary

arXiv:2605.28860v1 公告类型：新摘要：微调大型语言模型 (LLM) 经常会导致对先前功能的灾难性遗忘。最近的工作表明，强化学习（RL）比监督微调（SFT）更有效地保留先验能力，这归因于策略梯度更新仍然更接近基本策略\cite{shenfeld2025rl}。我们将这种行为解释扩展到机械层面，并询问强化学习的优势是否反映在内部计算电路的更强保留上。我们引入了差分电路脆弱性，这是一种衡量电路在微调下退化程度的头级测量方法，并用它来比较适用于科学问答的 Qwen2.5-3B-Instruct 上的 RL 和 SFT。我们发现了一个明显的机制权衡：SFT 可以更快地适应目标任务，但会产生更大的电路中断和对先前功能的遗忘，而 RL 则以较慢的任务适应为代价保留了大部分基本电路。这些发现表明，电路保留可能有助于解释为什么强化学习对于灾难性遗忘更加稳健。我们在这里发布了我们的代码：https://github.com/rl-sft- Circuit-research/ Differential-Circuit-vulnerability。

订阅66必读