一张面具统治一切：编辑后隐藏的事实以及如何找到它们

摘要

28839v1 Announce Type: new Abstract: Knowledge editing methods such as ROME and MEMIT update factual associations in transformer models by modifying MLP weights。

edits that the and mask

2026-05-29 1 阅读约1分钟阅读 Ali Holmov, Paul Youssef, Nandi Schoots, Christin Seifert

arXiv:2605.28839v1 公告类型：新摘要：ROME 和 MEMIT 等知识编辑方法通过修改 MLP 权重来更新 Transformer 模型中的事实关联。虽然主要通过输出行为来评估，但其内部机制仍未得到充分探索。我们调查编辑是否依赖于通用机制，无论修改哪个事实。尽管特定于事实的权重发生了变化，但我们认为 ROME 和 MEMIT 的目标是对于维护编辑至关重要的相同权重子集。为了隔离这个子集，我们在编辑后的权重上训练一个紧凑的二进制掩码。该掩码反转了训练集上 80% 的编辑和测试集上超过 70% 的编辑，证实了不同的编辑共享共同的功能结构。我们的分析表明，蒙版通过消除后面层中的过度关注来逆转编辑。此外，我们还表明，在编辑过程中注入掩码会使编辑成功率从 98% 下降到 38%，这表明这种机制对于编辑成功是必要的。我们发现编辑会抑制而不是覆盖知识，这解释了为什么 ROME 和 MEMIT 无法将更改传播到相关事实。识别出的公共功能子空间可以通知检测和防御不需要的编辑。

订阅66必读