智能AI
morning
一张面具统治一切:编辑后隐藏的事实以及如何找到它们
2026-05-29
1 阅读
Ali Holmov, Paul Youssef, Nandi Schoots, Christin Seifert
arXiv:2605.28839v1 公告类型:新 摘要:ROME 和 MEMIT 等知识编辑方法通过修改 MLP 权重来更新 Transformer 模型中的事实关联。虽然主要通过输出行为来评估,但其内部机制仍未得到充分探索。我们调查编辑是否依赖于通用机制,无论修改哪个事实。尽管特定于事实的权重发生了变化,但我们认为 ROME 和 MEMIT 的目标是对于维护编辑至关重要的相同权重子集。为了隔离这个子集,我们在编辑后的权重上训练一个紧凑的二进制掩码。该掩码反转了训练集上 80% 的编辑和测试集上超过 70% 的编辑,证实了不同的编辑共享共同的功能结构。我们的分析表明,蒙版通过消除后面层中的过度关注来逆转编辑。此外,我们还表明,在编辑过程中注入掩码会使编辑成功率从 98% 下降到 38%,这表明这种机制对于编辑成功是必要的。我们发现编辑会抑制而不是覆盖知识,这解释了为什么 ROME 和 MEMIT 无法将更改传播到相关事实。识别出的公共功能子空间可以通知检测和防御不需要的编辑。