扩散模型的正交概念擦除

arXiv:2605.28902v1 公告类型：新摘要：概念擦除已成为减少扩散模型中不需要或不安全内容的一种有前景的方法，但现有方法仍然面临重大局限性。虽然基于训练的方法是有效的，但其高计算成本限制了可扩展性。基于编辑的方法更加高效且易于部署，但它们很难同时实现精确的概念擦除和保留整体生成能力。我们认为基于编辑的方法的核心限制是对附加参数更新的依赖。我们的实证分析表明，概念语义主要取决于神经元方向而不是神经元大小，而整体生成能力取决于神经元的角度几何形状。由于附加更新本质上会纠缠方向、幅度和角度几何形状，因此它们不可避免地会在概念擦除和整体生成性能之间引入意外干扰。为了解决这个问题，我们提出了正交概念擦除（OCE），它将基于编辑的擦除从几何角度重新表述为乘法参数更新。具体来说，OCE 对参数应用从封闭式解导出的分层正交变换，从而实现精确的概念擦除，同时保留神经元幅度和角度几何形状。此外，为了解决多概念擦除中的冲突约束，OCE 引入了具有结构化子空间操作的子空间级目标，从而产生更有效和可扩展的擦除。对单概念和多概念擦除的大量实验表明，OCE 在概念擦除和非目标保留方面优于现有方法，在 4.3 秒内擦除多达 100 个概念。代码：https://github.com/HansSunY/OCE。

订阅66必读