RULER：机器遗忘的表示级验证

arXiv:2605.27569v1 公告类型：新摘要：机器取消学习旨在从已部署的模型中消除特定训练记录的影响，而无需从头开始重新训练。当前的协议通过成员推理、保留准确性和遗忘集准确性在输出级别验证这一点，但模型可以满足所有这三个要求，同时仍然在其中间表示中编码遗忘的记录。我们引入了 RULER，一组表示级验证指标。预言机比较度量 M2 衡量遗忘集记录是否占据与在没有它们的情况下重新训练的模型中相同的表示位置。无预言机度量 M4 单独检测未学习模型的内部相似性结构的残差，无需重新训练。四种近似遗忘方法都通过了输出级别评估，但在线性混合效应模型下，M2 在 12 个条件中的 10 个条件下检测到显着残差 (p<0.05)，效应大小随着遗忘分数的增加而增加。第五种方法“坏老师”，尽管遗忘机制不同，但仍显示出相同的残差。 M4 充当跨表格、图像、临床文本和面部身份设置的预遗忘诊断：它检测面部识别模型中的身份级别记忆，其中没有经过测试的方法可以完全擦除信号。