架构驱动的转变：走向轻量级选择器以捕获 logit 转变的趋势

摘要

arXiv:2605.27469v1 Announce Type: new Abstract: Continual Learning (CL) is a practical paradigm to utilize power of deep pre-trained neural networks, but which pre-trained model has a better ability t

the logit shift which model

2026-05-28 1 阅读约1分钟阅读 Zhong Ye, Yu Hu, Ruilin Tang

arXiv:2605.27469v1 公告类型：new 摘要：持续学习（CL）是一种利用深度预训练神经网络力量的实用范式，但哪种预训练模型具有更好的平衡“塑性-稳定性”的能力，值得选择？logit 平移作为自然代理，因为它代表了 CL 场景中的 logit 平移。然而，获得 logit 平移需要巨大的计算成本，这阻碍了大规模模型由于统一隐藏层宽度的假设，现有的理论分析无法提供有效的替代方案，从而忽略了现实世界架构的结构异质性（可变的宽度和深度），这提出了一个关键问题：在先前的任务（模型已接受过训练）上，异构架构和 logit 移位之间可以识别出什么理论上的关系？（ADS），可以用很少的数据样本很好地计算出 logit 偏移趋势，具体来说，对于先前任务的良好优化模型，较高的 ADS 与当前任务训练后较大的 logit 偏移相关，其基于三个机械组成部分：（1）权重矩阵梯度的谱范数随层宽度的缩放，（2）新任务的优化路径长度，以及（3）广泛网络中的渐近任务冲突。 175 个不同的架构展示了 ADS 和 logit 偏移之间的强单调相关性（最弱的 Spearman $r_s=0.731$）。实际上，我们证明 ADS 可以作为预期校准误差的轻量级代理，这是在六个场景的三个数据集上广泛使用的可靠 CL 模型选择指标。

订阅66必读