智能AI
morning
架构驱动的转变:走向轻量级选择器以捕获 logit 转变的趋势
2026-05-28
1 阅读
Zhong Ye, Yu Hu, Ruilin Tang
arXiv:2605.27469v1 公告类型:new 摘要:持续学习(CL)是一种利用深度预训练神经网络力量的实用范式,但哪种预训练模型具有更好的平衡“塑性-稳定性”的能力,值得选择?logit 平移作为自然代理,因为它代表了 CL 场景中的 logit 平移。然而,获得 logit 平移需要巨大的计算成本,这阻碍了大规模模型由于统一隐藏层宽度的假设,现有的理论分析无法提供有效的替代方案,从而忽略了现实世界架构的结构异质性(可变的宽度和深度),这提出了一个关键问题:在先前的任务(模型已接受过训练)上,异构架构和 logit 移位之间可以识别出什么理论上的关系? (ADS),可以用很少的数据样本很好地计算出 logit 偏移趋势,具体来说,对于先前任务的良好优化模型,较高的 ADS 与当前任务训练后较大的 logit 偏移相关,其基于三个机械组成部分:(1)权重矩阵梯度的谱范数随层宽度的缩放,(2)新任务的优化路径长度,以及(3)广泛网络中的渐近任务冲突。 175 个不同的架构展示了 ADS 和 logit 偏移之间的强单调相关性(最弱的 Spearman $r_s=0.731$)。实际上,我们证明 ADS 可以作为预期校准误差的轻量级代理,这是在六个场景的三个数据集上广泛使用的可靠 CL 模型选择指标。