智能AI morning

认知分类变压器:语言建模的分类理论归纳偏差

2026-05-29 1 阅读 Al Kari
arXiv:2605.28864v1 公告类型:新 摘要:认知分类变换器 (CCT) 是一种 306M 参数架构,它通过源自类别论的认知基础组件和来自认知科学的一些灵感,增强了预训练的 GPT-2 Small 主干。在 WikiText-103 上的匹配步骤协议(215,000 个优化器步骤、匹配数据、匹配优化器和时间表)下,CCT 达到 21.27 验证困惑度,而同样微调的 GPT-2 Small 基线为 24.19。因此,该架构比域内微调单独提供的效果降低了 2.92 PPL(相对 12%)。从头开始的重新训练消融在整个七阶段激活计划中保持 GT-Full 单纯消息传递被绕过,达到 23.72 PPL,将 84% 的架构改进(2.92 PPL 中的 2.45)本地化到 GT-Full。我们提出了第一个经过消融验证的证据,表明简单消息传递可以改善 WikiText-103 上 306M 参数规模的语言模型复杂性。已发布的 GPT-2 Large 在 WikiText-103 上达到 22.05 零样本 PPL,参数比 GPT-2 Small 多 6.2 倍;本文将该数字视为外部发布的参考,而不是架构基准。一致性类型的分类先验(层平滑、附加往返、曲率正则化)的三个负面结果以及 GT-Full 和 PrecisionWeightedPP 的联合结构先验结果共同支持了一种称为“结构/一致性区别”的经验模式,其中添加新拓扑的分类先验改进了语言建模,而那些强制一致性恒等式的分类先验则不然。