认知分类变压器：语言建模的分类理论归纳偏差

摘要

arXiv:2605.28864v1 Announce Type: new Abstract: The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded c

the that and GPT PPL

2026-05-29 1 阅读约2分钟阅读 Al Kari

arXiv:2605.28864v1 公告类型：新摘要：认知分类变换器 (CCT) 是一种 306M 参数架构，它通过源自类别论的认知基础组件和来自认知科学的一些灵感，增强了预训练的 GPT-2 Small 主干。在 WikiText-103 上的匹配步骤协议（215,000 个优化器步骤、匹配数据、匹配优化器和时间表）下，CCT 达到 21.27 验证困惑度，而同样微调的 GPT-2 Small 基线为 24.19。因此，该架构比域内微调单独提供的效果降低了 2.92 PPL（相对 12%）。从头开始的重新训练消融在整个七阶段激活计划中保持 GT-Full 单纯消息传递被绕过，达到 23.72 PPL，将 84% 的架构改进（2.92 PPL 中的 2.45）本地化到 GT-Full。我们提出了第一个经过消融验证的证据，表明简单消息传递可以改善 WikiText-103 上 306M 参数规模的语言模型复杂性。已发布的 GPT-2 Large 在 WikiText-103 上达到 22.05 零样本 PPL，参数比 GPT-2 Small 多 6.2 倍；本文将该数字视为外部发布的参考，而不是架构基准。一致性类型的分类先验（层平滑、附加往返、曲率正则化）的三个负面结果以及 GT-Full 和 PrecisionWeightedPP 的联合结构先验结果共同支持了一种称为“结构/一致性区别”的经验模式，其中添加新拓扑的分类先验改进了语言建模，而那些强制一致性恒等式的分类先验则不然。

订阅66必读