GEM：几何熵混合用于优化 LLM 数据管理

2026-05-27 1 阅读 Yue Min, Ziyun Qiao, Ruining Chen, Yujun Li

arXiv:2605.26121v1 公告类型：新摘要：LLM 预训练效果越来越依赖于数据组成而不是纯粹的数据量。然而，最佳混合受到分类缺陷的阻碍：人类分类法遭受本体论错位，而欧几里得聚类无法解决嵌入各向异性。我们引入了 GEM（几何熵混合），这是一个框架，将数据管理重新表述为通过混合平衡正则器增强的超球面上的变分问题。通过解耦生成先验并通过可证明的 MM（最小化-最大化）算法优化目标，GEM 有效地抵消了簇崩溃，以发现欧几里得启发式不可见的平衡语义结构。我们采用师生蒸馏将这种几何保真度扩展到网络规模的语料库，并引入几何影响分数（GIS）来生成可解释的分类法。 1.1B 参数模型的实验表明，GEM 在集成到 DoReMi 和 RegMix 等混合策略中时建立了一种新的最先进技术，将平均下游精度提高了高达 1.2%，并为可预测的数据混合提供了强大的坐标系统。