智能AI morning

Soro:塔吉克斯坦的轻量级基础模型和聊天机器人

2026-05-28 1 阅读 Stanislav Liashkov, Haitz S\'aez de Oc\'ariz Borde, Azizjon Azimi, Khushbakht Shaymardonov, Shuhratjon Khalitbekov, Bonu Boboeva
arXiv:2605.27379v1 公告类型:新 摘要:我们推出 Soro,这是塔吉克斯坦专用的会话大语言模型 (LLM) 系列,专为塔吉克斯坦严格的计算和连接限制下的实际部署而设计。从开放权重 Gemma 3 检查点开始,我们对一个包含 19 亿代币的精选语料库执行仅限塔吉克语的持续预训练,该语料库涵盖过滤后的网络文本、PDF 文档和课程一致的教育材料,然后对 4 万个塔吉克语教师风格的示例进行监督指令调整。尽管标准基准中塔吉克语的覆盖范围有限,但为了实现严格的评估,我们引入了一套涵盖常识、语言能力以及中小学入学考试领域的塔吉克语基准,并在 Hugging Face 上将其开源。在这些塔吉克语基准测试中,Soro 的性能明显优于相同大小的 Gemma 3 基准,同时在标准数据集上保持了强大的英语性能。我们进一步表明,Soro 的 FP8 和 INT4 量化保留了大部分塔吉克语增益,同时减少了边缘部署的内存需求,支持正在进行的教育部门试点以及计划在塔吉克斯坦的学校进行横向扩展。