全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

英伟达最难被替代的，从来不是一张 GPU，而是 CUDA 背后十几年积累出来的软件生态。现在，面壁智能想用 AI 来压缩这十几年。近日，面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍，ForgeTrain 已经在华为昇腾系列上完成 MiniCPM5-1B 的训练验证，整体速度提升10%。通过此框架， MiniCPM5-1B的预训练耗时为3-5天，MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。面壁通过此框架想要验证：当大模型 coding 能力足够强、成本趋近于零时，我们不一定要继续做一个大而全的通用框架，而可以围绕每个模型、每类芯片和每个训练任务，现场“锻造”一套更合适的实现。 AI写代码，人来加Harness 在英伟达的 VibeTensor（作者包括陈天奇、贾扬清等）证明了 AI Agent 能写出复杂系统软件后，ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架，目标更偏工程落地。面壁团队介绍了ForgeTrain的三阶段构建方法论： 1. 从现有训练框架采集关键数据形成评测标准和Harness； 2. 从评测Harness构建二进制一致的训练框架版本（目前已经完成多机多卡版本，比英伟达 Megatron 训练速度快 10%）； 3. 解除二进制一致的限制，迭代优化到超越 Megatron 的性能。按照其说法，ForgeTrain 通过搭建一套专用 Harness，让 AI 在闭环环境中不断满足评测指标，并最终写出了一套训练框架。这个过程一旦启动，人类不再参与代码编写和中间修改，而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面，算法调参尚未开始从零交给 AI。在实际效果上，ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称，在 MiniCPM 模型上，ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致，同时在核心速度和成本指标上优于英伟达 Megatron，提升10%。面壁智能 AI Infra 负责人李宇轩向 InfoQ 表示，在面壁团队的实践中，大部分工程约束是由模型自主处理的。少部分模型当前还做不到的部分，则会被融入 Harness 中，作为生成训练框架时的先验约束或评测规则。比如，在内存约束方面，AI 自己写出的框架在人的合适引导下，显存使用甚至低于 Megatron。未来，团队会逐渐提高Harness 层面中的 AI 参与比例。面壁团队在构建 Harness 时，会尽量加入更具第一性的工程方法论，让尽可能多的失败在代码生成阶段就被测出，并由 AI 自行修复，依次减少训练失败率。据介绍，从目前结果看，ForgeTrain 相对稳定，可以连续运行数天并完成模型训练。 “我们已经拿ForgeTrain训出来模型了，而且训出来的模型和我们用 Megatron 训出来的模型效果是一致的。”李宇轩表示，这直接就证明了ForgeTrain 的生产级可靠性。他进一步解释称，所谓生产级，并不是说 ForgeTrain 已经可以立刻覆盖全球所有模型训练场景，而是至少在 MiniCPM 上，它已经完成了从框架生成到实际训练再到效果验证的闭环。训练出的模型在人评和机评上与原有模型一致，因此它在该场景中已经达到了生产级水平。据悉，ForgeTrain 在内部 8B 模型的验证也已经完成，接下来团队会继续推进 MoE 等更复杂模型，向更大、更复杂模型扩展，并可能在一两个月内取得进展。当写代码没有成本，软件就应“现场锻造” 过去几年，大模型进步主要依赖三件事：更多数据、更大算力和更高资本投入。但现在，高质量互联网数据正在被快速消耗，GPU、数据中心、电力等基础设施越来越紧张，继续靠“堆资源”推动模型进化，成本越来越高，边际收益也在下降。在这种背景下，行业必须寻找新的效率来源，面壁则将目标对准了“AI 研发 AI ”。 AI 研发 AI 的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线，往往需要数天、数周甚至数月；而 AI 在部分任务上可以把效率提升 10 倍到 100 倍。如果 AI 能参与代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代甚至模型架构探索，整个 AI 研发链条就会被大幅加速。 “AI 研发 AI 研究”并非处于概念阶段，海外头部模型公司已经逐渐实践。早在 2024 年 10 月，Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一，当前Claude系列模型也实现了自我递归迭代；今年3月，Andrej Karpathy 提出并开源“自动研究员”项目，尝试让 AI 自主研究如何优化模型训练。与ForgeTrain 更偏训练框架和基础设施层不同，Karpathy 的项目主要聚焦算法层面。如何让 AI 真正接管 AI 研发？李宇轩认为，关键在于一个共识：可评测的问题最终会被 AI 解决，即只要一个问题能够被高效评测，并且能够为模型准备足够专家数据，再通过强化学习将能力回流到模型，AI 就会逐渐把这个问题做得越来越好。这一方法已经在博弈、数学、代码等领域得到验证，但AI 研发本身并没有天然存在的评测环境，AI 训练框架、算法创新、数据管线等任务往往更复杂、更昂贵，也更难被包装成一个稳定的评测系统。这正是 Harness 的意义。Harness 本质上是把一个目标包装成一整套系统：包括环境、上下文、工具、任务流程和评分标准。将 AI 放入这个系统后，它可以根据反馈不断完成任务、修正错误并提升能力。传统任务之所以更容易被 AI 学会，是因为 Harness 天然存在。比如代码任务有编译器、单元测试和运行结果；数学任务有形式化验证或标准答案；游戏任务有胜负机制。相比之下，“AI 制造 AI”没有现成 Harness，而且运行成本很高，因此发展更慢。面壁现在就是为“AI 制造 AI”建立“考场”。当 AI 研发任务能够被包装成可评测环境，AI 就可以在其中训练、试错和提升。ForgeTrain 正是在训练基础设施层面搭建这样一个 Harness 的尝试。并且，基于这一思路，面壁提出了 Forge Engineering，即“锻造工程”。此次发布的 ForgeTrain，正是 Forge Engineering 在大模型训练基础设施上的具体实践。李宇轩表示，过去软件工程追求大型通用框架，是因为人类写代码、维护代码的成本很高。一个训练框架往往需要支持大量模型结构，包括普通稠密模型、MoE 模型、不同参数规模、不同并行策略等。为了降低开发和维护成本，行业不得不把复杂功能整合进一套大而全的通用系统中。但在 AI 写代码能力快速提升后，代码生产成本正在接近于零。如果写代码已经不再是主要负担，那么就没有必要把本不该强行通用的东西捏合在一起，而可以为每一种具体需求重新生成一份最适合它的代码。这就是 Forge Engineering 的核心：并非让 AI 继续写越来越庞大的通用