全球首个完全AI编写的训练框架来了,速度反超英伟达:面壁要用 AI 把国产算力软件重写一遍

2026-05-28 1 阅读 褚杏娟
英伟达最难被替代的,从来不是一张 GPU,而是 CUDA 背后十几年积累出来的软件生态。 现在,面壁智能想用 AI 来压缩这十几年。 近日,面壁智能发布了全球首个全部由 AI 编写、零人介入、面向大模型训练基础设施的生产级训练框架 ForgeTrain。据面壁方面介绍,ForgeTrain 已经在华为昇腾系列上完成 MiniCPM5-1B 的训练验证,整体速度提升10%。通过此框架, MiniCPM5-1B的预训练耗时为3-5天,MiniCPM4-0.5B 在英伟达 GPU上预训练用了两天。 面壁通过此框架想要验证:当大模型 coding 能力足够强、成本趋近于零时,我们不一定要继续做一个大而全的通用框架,而可以围绕每个模型、每类芯片和每个训练任务,现场“锻造”一套更合适的实现。 AI写代码,人来加Harness 在英伟达的 VibeTensor(作者包括陈天奇、贾扬清等)证明了 AI Agent 能写出复杂系统软件后,ForgeTrain 则围绕具体模型、芯片和训练任务现场生成生产级训练框架,目标更偏工程落地。 面壁团队介绍了ForgeTrain的三阶段构建方法论: 1. 从现有训练框架采集关键数据形成评测标准和Harness; 2. 从评测Harness构建二进制一致的训练框架版本(目前已经完成多机多卡版本,比英伟达 Megatron 训练速度快 10%); 3. 解除二进制一致的限制,迭代优化到超越 Megatron 的性能。 按照其说法,ForgeTrain 通过搭建一套专用 Harness,让 AI 在闭环环境中不断满足评测指标,并最终写出了一套训练框架。这个过程一旦启动,人类不再参与代码编写和中间修改,而是仅在最后进行验收。ForgeTrain 目前主要覆盖框架和算子层面,算法调参尚未开始从零交给 AI。 在实际效果上,ForgeTrain 已经能训练出与 Megatron 结果一致的模型。面壁称,在 MiniCPM 模型上,ForgeTrain 训练结果在人评和机评上与原有训练框架保持一致,同时在核心速度和成本指标上优于英伟达 Megatron,提升10%。 面壁智能 AI Infra 负责人李宇轩向 InfoQ 表示,在面壁团队的实践中,大部分工程约束是由模型自主处理的。少部分模型当前还做不到的部分,则会被融入 Harness 中,作为生成训练框架时的先验约束或评测规则。比如,在内存约束方面,AI 自己写出的框架在人的合适引导下,显存使用甚至低于 Megatron。未来,团队会逐渐提高Harness 层面中的 AI 参与比例。 面壁团队在构建 Harness 时,会尽量加入更具第一性的工程方法论,让尽可能多的失败在代码生成阶段就被测出,并由 AI 自行修复,依次减少训练失败率。据介绍,从目前结果看,ForgeTrain 相对稳定,可以连续运行数天并完成模型训练。 “我们已经拿ForgeTrain训出来模型了,而且训出来的模型和我们用 Megatron 训出来的模型效果是一致的。”李宇轩表示,这直接就证明了ForgeTrain 的生产级可靠性。 他进一步解释称,所谓生产级,并不是说 ForgeTrain 已经可以立刻覆盖全球所有模型训练场景,而是至少在 MiniCPM 上,它已经完成了从框架生成到实际训练再到效果验证的闭环。训练出的模型在人评和机评上与原有模型一致,因此它在该场景中已经达到了生产级水平。 据悉,ForgeTrain 在内部 8B 模型的验证也已经完成,接下来团队会继续推进 MoE 等更复杂模型,向更大、更复杂模型扩展,并可能在一两个月内取得进展。 当写代码没有成本,软件就应“现场锻造” 过去几年,大模型进步主要依赖三件事:更多数据、更大算力和更高资本投入。但现在,高质量互联网数据正在被快速消耗,GPU、数据中心、电力等基础设施越来越紧张,继续靠“堆资源”推动模型进化,成本越来越高,边际收益也在下降。 在这种背景下,行业必须寻找新的效率来源,面壁则将目标对准了“AI 研发 AI ”。 AI 研发 AI 的价值就在于给定资源下的研发效率提升。人类工程师写代码、跑实验、调框架、做数据管线,往往需要数天、数周甚至数月;而 AI 在部分任务上可以把效率提升 10 倍到 100 倍。如果 AI 能参与代码生成、训练框架开发、算子优化、数据生成、评测反馈、实验迭代甚至模型架构探索,整个 AI 研发链条就会被大幅加速。 “AI 研发 AI 研究”并非处于概念阶段,海外头部模型公司已经逐渐实践。 早在 2024 年 10 月,Anthropic 创始人 Dario Amodei 就将“自动化 AI 研究”视为 AGI 时间表中最强的加速器之一,当前Claude系列模型也实现了自我递归迭代;今年3月,Andrej Karpathy 提出并开源“自动研究员”项目,尝试让 AI 自主研究如何优化模型训练。与ForgeTrain 更偏训练框架和基础设施层不同,Karpathy 的项目主要聚焦算法层面。 如何让 AI 真正接管 AI 研发?李宇轩认为,关键在于一个共识:可评测的问题最终会被 AI 解决,即只要一个问题能够被高效评测,并且能够为模型准备足够专家数据,再通过强化学习将能力回流到模型,AI 就会逐渐把这个问题做得越来越好。 这一方法已经在博弈、数学、代码等领域得到验证,但AI 研发本身并没有天然存在的评测环境,AI 训练框架、算法创新、数据管线等任务往往更复杂、更昂贵,也更难被包装成一个稳定的评测系统。 这正是 Harness 的意义。Harness 本质上是把一个目标包装成一整套系统:包括环境、上下文、工具、任务流程和评分标准。将 AI 放入这个系统后,它可以根据反馈不断完成任务、修正错误并提升能力。 传统任务之所以更容易被 AI 学会,是因为 Harness 天然存在。比如代码任务有编译器、单元测试和运行结果;数学任务有形式化验证或标准答案;游戏任务有胜负机制。相比之下,“AI 制造 AI”没有现成 Harness,而且运行成本很高,因此发展更慢。 面壁现在就是为“AI 制造 AI”建立“考场”。当 AI 研发任务能够被包装成可评测环境,AI 就可以在其中训练、试错和提升。ForgeTrain 正是在训练基础设施层面搭建这样一个 Harness 的尝试。 并且,基于这一思路,面壁提出了 Forge Engineering,即“锻造工程”。此次发布的 ForgeTrain,正是 Forge Engineering 在大模型训练基础设施上的具体实践。 李宇轩表示,过去软件工程追求大型通用框架,是因为人类写代码、维护代码的成本很高。一个训练框架往往需要支持大量模型结构,包括普通稠密模型、MoE 模型、不同参数规模、不同并行策略等。为了降低开发和维护成本,行业不得不把复杂功能整合进一套大而全的通用系统中。 但在 AI 写代码能力快速提升后,代码生产成本正在接近于零。如果写代码已经不再是主要负担,那么就没有必要把本不该强行通用的东西捏合在一起,而可以为每一种具体需求重新生成一份最适合它的代码。 这就是 Forge Engineering 的核心:并非让 AI 继续写越来越庞大的通用