智能AI morning

SkillOpt:把智能体的“技能”当作可训练的外部参数

2026-05-29 1 阅读 微软研究院AI
(本文阅读时间:12 分钟) 当前,大语言模型智能体(agent)的真正难点已经不在于“能不能调用工具”,而在于“能不能稳定、可复用地完成任务”。过去,智能体的技能通常有三种来源:专家手写、由前沿大模型一次性生成,或者运行后进行松散的自我修订。这些方法虽然在某些场景下能勉强见效,但都普遍缺少深度学习优化器才具有的“训练纪律”。 由于缺乏稳定的步长控制、显式的验证集选择,以及对失败修改的负反馈记忆,智能体的技能往往越改越长、越改越偏。很多时候,智能体在经历了一轮看起来十分合理的提示词重写后,实际的任务表现反而出现了倒退。这种不受控的技能演进,成为了制约智能体向工业级应用迈进的核心瓶颈。 SkillOpt 的破局之道:把技能重塑为可训练参数 为了打破这一僵局,微软亚洲研究院的研究团队推出了 SkillOpt ,这是 首个系统化的可控文本空间优化框架 。其最核心的想法,是把智能体的技能从“写一段更好的提示词”重新定义为一个可搜索、可验证、可选择的优化问题。在这个框架中,技能文档被视为冻结目标模型外部的“可训练参数”。发布仅72小时,SkillOpt的GitHub页面就已有1300+ stars 和 100+forks。 SkillOpt 总览动画,完整展示了 “ 轨迹采集 → 反思 → 有界编辑 → 验证门控 → 导出最终技能文件 ” 的优化闭环。 相关论文已整理于文末,欢迎点击相关链接,了解更多技术详情。 SkillOpt 不依赖一次性生成或自由改写,而是将技能编辑组织成文本空间里的“前向 → 反向 → 更新”三步循环: 前向阶段:冻结的目标模型携带当前技能,在训练任务上进行一次轨迹采集。采集批的大小控制每次更新看到的证据规模。 反向阶段:独立的优化器模型读取成批的成功与失败轨迹,并将其划分为反思小批,分别提炼出应保留的成功模式和应纠正的失败模式。小批的大小控制反思粒度,避免单一样本噪声主导技能更新。 更新阶段:根据真实的任务轨迹,优化器模型会提出有边界的“增 / 删 / 改”三类小幅修改。候选编辑会先被合并、去重、排序,再被文本学习率截断为一个候选技能。 上述每一步编辑都会受到文本学习率预算的严格约束。更重要的是,候选技能必须在留出的验证集上表现出严格优于当前版本才会被采纳,否则将被拒收并写入“拒绝编辑缓存”作为负反馈。这种“有界编辑 + 验证门控 + 最优版本选择”的机制,让技能优化过程像深度学习训练一样可控、可记录、可审计,确保了系统在反复迭代中稳定收敛到更好的技能,而不是随意漂移。 图 1:SkillOpt研究动机示意。冻结的目标模型负责执行任务;独立的优化器模型从轨迹反馈中训练技能层,并通过验证门控输出可复用的最终技能文件 best_skill.md。 为了高效利用这一表示,研究员们设计了 ZeroRepo 三阶段流水线 ,将复杂的生成过程拆解为可控的图操作: 更关键的是, 这套方法 不只让 GPT-5.5 这样的前沿模型变得更强,也 让小型开源模型在多个任务上逼近大一档闭源模型的无技能水平 。而最终在部署时,系统只需加载一份约 300到2,000 个 token紧凑的技能文件(best_skill.md),无需任何额外的优化器调用,也不需要更新模型权重。 为了让技能更新“可学习但不失控”,研究员们引入了一整套 来自深度学习的训练控制机制 。其中的验证门控与可控调度是防范技能随文本重写而退化的核心。SkillOpt 不会把“听起来合理”的诊断直接写进部署技能,而是在留出的选择子集上重新评估候选技能,只有在指标严格提升时才会接受。 同时,学习率调度也决定了早期探索与后期收敛的节奏,被拒绝的编辑会进入“拒绝编辑缓存”,成为后续优化器调用的负样本。此外,类似于动量项的跨轮慢更新与元技能设计负责捕捉长程稳定的改进方向,这些元技能仅在训练期生效,并不会随部署技能一起发送给目标模型。 图 2:SkillOpt 优化流程。采集轨迹、小批反思、有界文本更新、验证门控与跨轮慢更新共同约束技能训练。 52个评测单元全胜,小模型迎来华丽蜕变 可控优化逻辑为 SkillOpt 带来了极其强大的实证表现。研究员们将每一个“模型,基准,执行框架”视为一个评测单元,在横跨 7 个目标模型 (从前沿模型 GPT-5.5到小规模的开源模型 Qwen3.5-4B)、 6 个评测基准 (包括SearchQA/ SpreadsheetBench/ OfficeQA/ DocVQA/ LiveMathematicianBench/ ALFWorld)以及 三种执行模式 (直接对话、Codex与Claude Code 智能体框架)的严苛检验下,SkillOpt 在共计 52 个“模型 x 基准 x 执行框架”的评测单元中大获全胜,在全部单元上都拿到了最好或并列最好的成绩。 评测的六类基准全面覆盖了当前智能体落地的高频核心场景,包括事实问答、电子表格、办公文档、多模态文档、数学推理和具身决策。在最具代表性的 GPT-5.5 直接对话模式下,SkillOpt 展现出了惊人的性能拉升爆发力: 它直接将六项基准的平均分从 58.8 分大幅拉升至 82.3 分,实现了高达 +23.5 分的绝对提升。 这一成绩甚至比“在每个单元挑最强竞争基线”组合而成的理论上限还要高出 +5.4 分,打破了过往提示词优化方法的性能天花板。 表 1:验证主结果概览:每个单元为 SkillOpt 相对该“模型 x 基准 x 执行框架”下最强竞争基线的绝对分数提升。前 7 行为直接对话,后 2 行为 GPT-5.5 在 Codex 与 Claude Code 智能体框架下的结果。 实验数据揭示了 SkillOpt 极具价值的三个特性: 强大的跨模型规模性:横跨前沿大模型到轻量级开源模型,每个模型都能从同一套方法中获得稳定的正收益。 高程序性任务表现亮眼:在 SpreadsheetBench(41.8 → 80.7)、 OfficeQA(33.1 → 72.1)和LiveMathematicianBench(37.6 → 66.9)等任务上提升尤为明显,证明框架学到的是操作纪律而非简单的提示词堆砌。 广泛的框架兼容性:该方法不绑定特定智能体。在 Codex 中,GPT-5.5 平均提升 +24.8(高出最强基线 EvoSkill +14.0);在 Claude Code 中平均提升 +19.1(高出 EvoSkill +3.2)。 小模型 + 一份技能文件 ≈ 大一档模型的无技能水平 SkillOpt 的另一大突破在于, 它能显著缩小开源或小模型与前沿闭源大模型之间的性能鸿沟,且既不改变模型权重,也不需要额外算力。 如表 2 所示,加载技能文件后的 GPT-5.4-mini 和 GPT-5.4-nano 分别反超了上一档模型的无技能基线。而参数量不到主流大模型 5% 的 Qwen3.5-4B 在提升后也超越了 GPT-5.2。这意味着,过去需要通过更换更大模型、耗费更多算力才能获得的稳定收益,现在仅需通过 SkillOpt 优化出一份可复用的技能文件即可近似实现。 表 2:小模型及开源模型经过 SkillOpt 后的整体提升(六项基准平均分)。最右列把“小模型