下一个AI较量场，为什么是Harness？

文 | 深流研究所，作者 | 萧樱 "Agents aren't hard; the Harness is hard." 2026 年 2 月，当 OpenAI 工程师 Ryan Lopopolo 用这句话概括他刚完成的项目时，大多数人还不理解他的感慨。他带着一个不到 10 人的小团队，用 5 个月时间，让 Codex 写出了超过 100 万行代码，全程没有手敲一行。这套能让模型可靠地工作的系统，被他称之为 "Harness Engineering"。据公开信息，Codex的周活跃用户在3月初还是160万左右，但到了5月，已经超过了400万。除了模型的升级，Codex的Harness能力也为它赢来不少用户。比如，有开发者测试发现，在一个相同任务上，Claude Code消耗的token约是 Codex的3到4倍。差距不全在模型本身，也和 Harness 设计有关：Codex 倾向于把任务拆开并行跑，每个子任务上下文独立，互不污染。如今 AI 圈已经广泛认可 "Agent = Model + Harness" 这一条公式。如果 Agent 是一辆车，大模型就是提供马力的发动机。没有发动机，一切无从谈起。但一台裸发动机放在地上，你也没法开它上路。Harness，就是把"发动机"变成"整车"的那套系统工程。就在本月，DeepSeek 发布了两个招聘岗位：Harness 产品经理和 Harness 研发工程师。DeepSeek 资深研究员陈德里在社交媒体上表示，这是为了组建一个 Harness 团队，且方向是"对标 Claude Code，做 DeepSeek Code Harness"。这一家以模型层突破著称的公司，也把下一步的筹码押在了 Harness 上。过去几年，模型能力是稀缺资源。但随着模型能力基础设施化，领先变得难以维持最强大模型，保质期越来越短了，模型之外的那一层 Harness 愈发重要。模型能力依然是基本，但Harness已经变成AI竞争的关键较量场。一、Harness 洗牌行业三层结构 Harness 开始反向优化模型，只是洗牌当前整个 AI 行业结构的早期信号。过去几年，AI 产业被默认分成三层结构：基础设施层、模型层和应用层。三层各司其职，价值分配相对清晰。但现在Harness开始影响这个“利益蛋糕”的分配。模型公司首先感受到是“兑现权”被拿走了一部分。过去模型公司既训练模型，又决定模型怎么被用。卖 API、卖 Playground，模型能力的兑现完全在自己手里。模型强，就卖得贵，逻辑简单。 Harness 出现后，这个逻辑松动了。在 DeepSeek官方决定下场做 Harness 之前，开发者社区里的一个 "DeepSeek版Claude Code"（名为"DeepSeek-TUI"）备受欢迎，目前Stars已超过3万。这是因为同一个 DeepSeek 版本，跑在一个精调的 code Harness 里，能发挥更好的水准，而跑在一个粗糙的“壳”里，能力会大打折扣。模型本身没有变化，但Harness会影响模型能力兑现的区间。模型公司辛苦训出来的能力，如果拱手让给别人的Harness 来承接，最终定价权可能会在别人手上。相当于自己成了供货商，少赚一层，货好货差还由渠道说了算。应用层的变化发生得更隐蔽和缓慢一些。过去不少应用公司的护城河是懂业务。这种"懂"藏在产品经理的判断里、在多年打磨的交互细节里、在持续迭代的功能逻辑里。但现在这些东西开始往Harness搬。例如，SaaS 巨头 Salesforce 把销售线索追踪的标准动作固化进去，Claude Code 把代码评审的标准流程嵌进去。过去靠人理解和沉淀的东西，现在到了 Harness 这一层。今年 5 月，老牌客服 SaaS 公司 Intercom 甚至直接改名为 Fin，用自家 AI Agent 产品的名字替换了经营 15 年的品牌，开始围绕 Harness 重构。那些还没开始重视Harness的应用公司，几年后回头看，可能会发现自己的业务护城河已经被悄悄掏空。业务理解一旦被 Harness 固化为可执行的 Agent 动作，这套理解的所有权，就跟着 Harness 走了，不再跟着人走。再往上走，基础设施层也没法置身事外，因为算力市场的需求会被反向定义。过去英伟达等公司的产品规划，很大程度上由大批量、稳定负载的模型训练来驱动。但随着Harness的普及，Agent推理正成为算力市场的新主导力量。Agent 具备长链路、多次调用、带工具、带记忆的特征，其推理负载有长周期、不可预测等动态变化，需要不同的调度方式、内存架构和网络拓扑。英伟达在2026年发布的Vera Rubin平台，就是专为智能体和大规模推理时代而构建。 Harness 开始反过来影响芯片层的下一代产品形态。这些变化叠在一起，让AI产业链的每一层利益分配，都要开始重新谈判。二、Harness 天然长在场景里 Harness 自身内部，也在发生分化。这种分化的根源，藏在 Harness 的一个根本性特点里。 Ryan Lopopolo团队最初以为，只要把模型接上Harness就行，但后面发现，Harness不是一个即插可用的插件。Harness 不是一次设计好就放在那里的，它必须在真实场景的失败里磨出来。没有这种真实场景去纠偏，Harness就会僵化。这就是为什么Harness天然长在场景里。而不同公司的业务场景千差万别，Harness也就会分化。最先被验证、也最快能让 Harness 跑通的是代码场景。Harness 在代码场景里跑出来的每一条轨迹，都自带反馈信号，模型可以从中学习。这是为什么 Anthropic 和 OpenAI 不约而同把 Harness 的第一战放在代码场景上。但代码之外的世界没有编译器，要复杂得多。在客服答疑、售后服务、风控判断等非代码场景里，没有一个自动化的客观标准能瞬间给出对错。离开了天然验证器，反馈信号要么靠人工去工标注和复盘，但成本高、迭代慢；要么靠真实业务结果反馈，这就需要离业务足够近、跑得足够久。 Harness 做得好的玩家，一定是离真实业务反馈最近的。长远来看，模型肯定还会变得更强。现在 Harness 面临的失败重试、上下文截断等需要专门工程来处理的问题，未来可能模型自己就能解决。但 Harness 长在真实业务场景里、靠真实失败磨出来的部分，是模型再强也代替不了的。模型变强会消解 Harness 的工程层，但消解不掉 Harness 的场景层。有真实业务反馈的玩家，已经开始在 Harness 上显示出优势。比如，SaaS 巨头 Salesforce 在 CRM 场景里有几十年沉淀的客户行为数据、销售漏斗反馈、服务工单记录。最新财年的数据显示，公司的Agentforce已经按"Agent 对话"收费， ARR 达 8 亿美元，全年增速 169%，累计超 2.9 万笔交易，已走通商业兑现。目前国内日活第一的 Agent 腾讯 WorkBuddy，也是很早就押注 Harness 的玩家。从团队决定做 claw 模式到全量上线，只用了一个星期。能跑得这么快，是因