DeepSWE：长视野编码剂的无污染基准

DeepSWE 是一个长期软件工程基准测试，与当今的公共基准测试相比，它具有四个主要进步：无污染：任务是从头开始编写的，而不是根据现有提交或 PR 进行改编，因此没有模型在预训练期间看到解决方案。高多样性：任务跨越 5 种语言的 91 个存储库。现实世界的复杂性：提示长度是 SWE-bench Pro 长度的一半，但解决方案需要多 5.5 倍的代码和约 2 倍的输出令牌。可靠的验证：验证器是手写的，用于测试软件行为而不是实现细节。现有的基准在其中几个方面都存在不足。 SWE-bench Pro 是领先的代理编码基准，其任务平均只需 120 行代码即可解决，我们的审计发现其验证程序以 8% 的误报率和 24% 的漏报率对代理输出进行错误评分。前沿实验室也对基准污染提出了越来越多的担忧。相比之下，DeepSWE 对前沿编码代理进行了更清晰的比较。在公共基准上看起来很接近的模型分成了宽阔的、有序的间隙，与开发人员在日常代理工作流程中看到的差异相匹配。排行榜型号 ( 12 / 16 ) gpt-5.5 [ xhigh ] 70 % ± 4 % gpt-5.4 [ xhigh ] 56 % ± 5 % claude-opus-4.7 [ 最大 ] 54 % ± 5 % claude-sonnet-4.6 [ 高 ] 32 % ± 4 % gemini-3.5-flash [ 中 ] 28 % ± 4 % gpt-5.4-mini [ xhigh ] 24 % ± 4 % kimi-k2.6 24 % ± 4 % mimo-v2.5-pro 19 % ± 4 % glm-5.1 18 % ± 4 % gemini-3.1-pro 10 % ± 3 % deepseek-v4-pro 8 % ± 2 % gemini-3-flash 5 % ± 2 % 0 % 20 % 40 % 60 % 80 % gpt-5.5 [ xhigh ] 70 % ± 4 % gpt-5.4 [ xhigh ] 56 % ± 5 % claude-opus-4.7 [ 最大 ] 54 % ± 5 % claude-sonnet-4.6 [ 高 ] 32 % ± 4 % gemini-3.5-flash [ 中 ] 28 % ± 4 % gpt-5.4-mini [ xhigh ] 24 % ± 4 % kimi-k2.6 24 % ± 4 % mimo-v2.5-pro 19 % ± 4 % glm-5.1 18 % ± 4 % gemini-3.1-pro 10 % ± 3 % deepseek-v4-pro 8 % ± 2 % gemini-3-flash 5 % ± 2 % 0 % 25 % 50 % 75 % 100 % 所有型号均使用 mini-swe-agent 运行；请参阅为什么使用 mini-swe-agent 与其他安全带进行比较。探索在 GitHub 上查看基准测试，浏览上述数字背后的每个部署，或根据基准运行您自己的代理。 GitHub → 浏览轨迹 → 运行 DeepSWE → 概述 1. 长期工作、现实且简短的提示 DeepSWE 提示与开发人员与其代理交谈的方式一致：以行为为中心、简短且没有大型接口定义块，而不是过于冗长和规定性。代理必须发现在何处以及如何实施变更，因此正在评估的大部分功能涉及端到端探索，而不仅仅是执行过度指定的工程任务。来自 GitHub 问题和拉取请求的公共基准通常包含更多细节：复制步骤、附加上下文、代码片段以及假设特定符号或签名的测试。相反，DeepSWE 对可观察的行为进行评分，即使底层任务相当长，提示也能保持简短而自然。 DeepSWE 任务范围更大、具体性更少，反映了真实的 SWE 工作平均提示长度 0 1.9k 3.8k 5.6k 7.5k 个字符 SWE-Bench Verified 1,700 SWE-Bench Pro 4,614 DeepSWE 2,158 平均提示长度 SWE-Bench Verified 1,700 SWE-Bench Pro 4,614 DeepSWE 2,158 0 3.8k 7.5k 个字符添加平均参考溶液行数 0 187.5 375 562.5 添加 750 行 SWE-Bench Verified 10 SWE-Bench Pro 120 DeepSWE 668 添加平均参考溶液行数 SWE-Bench Verified 10 SWE-Bench Pro 120 DeepSWE 668 0 375 750 行添加每个参考溶液编辑的平均文件0 2.5 5 7.5 10 个文件 SWE-Bench Verified 1 SWE-Bench Pro 5 DeepSWE 7 每个参考解决方案编辑的平均文件 SWE-Bench Verified 1 SWE-Bench Pro 5 DeepSWE 7 0 5 10 个文件 2. 广泛的存储库覆盖 DeepSWE 包含 113 个任务，涵盖跨 5 种语言的 91 个活动开源存储库：TypeScript、Go、Python、JavaScript 和 Rust。这种规模的采样使 DeepSWE 成为编码代理在现实世界中的实用程序的更强大的代理：它们是否可以在具有不同结构、文档和维护级别的各种代码库中进行有用的、范围广泛的更改。现有的公共基准更加集中。 SWE-Bench Pro Public 跨越 11 个存储库，SWE-Bench Verified 跨越 12 个存储库，其中许多任务来自重要的、大量维护的项目。这个设置比开发人员在实践中为编码代理带来的项目范围要窄。语言分布 typescript 35 go 34 python 34 typescript 35 ( 31 %) go 34 ( 30 %) python 34 ( 30 %) javascript 5 ( 4 %) rust 5 ( 4 %) 大型框架的库，跨五种语言 91 个存储库。点的大小是任务数；颜色是主要语言。 1k 10k 100k 100 1k 10k GitHub star 默认分支中的文件 TypeScript · 27 Go · 28 Python · 27 JavaScript · 4 Rust · 5 3. 新颖任务测试问题解决能力，不回忆每个 DeepSWE 任务都是原创的：参考解决方案已编写