开发者生态
morning
DeepSWE:长视野编码剂的无污染基准
2026-05-27
1 阅读
ammar_x
DeepSWE 是一个长期软件工程基准测试,与当今的公共基准测试相比,它具有四个主要进步: 无污染:任务是从头开始编写的,而不是根据现有提交或 PR 进行改编,因此没有模型在预训练期间看到解决方案。高多样性:任务跨越 5 种语言的 91 个存储库。现实世界的复杂性:提示长度是 SWE-bench Pro 长度的一半,但解决方案需要多 5.5 倍的代码和约 2 倍的输出令牌。可靠的验证:验证器是手写的,用于测试软件行为而不是实现细节。现有的基准在其中几个方面都存在不足。 SWE-bench Pro 是领先的代理编码基准,其任务平均只需 120 行代码即可解决,我们的审计发现其验证程序以 8% 的误报率和 24% 的漏报率对代理输出进行错误评分。前沿实验室也对基准污染提出了越来越多的担忧。相比之下,DeepSWE 对前沿编码代理进行了更清晰的比较。在公共基准上看起来很接近的模型分成了宽阔的、有序的间隙,与开发人员在日常代理工作流程中看到的差异相匹配。排行榜型号 ( 12 / 16 ) gpt-5.5 [ xhigh ] 70 % ± 4 % gpt-5.4 [ xhigh ] 56 % ± 5 % claude-opus-4.7 [ 最大 ] 54 % ± 5 % claude-sonnet-4.6 [ 高 ] 32 % ± 4 % gemini-3.5-flash [ 中 ] 28 % ± 4 % gpt-5.4-mini [ xhigh ] 24 % ± 4 % kimi-k2.6 24 % ± 4 % mimo-v2.5-pro 19 % ± 4 % glm-5.1 18 % ± 4 % gemini-3.1-pro 10 % ± 3 % deepseek-v4-pro 8 % ± 2 % gemini-3-flash 5 % ± 2 % 0 % 20 % 40 % 60 % 80 % gpt-5.5 [ xhigh ] 70 % ± 4 % gpt-5.4 [ xhigh ] 56 % ± 5 % claude-opus-4.7 [ 最大 ] 54 % ± 5 % claude-sonnet-4.6 [ 高 ] 32 % ± 4 % gemini-3.5-flash [ 中 ] 28 % ± 4 % gpt-5.4-mini [ xhigh ] 24 % ± 4 % kimi-k2.6 24 % ± 4 % mimo-v2.5-pro 19 % ± 4 % glm-5.1 18 % ± 4 % gemini-3.1-pro 10 % ± 3 % deepseek-v4-pro 8 % ± 2 % gemini-3-flash 5 % ± 2 % 0 % 25 % 50 % 75 % 100 % 所有型号均使用 mini-swe-agent 运行;请参阅为什么使用 mini-swe-agent 与其他安全带进行比较。探索 在 GitHub 上查看基准测试,浏览上述数字背后的每个部署,或根据基准运行您自己的代理。 GitHub → 浏览轨迹 → 运行 DeepSWE → 概述 1. 长期工作、现实且简短的提示 DeepSWE 提示与开发人员与其代理交谈的方式一致:以行为为中心、简短且没有大型接口定义块,而不是过于冗长和规定性。代理必须发现在何处以及如何实施变更,因此正在评估的大部分功能涉及端到端探索,而不仅仅是执行过度指定的工程任务。来自 GitHub 问题和拉取请求的公共基准通常包含更多细节:复制步骤、附加上下文、代码片段以及假设特定符号或签名的测试。相反,DeepSWE 对可观察的行为进行评分,即使底层任务相当长,提示也能保持简短而自然。 DeepSWE 任务范围更大、具体性更少,反映了真实的 SWE 工作 平均提示长度 0 1.9k 3.8k 5.6k 7.5k 个字符 SWE-Bench Verified 1,700 SWE-Bench Pro 4,614 DeepSWE 2,158 平均提示长度 SWE-Bench Verified 1,700 SWE-Bench Pro 4,614 DeepSWE 2,158 0 3.8k 7.5k 个字符 添加平均参考溶液行数 0 187.5 375 562.5 添加 750 行 SWE-Bench Verified 10 SWE-Bench Pro 120 DeepSWE 668 添加平均参考溶液行数 SWE-Bench Verified 10 SWE-Bench Pro 120 DeepSWE 668 0 375 750 行添加 每个参考溶液编辑的平均文件0 2.5 5 7.5 10 个文件 SWE-Bench Verified 1 SWE-Bench Pro 5 DeepSWE 7 每个参考解决方案编辑的平均文件 SWE-Bench Verified 1 SWE-Bench Pro 5 DeepSWE 7 0 5 10 个文件 2. 广泛的存储库覆盖 DeepSWE 包含 113 个任务,涵盖跨 5 种语言的 91 个活动开源存储库:TypeScript、Go、Python、JavaScript 和 Rust。这种规模的采样使 DeepSWE 成为编码代理在现实世界中的实用程序的更强大的代理:它们是否可以在具有不同结构、文档和维护级别的各种代码库中进行有用的、范围广泛的更改。现有的公共基准更加集中。 SWE-Bench Pro Public 跨越 11 个存储库,SWE-Bench Verified 跨越 12 个存储库,其中许多任务来自重要的、大量维护的项目。这个设置比开发人员在实践中为编码代理带来的项目范围要窄。语言分布 typescript 35 go 34 python 34 typescript 35 ( 31 %) go 34 ( 30 %) python 34 ( 30 %) javascript 5 ( 4 %) rust 5 ( 4 %) 大型框架的库,跨五种语言 91 个存储库。点的大小是任务数;颜色是主要语言。 1k 10k 100k 100 1k 10k GitHub star 默认分支中的文件 TypeScript · 27 Go · 28 Python · 27 JavaScript · 4 Rust · 5 3. 新颖任务测试问题解决能力,不回忆 每个 DeepSWE 任务都是原创的:参考解决方案已编写