你的 AI 编程基准测试掩盖了 2 倍的质量差距
这个假设
编程智能体评测(SWE-Bench、Terminal Bench)的基础假设是:衡量智能体质量有一个主要指标,这个指标就是测试通过率。
Claude Code 搭配 Opus 4.6 时,73% 的时候能通过测试。Codex 搭配 GPT 5.4 时,通过率是 80%。那就上线 GPT 5.4。很简单,对吧?
如需查看当前的两两模型对比,请看 Stet 模型对比中心,其中包括 GPT-5.5、GPT-5.4、Opus 4.7 和 Opus 4.6 在真实编程任务上的运行结果。
我们如何测量
我们让 3 个模型完成 87 个任务,这些任务来自 3 个真实的开源仓库:Zod、graphql-go-tools 和 sqlparser-rs。
每个任务都是真实 PR 或 commit,并且已经合并到对应仓库。智能体拿到的是合并之前的仓库,以及完成该任务的指令。该 PR 自己的测试决定智能体的改动是通过还是失败。
通过率是闸门。但在闸门之上,我们还会给三个质量维度打分:
- 等价性 —— 智能体的补丁与真实合并的 PR 有多接近?
- 代码审查 —— 另一个模型在审查中会通过还是拒绝智能体的补丁?
- 改动范围风险 —— 智能体做了多少不必要的改动?
难分高下
在 87 个共享 W2 任务上,通过率几乎完全一样:
gpt-5.1-codex-mini:77/87(88.5%)gpt-5.3-codex:78/87(89.7%)gpt-5.4:78/87(89.7%)
这听起来像是平局,但并不是。
Mini 和 5.3 在 82/87 个任务上结果一致。75 个都是通过,7 个都是失败,5 个结果不同。通过率标题真正发生变化的只有五个任务。
所以我看了那 75 个两个智能体都通过测试的任务。
通过率相同。代码完全不同。
5.3 匹配人类补丁的可能性是 mini 的 1.6x。5.4 在所有维度上都最好:等价性最高,审查通过率最高,改动范围风险最低,而且最便宜,只有 $1.34/task。
METR 也证实了这一点
方法不同,结论相同。
METR 请了 4 位来自 scikit-learn、Sphinx 和 pytest 的活跃维护者,审查 296 个通过了自动评分器的 AI 生成 PR。其中约 50% 不会被合并。
我们发现,由 2024 年中到 2025 年中/后期智能体编写、通过测试的 SWE-bench Verified PR 中,约有一半不会被仓库维护者合并进 main,即使在调整维护者合并决策中的噪声之后也是如此。
其他人也看到了同样的事情
Voratiq 在自己的工作流中、跨 4,784 个候选补丁发现了同样的模式:通过测试的候选补丁被选中的频率高出 1.8x,但审查评分最高的候选补丁被选中的频率高出 9.9x。测试只是代码团队实际会接受什么的一个弱代理。—— Voratiq,2026 年 3 月
测试是闸门,不是真相来源
通过率是模型达成一致的地方。闸门之上的质量,也就是等价性、审查、改动范围、成本,才是它们产生分歧的地方。
如果你用那个让所有模型看起来都一样的单一指标来选择智能体,那你其实没有在选择。
如果你想看完整图景:/why
如果这和你看到的情况一致:ben@benr.build