你的 AI 编程基准测试掩盖了 2 倍的质量差距

2026年3月14日

这个假设

编程智能体评测（SWE-Bench、Terminal Bench）的基础假设是：衡量智能体质量有一个主要指标，这个指标就是测试通过率。

Claude Code 搭配 Opus 4.6 时，73% 的时候能通过测试。Codex 搭配 GPT 5.4 时，通过率是 80%。那就上线 GPT 5.4。很简单，对吧？

如需查看当前的两两模型对比，请看 Stet 模型对比中心，其中包括 GPT-5.5、GPT-5.4、Opus 4.7 和 Opus 4.6 在真实编程任务上的运行结果。

我们如何测量

我们让 3 个模型完成 87 个任务，这些任务来自 3 个真实的开源仓库：Zod、graphql-go-tools 和 sqlparser-rs。

每个任务都是真实 PR 或 commit，并且已经合并到对应仓库。智能体拿到的是合并之前的仓库，以及完成该任务的指令。该 PR 自己的测试决定智能体的改动是通过还是失败。

通过率是闸门。但在闸门之上，我们还会给三个质量维度打分：

等价性 —— 智能体的补丁与真实合并的 PR 有多接近？
代码审查 —— 另一个模型在审查中会通过还是拒绝智能体的补丁？
改动范围风险 —— 智能体做了多少不必要的改动？

难分高下

在 87 个共享 W2 任务上，通过率几乎完全一样：

gpt-5.1-codex-mini: 77/87 (88.5%)
gpt-5.3-codex: 78/87 (89.7%)
gpt-5.4: 78/87 (89.7%)

这听起来像是平局，但并不是。

Mini 和 5.3 在 82/87 个任务上结果一致。75 个都是通过，7 个都是失败，5 个结果不同。通过率标题真正发生变化的只有五个任务。

所以我看了那 75 个两个智能体都通过测试的任务。

model	与 gold 的等价性	代码审查通过	高风险改动范围	成本 / 任务
`gpt-5.1-codex-mini`	`24.0%`	`9.3%`	`12.0%`	`$1.98`
`gpt-5.3-codex`	`38.7%`	`8.0%`	`9.3%`	`$5.23`
`gpt-5.4`	`45.3%`	`16.0%`	`8.0%`	`$1.34`

通过率相同。代码完全不同。

5.3 匹配人类补丁的可能性是 mini 的 1.6x。5.4 在所有维度上都最好：等价性最高，审查通过率最高，改动范围风险最低，而且最便宜，只有 $1.34/task。

gpt-5.1-codex-mini

gpt-5.3-codex

gpt-5.4

pass ratethe gate

88.5%

89.7%

above the gate

equivalence

24.0%

38.7%

45.3%

code review pass

9.3%

8.0%

16.0%

footprint risklower is better

12.0%

9.3%

8.0%

cost / tasklower is better

$1.98

$5.23

$1.34

METR 也证实了这一点

方法不同，结论相同。

METR 请了 4 位来自 scikit-learn、Sphinx 和 pytest 的活跃维护者，审查 296 个通过了自动评分器的 AI 生成 PR。其中约 50% 不会被合并。

我们发现，由 2024 年中到 2025 年中/后期智能体编写、通过测试的 SWE-bench Verified PR 中，约有一半不会被仓库维护者合并进 main，即使在调整维护者合并决策中的噪声之后也是如此。

— METR，2026 年 3 月

其他人也看到了同样的事情

Voratiq 在自己的工作流中、跨 4,784 个候选补丁发现了同样的模式：通过测试的候选补丁被选中的频率高出 1.8x，但审查评分最高的候选补丁被选中的频率高出 9.9x。测试只是代码团队实际会接受什么的一个弱代理。—— Voratiq，2026 年 3 月

测试是闸门，不是真相来源

通过率是模型达成一致的地方。闸门之上的质量，也就是等价性、审查、改动范围、成本，才是它们产生分歧的地方。

如果你用那个让所有模型看起来都一样的单一指标来选择智能体，那你其实没有在选择。

如果你想看完整图景：/why

如果这和你看到的情况一致：ben@benr.build