STET

你的 AI 编程基准测试掩盖了 2 倍的质量差距

2026年3月14日

这个假设

编程智能体评测(SWE-Bench、Terminal Bench)的基础假设是:衡量智能体质量有一个主要指标,这个指标就是测试通过率。

Claude Code 搭配 Opus 4.6 时,73% 的时候能通过测试。Codex 搭配 GPT 5.4 时,通过率是 80%。那就上线 GPT 5.4。很简单,对吧?

如需查看当前的两两模型对比,请看 Stet 模型对比中心,其中包括 GPT-5.5、GPT-5.4、Opus 4.7 和 Opus 4.6 在真实编程任务上的运行结果。

我们如何测量

我们让 3 个模型完成 87 个任务,这些任务来自 3 个真实的开源仓库:Zodgraphql-go-toolssqlparser-rs

每个任务都是真实 PR 或 commit,并且已经合并到对应仓库。智能体拿到的是合并之前的仓库,以及完成该任务的指令。该 PR 自己的测试决定智能体的改动是通过还是失败。

通过率是闸门。但在闸门之上,我们还会给三个质量维度打分:

  • 等价性 —— 智能体的补丁与真实合并的 PR 有多接近?
  • 代码审查 —— 另一个模型在审查中会通过还是拒绝智能体的补丁?
  • 改动范围风险 —— 智能体做了多少不必要的改动?

难分高下

在 87 个共享 W2 任务上,通过率几乎完全一样:

  • gpt-5.1-codex-mini: 77/87 (88.5%)
  • gpt-5.3-codex: 78/87 (89.7%)
  • gpt-5.4: 78/87 (89.7%)

这听起来像是平局,但并不是。

Mini 和 5.3 在 82/87 个任务上结果一致。75 个都是通过,7 个都是失败,5 个结果不同。通过率标题真正发生变化的只有五个任务。

所以我看了那 75 个两个智能体都通过测试的任务。

model与 gold 的等价性代码审查通过高风险改动范围成本 / 任务
gpt-5.1-codex-mini24.0%9.3%12.0%$1.98
gpt-5.3-codex38.7%8.0%9.3%$5.23
gpt-5.445.3%16.0%8.0%$1.34

通过率相同。代码完全不同。

5.3 匹配人类补丁的可能性是 mini 的 1.6x。5.4 在所有维度上都最好:等价性最高,审查通过率最高,改动范围风险最低,而且最便宜,只有 $1.34/task

gpt-5.1-codex-mini
gpt-5.3-codex
gpt-5.4
pass ratethe gate
88.5%
89.7%
89.7%
above the gate
equivalence
24.0%
38.7%
45.3%
code review pass
9.3%
8.0%
16.0%
footprint risklower is better
12.0%
9.3%
8.0%
cost / tasklower is better
$1.98
$5.23
$1.34

METR 也证实了这一点

方法不同,结论相同。

METR 请了 4 位来自 scikit-learn、Sphinx 和 pytest 的活跃维护者,审查 296 个通过了自动评分器的 AI 生成 PR。其中约 50% 不会被合并。

我们发现,由 2024 年中到 2025 年中/后期智能体编写、通过测试的 SWE-bench Verified PR 中,约有一半不会被仓库维护者合并进 main,即使在调整维护者合并决策中的噪声之后也是如此。

METR,2026 年 3 月

其他人也看到了同样的事情

Voratiq 在自己的工作流中、跨 4,784 个候选补丁发现了同样的模式:通过测试的候选补丁被选中的频率高出 1.8x,但审查评分最高的候选补丁被选中的频率高出 9.9x。测试只是代码团队实际会接受什么的一个弱代理。—— Voratiq,2026 年 3 月

测试是闸门,不是真相来源

通过率是模型达成一致的地方。闸门之上的质量,也就是等价性、审查、改动范围、成本,才是它们产生分歧的地方。

如果你用那个让所有模型看起来都一样的单一指标来选择智能体,那你其实没有在选择。

如果你想看完整图景:/why

如果这和你看到的情况一致:ben@benr.build

数据来自 Stet 每周排行榜,覆盖 Zod、graphql-go-tools 和 sqlparser-rs 中 87 个共享 W2 任务。评分日期为 2026 年 3 月 7 日。

方法论