Stet 运行的分析与笔记

来自真实 AI 编码代理评测的方法论笔记、基准证据和模型对比文章。

主题

模型对比

在真实仓库编码代理任务上，对 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Opus 4.6 进行测试通过率、等价性、代码审查质量、改动范围、时间和成本对比。

GPT-5.4 vs Opus 4.7 GPT-5.5 low vs medium vs high vs xhigh：在开源仓库 26 个真实任务上的推理曲线 GPT-5.5 vs GPT-5.4 vs Opus 4.7：56 个来自 2 个开源仓库的真实编码任务 Opus 4.7 vs 旧版 Opus 4.6 vs 新版 Opus 4.6

Opus 4.7 Low Vs Medium Vs High Vs Xhigh Vs Max：来自开源仓库 29 个真实任务的推理曲线

2026年5月12日

Claude Opus 4.7 在 29 个匹配的 GraphQL-go-tools 任务上的 reasoning-effort 曲线：low、medium、high、xhigh 和 max。Medium 在行为指标上胜出；更多推理并不能可靠换来更好的补丁。

GPT-5.5 low vs medium vs high vs xhigh：在开源仓库 26 个真实任务上的推理曲线

2026年5月7日

一条交互式 GPT-5.5 Codex 推理力度曲线，基于 26 个匹配的 GraphQL-go-tools 任务：low、medium、high 和 xhigh。

GPT-5.5 vs GPT-5.4 vs Opus 4.7：56 个来自 2 个开源仓库的真实编码任务

2026年5月1日

Opus 4.7、GPT-5.5 和 GPT-5.4 在两个开源仓库的 56 个真实编码任务上的对比。Opus 写出的补丁更小；GPT-5.5 写出的补丁更常经得起代码审查。

Opus 4.7 vs 旧版 Opus 4.6 vs 新版 Opus 4.6

2026年4月17日

三个 Opus 快照，测试通过率同为 12/28。越过测试门槛后，4.7 在方向上更好：更有纪律性，但并不是根本上更聪明。

你的 AGENTS.md 是你还没测试过的、杠杆最高的代码

2026年4月8日

AGENTS.md 会被加载到每一轮交互里。如果你没有测试和监控对它的改动，你就是在组织规模上靠猜。

你的 AI 编程基准测试掩盖了 2 倍的质量差距

2026年3月14日

三个模型，通过率相同。但在表面之下，有一个模型匹配人类补丁的频率高出 2 倍。测试通过率是闸门，不是真相来源。