STET

Stet 运行的分析与笔记

来自真实 AI 编码代理评测的方法论笔记、基准证据和模型对比文章。

主题

模型对比

在真实仓库编码代理任务上,对 GPT-5.5、GPT-5.4、Claude Opus 4.7 和 Opus 4.6 进行测试通过率、等价性、代码审查质量、改动范围、时间和成本对比。

Opus 4.7 Low Vs Medium Vs High Vs Xhigh Vs Max:来自开源仓库 29 个真实任务的推理曲线

2026年5月12日

Claude Opus 4.7 在 29 个匹配的 GraphQL-go-tools 任务上的 reasoning-effort 曲线:low、medium、high、xhigh 和 max。Medium 在行为指标上胜出;更多推理并不能可靠换来更好的补丁。

GPT-5.5 low vs medium vs high vs xhigh:在开源仓库 26 个真实任务上的推理曲线

2026年5月7日

一条交互式 GPT-5.5 Codex 推理力度曲线,基于 26 个匹配的 GraphQL-go-tools 任务:low、medium、high 和 xhigh。

GPT-5.5 vs GPT-5.4 vs Opus 4.7:56 个来自 2 个开源仓库的真实编码任务

2026年5月1日

Opus 4.7、GPT-5.5 和 GPT-5.4 在两个开源仓库的 56 个真实编码任务上的对比。Opus 写出的补丁更小;GPT-5.5 写出的补丁更常经得起代码审查。

Opus 4.7 vs 旧版 Opus 4.6 vs 新版 Opus 4.6

2026年4月17日

三个 Opus 快照,测试通过率同为 12/28。越过测试门槛后,4.7 在方向上更好:更有纪律性,但并不是根本上更聪明。

你的 AGENTS.md 是你还没测试过的、杠杆最高的代码

2026年4月8日

AGENTS.md 会被加载到每一轮交互里。如果你没有测试和监控对它的改动,你就是在组织规模上靠猜。

你的 AI 编程基准测试掩盖了 2 倍的质量差距

2026年3月14日

三个模型,通过率相同。但在表面之下,有一个模型匹配人类补丁的频率高出 2 倍。测试通过率是闸门,不是真相来源。