Claude 被难哭!Cursor 新评测基准,敢说比 SWE-Bench 更真实?

Claude 被难哭!Cursor 新评测基准,敢说比 SWE-Bench 更真实?

编程智能体时代,评测标准要变了。

就在刚刚,Cursor 发布了自己的评测基准 CursorBench。结果挺有意思——曾在 SWE-Bench 上表现亮眼的 Claude Haiku 4.5/Sonnet 4.5,这次成绩不太理想。

说实话,这个结果我一点不意外。

由于 CursorBench 和其他编程基准,根本就不是一回事。

先说结论:**CursorBench 更贴近真实开发场景。**

SWE-Bench 什么问题?

任务太单一,主要是修复 GitHub issue 的 bug。但现实开发中,开发者会要求 AI 修改多个文件、分析生产日志、运行实验……比基准复杂多了。

Cursor 这次的设计,有 3 个点挺有意思:

1. 任务来自真实用户

以前的基准是”刻意找题”,找 GitHub issue、找各种谜题。

CursorBench 的题来自自家平台的真实用户数据。通过 Cursor Blame 工具,他们可以追踪某一段代码是由哪个 AI 请求生成的。

这就构成了绝佳的”出题范本”。

2. 任务规模更大

如今用 Cursor 的人太多了,所以 CursorBench 的任务规模明显更大。

从代码行数和平均文件数来看,问题规模从初始版本到当前的 CursorBench-3 大致翻了一倍。

3. 任务描述刻意保持”模糊”

许多公开基准里的任务描述超级详细,但现实中大家和 AI 说话时往往模棱两可。

太精准反而与真实相悖。

还有个亮点——**线上 + 线下混合评测**。

线下就是 CursorBench,让不同模型完成同一批标准任务,从正确性、代码质量、效率、交互行为等维度打分。

线上更直接——A/B Test,看真实用户使用效果。

观察开发者是否接受 AI 生成的代码、是否继续追问、是否撤销修改、任务是否真正完成。

这样一来,线下先快速筛选模型能力,然后线上验证模型是否真的更好,发现偏差后再去调整 benchmark 或模型。

飞轮效应这不就起来了。

最后说两句。

CursorBench 在前沿模型之间的区分度明显更高。

基准一饱和,模型们往往拉不开差距,大家分都高。但一遇到新的、难的,实力差距便自然显露了。

只需对比模型在 SWE-Bench 和 CursorBench 上的得分就能看出来——左边全挤在一起、右边呈阶梯式。

以及 Cursor 还强调了一点——CursorBench 的排名,与真实用户体验更加一致。

──────────────────────────────────────────────────

你觉得新的评测基准,能服众吗?

评论区聊聊��

#AI 编程 #Cursor #Claude #SWE-Bench

© 版权声明

相关文章

暂无评论

none
暂无评论...