Claude 被难哭！Cursor 新评测基准，敢说比 SWE-Bench 更真实？

内容分享1天前发布今天也是想睡个好觉的仙女

0 0 0

编程智能体时代，评测标准要变了。

就在刚刚，Cursor 发布了自己的评测基准 CursorBench。结果挺有意思——曾在 SWE-Bench 上表现亮眼的 Claude Haiku 4.5/Sonnet 4.5，这次成绩不太理想。

说实话，这个结果我一点不意外。

由于 CursorBench 和其他编程基准，根本就不是一回事。

先说结论：**CursorBench 更贴近真实开发场景。**

SWE-Bench 什么问题？

任务太单一，主要是修复 GitHub issue 的 bug。但现实开发中，开发者会要求 AI 修改多个文件、分析生产日志、运行实验……比基准复杂多了。

Cursor 这次的设计，有 3 个点挺有意思：

1. 任务来自真实用户

以前的基准是”刻意找题”，找 GitHub issue、找各种谜题。

CursorBench 的题来自自家平台的真实用户数据。通过 Cursor Blame 工具，他们可以追踪某一段代码是由哪个 AI 请求生成的。

这就构成了绝佳的”出题范本”。

2. 任务规模更大

如今用 Cursor 的人太多了，所以 CursorBench 的任务规模明显更大。

从代码行数和平均文件数来看，问题规模从初始版本到当前的 CursorBench-3 大致翻了一倍。

3. 任务描述刻意保持”模糊”

许多公开基准里的任务描述超级详细，但现实中大家和 AI 说话时往往模棱两可。

太精准反而与真实相悖。

还有个亮点——**线上 + 线下混合评测**。

线下就是 CursorBench，让不同模型完成同一批标准任务，从正确性、代码质量、效率、交互行为等维度打分。

线上更直接——A/B Test，看真实用户使用效果。

观察开发者是否接受 AI 生成的代码、是否继续追问、是否撤销修改、任务是否真正完成。

这样一来，线下先快速筛选模型能力，然后线上验证模型是否真的更好，发现偏差后再去调整 benchmark 或模型。

飞轮效应这不就起来了。

最后说两句。

CursorBench 在前沿模型之间的区分度明显更高。

基准一饱和，模型们往往拉不开差距，大家分都高。但一遇到新的、难的，实力差距便自然显露了。

只需对比模型在 SWE-Bench 和 CursorBench 上的得分就能看出来——左边全挤在一起、右边呈阶梯式。

以及 Cursor 还强调了一点——CursorBench 的排名，与真实用户体验更加一致。

──────────────────────────────────────────────────

你觉得新的评测基准，能服众吗？

评论区聊聊��

#AI 编程 #Cursor #Claude #SWE-Bench

内容分享

文章版权归作者所有，未经允许请勿转载。

新2026人力资源部AI转型-落地路线图

内容分享

1天前

010

18 Pandas的数据转换函数map、apply、applymap

内容分享

1个月前

010

智东西晚报：美国再延长华为临时许可 105个新兴产业项目落户上海

内容分享

1个月前

000

新“认知接口”：超越 UI 与 API

内容分享

3天前

010

暂无评论

暂无评论...

Claude 被难哭！Cursor 新评测基准，敢说比 SWE-Bench 更真实？

五款AI写作工具实测对比：免费这款居然最能打？

6个正在替代加班的AI工具

相关文章

新2026人力资源部AI转型-落地路线图

18 Pandas的数据转换函数map、apply、applymap

智东西晚报：美国再延长华为临时许可 105个新兴产业项目落户上海

新“认知接口”：超越 UI 与 API

暂无评论

热门网站

闲鱼

百度手机助手

Pakutaso

ISO Republic

汽车之家

去哪儿

热门文章

40篇 Solidworks插件-迈迪工具集

中诺电话hcd6238（28）怎样设置时间及铃声和声音大小？

Python爬虫实战：股票行情数据实时抓取与历史K线数据获取全攻略

苹果笔记本里的桌面图标怎么放到左边？

kolla部署openstack

QQ和微信amr转mp3

Claude 被难哭！Cursor 新评测基准，敢说比 SWE-Bench 更真实？

五款AI写作工具实测对比：免费这款居然最能打？

6个正在替代加班的AI工具

相关文章

热门网站

闲鱼

百度手机助手

Pakutaso

ISO Republic

汽车之家

去哪儿

热门文章

标签云