头像

今天也是想睡个好觉的仙女

帅气的我简直无法用语言描述!

Claude 被难哭!Cursor 新评测基准,敢说比 SWE-Bench 更真实?

编程智能体时代,评测标准要变了。就在刚刚,Cursor 发布了自己的评测基准 CursorBench。结果挺有意思——曾在 SWE-Bench 上表现亮眼的 Claude Haiku 4.5/Sonn...
头像1天前
000