在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!

最近有个叫Stepan的开发者搞了个狠活让目前最火的三个AI大模型比赛写代码,目标是从零开发一个浏览器版《反恐精英》。

别误会,不是让AI打游戏,是让它们当程序员,用自然语言写代码,全程不用人动手敲一个字符。
选的三个选手都是顶流,Google的Gemini3Pro、OpenAI的CodexMax5.1、Anthropic的ClaudeOpus4.5。
Stepan给它们的任务很明确,用Three.js搞3D渲染,加上InstantPresence做实时联机,必须在浏览器里直接玩,不能有额外插件。

AI做游戏,惊喜和翻车哪个多?
准备工作做完,就进入实战开发了,第一个坎是地图和物理引擎。
Stepan的提示词很简单,“做个第一人称CS,矩形地图,有准星、随机敌人、死后重生”。
结果Claude最会搞视觉,生成的地图障碍物是彩色的,视野清晰度比另外两个高不少,Gemini虽然地图普通,但物理碰撞没掉链子,人物不会穿墙,Codex就尴尬了,光线渲染出错,地图黑乎乎一片,得返工修bug。

角色和武器系统开发时,AI们开始暴露短板。
Stepan追加提示,“多边形角色建模(带枪)+后坐力动画+复古音效”。
Gemini生成的枪械模型突然玩起透明梗,金属质感的枪时不时变幽灵武器,Codex更省事,角色直接单色渲染,看起来像没上色的半成品,毫无层次感。
多人联机是最头疼的环节,毕竟要实时同步两个人的操作。

Gemini走效率路线,直接上WebRTC协议,还搞了文档和代码双校验,任务完成速度最快,Claude则慢悠悠查文档,一步一回头,Codex专注TypeScript自检,但房间共享机制写得绕,最后还是没搞定无需数据库的同步。
最后三个模型都交出了可玩版本,网上能直接打开试玩。
全程花了2小时,真·零手写代码,但Stepan说中途还是得插手三个模型都搞出了bug,列如游戏画面冲突、程序启动时卡壳、联机时延迟高,这些AI自己搞不定。

人类程序员真的会被取代吗?
游戏能玩了,但AI写代码的真实水平到底怎么样?咱们拿放大镜看看这三个模型的“成绩单”。
视觉设计这块,Claude是妥妥的课代表。
配色用的HSB方案,准确率据说有92%,地图分层也清楚,障碍物、地面、天空盒各归各的,不乱套,Gemini就差点意思,枪械模型老出透明bug,金属质感的枪突然变幽灵武器,概率还不低。

交互逻辑上,Codex在射击判定上翻车了。
开枪后平均要等0.3秒才有反应,玩过CS的都知道,这半秒足够被爆头了。
后来发现是射线检测算法没写好,AI自己没意识到问题在哪,联机功能最能看出差距。
Gemini自动用上了WebRTC协议,NAT穿透成功率85%,俩人联机基本不卡,Claude则搞出个骚操作重复执行代码,生成两个游戏画面叠在一起,查了半天才发现是依赖数组没写对,这得人手动改。

Stepan搞了个评分表,视觉设计Claude9.2分排第一,逻辑完整性Gemini9分稍胜,错误修复效率还是Gemini快,9.5分。
不过Claude查文档最勤快,Gemini中等,Codex基本不查,看来“爱学习”和“会考试”是两码事。
最麻烦的是版权问题,Gemini生成的天空盒代码,直接抄了Preetham模型的老代码,连注释都没改,这要是商用,原作者告起来一告一个准。

目前开源协议都没说AI生成的代码算不算侵权,这漏洞迟早要炸锅。
有人担心程序员要被取代,实则实测下来,AI更像个“快枪手”,写得快但不细致。
UI设计、架构优化这些需要整体思维的活儿,AI还差点意思。
HN论坛去年有个调查,68%的工程师觉得未来是“AI写代码,人类改bug+做决策”,纯体力活可能减少,但创造性工作反而更重大。

AI代码生成的瓶颈也明显,目前只能搞中小型项目,系统性工程能力不行模块化设计、异常处理、性能优化,这些还得靠人。
未来可能得往多模态走,列如画个流程图AI就能写代码,或者专门训练游戏开发的专属模型。
总的来说,AI大模型的确 让“无代码开发”近了一步,但离完全替代人类还差得远。

未来更可能是“AI当助手,人类当导演”,毕竟代码能生成,创意和经验这东西,AI暂时学不会。
【免责声明】:本文创作宗旨是传播正能量,杜绝任何低俗或违规内容。如涉及版权或者人物侵权问题,请私信及时联系我们(评论区有时看不到),我们将第一时间进行处理!如有事件存疑部分,联系后即刻删除或作出更改。





