比GPT-4快18倍！无墙还免费！世界疯了！

500 token/秒，大致就是眼睛刚扫完一行，它已经写了一整段。Groq昨晚上线那会儿，我盯着屏幕，光标像被按了快进键，噼里啪啦往外蹦字，GPT-4 在旁边显得像老年打字机。这种速度差，18 倍听起来像营销口号，实际用起来却像把高铁和绿皮车摆在一起，冲击力肉眼可见。

快归快，背后实则是“另起炉灶”。GPU 原本给图形渲染设计的，后来被逼着算矩阵乘法，跑大模型像让厨子兼职外科医生；Groq 的 LPU 干脆从硅片开始就想清楚“我这一辈子只干一件事：算语言概率”。单核、无缓存、指令流排得死死的，省掉了多核间“谁拿哪块数据”的扯皮。省下来的纳秒堆在一起，就成了肉眼可见的 500 token。

创始人 Jonathan Ross 以前造 Google TPU，思路一脉相承：先定场景，再做芯片。当年 TPU 甩掉浮点、专注整数，目前 LPU 把内存带宽和计算单元绑成一条直线，同样是不讲道理的暴力美学。

比GPT-4快18倍！无墙还免费！世界疯了！

真正绕开门槛的是“开箱即用”。不用注册、不用绑卡，刷网页就能问“帮我写份离婚协议”。免费额度够薅一阵羊毛，API 价目表也像是贴着电费单写的，小团队第一次敢把大模型塞进产品原型，而不必心疼账单。

比GPT-4快18倍！无墙还免费！世界疯了！

当然，快刀也有钝口。Llama 270B 面对中文提问，偶尔蹦出 “the following answer may help you” 的句子，像突然切换频道的收音机。不是模型笨，是训练语料里中文比例本来就低。Mixtral8x7B 更轻更快，但长一点的专业问题就开始“车轱辘话”。好在写 prompt 时加一句“请只用简体中文”，能把中英混跳压到最低——算是给中文用户的临时补丁。

比GPT-4快18倍！无墙还免费！世界疯了！

速度之外，真正让人心里一紧的是成本结构被改写。以前算一次大模型推理，钱包要掉块肉；目前电费感觉得像开盏台灯。实时字幕、边聊边搜、游戏 NPC 秒回，这些“想都不敢想”的场景忽然变成产品经理的 OKR。斯坦福老教授 Manning 说得客气，“硬件-软件协同设计可能是新方向”，翻译成人话就是：通用 GPU 的蜜月期快结束了，专用芯片的春天刚打鸣。

比GPT-4快18倍！无墙还免费！世界疯了！

不过也别急着把 GPT-4 扔进回收站。速度只是四维图里的一维，剩下三维是准确、安全、可控。实测里 Groq 偶尔把 2023 年的事说成 2025 年，或者在医疗问题上给出半吊子提议——快，但不准，照样翻车。监管、对齐、幻觉，这些旧麻烦不会由于是新芯片就自动消失。

比GPT-4快18倍！无墙还免费！世界疯了！

普通人该怎么吃这块蛋糕？先用再说。Chrome 打开 groq.com，把日常工作里“最烦写”的邮件、总结、代码注释扔进去，体验一把“秒回”的爽点；再试试复杂任务，列如让它读 20 页 PDF 给提纲，看看速度换不换来质量。如果发现中英混杂，就补一句“请用中文回答”，像给语音助手纠正口音那样自然。

比GPT-4快18倍！无墙还免费！世界疯了！

再往远一点看，这一波芯片竞赛相当于给 AI 修了条高速公路，接下来比拼的是谁能在上面跑出最稳的货车。对个人而言，与其囤工具，不如囤“换工具的肌肉”。今天 Groq 免费，明天也许收费、也许被墙，能快速迁移到新平台才是真正的护身符。毕竟，在 AI 世界里，唯一保值的技能就是学会不慌张地拥抱下一个“18 倍”。

比GPT-4快18倍！无墙还免费！世界疯了！