神秘模型Happy Horse登顶AI视频榜：开源方案首次比肩闭源巨头

黑马入场：榜单空降引发行业震动

AI视频生成赛道突然闯入一匹”黑马”。2026年4月7日，权威AI评测平台Artificial Analysis在AI Video Arena排行榜上悄然引入一款名为”Happy Horse”的全新模型。没有发布会，没有技术博客，没有任何公司官方背书，该模型一上线便以碾压姿态超越字节跳动Seedance 2.0，登顶文本转视频和图像转视频双榜首位。

这一事件之所以引发行业震动，在于Artificial Analysis的评测机制——所有排名均来自全球真实用户的”蒙眼二选一”盲测投票，反映的是普通人看过之后最真实的感知偏好，而非技术参数跑分。在图像转视频榜单上，Happy Horse以Elo 1405分的成绩领先第二名Seedance 2.0近50分；在文本转视频榜单上，其Elo 1333分同样位居第一。

技术架构：统一Transformer与音视频联合生成

技术架构方面，Happy Horse 1.0采用150亿参数的统一Transformer架构，共40层自注意力网络，前后各4层为模态特定层，中间32层共享参数。据官方技术文档披露，该模型最大的差异化能力在于原生音视频联合生成——输入文本提示，可同时输出视频帧与同步音频，包括对白、环境音与拟音效果，无需后期配音。

这一技术路径与当前主流方案形成鲜明对比。Seedance 2.0、Kling 3.0等闭源产品虽在视频生成质量上领先，但音频仍需单独处理；而Ovi 1.1、LTX 2.3等开源模型虽开放可定制，但在生成质量上与闭源产品存在可见差距。Happy Horse尝试在两者之间找到平衡点：既保持开源模型的可定制性与部署灵活性，又在生成质量上逼近甚至超越闭源竞品。

实测数据：多维度性能指标解析

从实测数据来看，Happy Horse在多项指标上表现突出。在视觉质量、文本对齐度、物理一致性三个维度上，其得分分别为4.80、4.18、4.52，均优于Ovi 1.1和LTX 2.3。词错误率（WER）仅为14.60%，显著低于Ovi 1.1的40.45%和LTX 2.3的19.23%。生成速度方面，借助DMD-2蒸馏技术将去噪步骤压缩至8步，在H100显卡上生成5秒1080p视频约需38秒。

多语言支持是另一亮点。Happy Horse原生支持英语、普通话、粤语、日语、韩语、德语、法语七种语言的唇形同步，词错误率处于行业领先水平。官网语言排序中，普通话和粤语排在英语之前，这一细节被业界解读为背后团队来自中国的信号。

能力边界：榜单排名与实际落差

不过，模型的实际能力与榜单排名之间存在值得细究的落差。据小红书博主实测反馈，Happy Horse目前主要擅长单一人物场景，多人出镜或复杂场景下效果会明显下降；生成时长一般限制在10秒以内，再长容易出现画面混乱；高清输出依赖超分插件补充。在硬件要求上，本地部署需要H100或A100级别显卡（显存≥48GB），普通消费级显卡基本无法运行。