算力闲置成常态，华为出手切碎GPU，行业格局重塑

发布会是在上海，时间就在昨天。台上没摆谱，也没靠吹大模型来吸睛，主角是个叫 Flex:AI 的东西——把整块显卡按需切成好几份，像合租房间那样分配给不同程序用。整卡整卡地租给一个任务太浪费，Flex:AI 可以把一张卡切出十个 10% 的小舱位，多个任务并行跑，资源变得更细、更灵活。更重大的是，华为把这套工具开源了，源码放到仓库，任何人都能拿走、看懂、改造，等于把以前只有厂商或大公司能用的调度能力，变成了人人可进的公共工具箱。

现场的演示直观得很：本来一张卡只能扛一件活，目前界面上同时在跑十好几个训练和推理任务，每个任务只占一点点卡的资源。还有个花活，把不同厂家的加速卡临时拼在一块，遇到大活儿就像把几块乐高拼成一张更大的“虚拟大卡”，任务完了再拆开继续按需用。有台电脑上直接把英伟达的卡和华为的昇腾一起拉进调度池，界面一键分配算力，画面看着挺顺溜的。

要清楚为啥要做这事，得回过头看看目前的算力利用现状。大家训练完模型，显卡常常半夜或者白天闲着；就算在用，也常常只用到一小部分。公开数据表明，平均利用率不到一半，许多算力像是买了铺位却没人住。再一个老问题是设备不互通：英伟达、昇腾、别的加速器都有自己的一套驱动和调度逻辑，想把它们混合起来用，技术和成本都高。以前也有人做过类似的事，列如 Run:ai 能把资源管理得更精细，但早期只支持英伟达，而且是收费的，用户一旦进了那个生态，出不来。华为这回开源，是把这个门槛往下放。

Flex:AI 的关键点挺直接。它能把显卡切得很细，演示里能做到单卡切出十份左右，每份大约百分之十；它提供了跨厂商的调度接口，不管下面是英伟达还是昇腾，调度层都能统一看到并分配；还支持短期“拼卡”，几台机器可以临时合成更大的算力去处理突发大任务。技术上讲，这不只是简单的资源分配，而是把 GPU 管理做成更细粒度的虚拟化，再配上调度策略和统一接口，目的是把闲置和零碎的算力都挤出来用起来。

目前这种事，要和容器技术扯上关系。超过七成的 AI 应用都跑在容器里，容器把软件和环境包好，部署方便。但现有的容器生态对显卡这种硬件的管理还比较粗旷，以前容器主要解决“程序在哪台机器上跑”的问题，没深入到“显卡里面哪一小块该给谁用”。Flex:AI 把关注点往下沉，把容器从打包搬家的箱子，推进到能直接管理算力的运行时。这样一来，容器在 AI 场景里的角色就变了，不只是搬家工具，更像是算力的操作系统。

这件事对云服务商和市场模式会有直接影响。像阿里云、腾讯云这类提供显卡租赁服务的公司，许多计费逻辑是按整卡或整机算。如果用户未来能按实际占用比例付费，列如只付 10% 的成本，那原来的计费和盈利方式得改。华为选择开源，不是把工具扔给社区就完事，云厂商都会盯着看：是直接接纳改变，还是在接口上做插件、搞兼容、或者把新能力包装成增值服务，把客户继续留住，这些都是商业博弈。

再把视角拉远一点，还牵扯到产业链和国际关系问题。长期以来，中国在高端训练算力上对英伟达依赖挺深。美国对部分高性能 GPU 的出口管制，让国内厂商头疼。华为这次没有去直接撬硬件供应，而是把管理能力做出来：通过软件把昇腾这样的加速器放在能被更高效利用的位置。如果这条路走得通，像 AMD、寒武纪等厂商更容易被拉进来，理论上能形成一个比较开放的算力联盟——多家硬件厂商、统一的上层调度。软件层面把异构问题统一起来，硬件选择的弹性会更大一些。

发布会上气氛不张扬，但动作已经开始动起来。华为把代码推到开源仓库，现场开发者有人立刻把代码拉下来跑了小测试；社区里有人在私有集群上试，有人做了性能比对，也有人开始搜哪种老旧工具可以和 Flex:AI 搭配。讨论围绕两点最热：一是代码和接口的稳定性，能不能直接在生产环境替代云厂商现有的调度模块；二是性能和安全，细粒度虚拟化会不会带来额外的延迟，或者隔离不够导致任务相互干扰。

从技术细节看，问题并不简单。把显卡拆成小份儿，除了分配计算核外，还得搞清楚内存隔离怎么做、带宽如何分配、不同任务之间的干扰怎么控制、动态扩缩容时迁移成本怎么压低。演示里能看到调度器在短时间内把几个任务从一张卡迁到另一张卡，把几张卡的空闲份额拼到一起，但在真实的生产环境里，还得思考数据本地性、训练长任务的断点续跑、状态保存这些细节。华为团队在答问环节也承认这些挑战，并说会通过后续优化和社区合作逐步完善。

社区里有人表明挺欢迎，理由直白：小团队和高校实验室常常买不起整机或整卡，能把闲置算力更灵活地复用或变现，对他们友善。也有人比较谨慎：怕厂商利益博弈把事儿搞复杂，云厂商不必定会第一时间放弃利润高的整卡计费，会用兼容插件、接入门槛或者收费功能来保住收入。安全方面也有人提问：开源意味着更多人能看代码，但也可能暴露攻击面，分时共享算力时的租户隔离和数据保护得有明确保障。

发布会后，现场的演示视频和代码链接马上在技术社区里传播。有人贴出在私有集群上的测试截图，有人做了吞吐和延迟的对比表，还有人发帖问哪些场景更适合短期拼卡。几家高校和研究机构也表明会拿去做实验，看看在科研计算场景下算力利用率能不能明显提升。华为方面承诺会把一些实用的调度策略和最佳实践整理成文档，方便不同硬件组合下的试验。

从更宽的角度看，这事把原来由硬件主导的算力调度问题，推到软件和生态层面。接下来要看的是三件事：开发者社区会不会积极接纳并贡献；云服务商会怎么调整收费和上层服务；其他芯片厂商是否愿意在接口和驱动层做适配。接下来的几个月会是观测期，企业内部的测试、社区的实战反馈、以及各大云厂商和硬件厂商的策略动作，会逐渐把这盘棋摆清楚。测试还在继续，代码库也在更新，现场那些拉着代码赶回去试的小团队还在贴出新数据。