算力闲置成常态,华为出手切碎GPU,行业格局重塑

内容分享4小时前发布
0 0 0

发布会是在上海,时间就在昨天。台上没摆谱,也没靠吹大模型来吸睛,主角是个叫 Flex:AI 的东西——把整块显卡按需切成好几份,像合租房间那样分配给不同程序用。整卡整卡地租给一个任务太浪费,Flex:AI 可以把一张卡切出十个 10% 的小舱位,多个任务并行跑,资源变得更细、更灵活。更重大的是,华为把这套工具开源了,源码放到仓库,任何人都能拿走、看懂、改造,等于把以前只有厂商或大公司能用的调度能力,变成了人人可进的公共工具箱。

算力闲置成常态,华为出手切碎GPU,行业格局重塑

现场的演示直观得很:本来一张卡只能扛一件活,目前界面上同时在跑十好几个训练和推理任务,每个任务只占一点点卡的资源。还有个花活,把不同厂家的加速卡临时拼在一块,遇到大活儿就像把几块乐高拼成一张更大的“虚拟大卡”,任务完了再拆开继续按需用。有台电脑上直接把英伟达的卡和华为的昇腾一起拉进调度池,界面一键分配算力,画面看着挺顺溜的。

要清楚为啥要做这事,得回过头看看目前的算力利用现状。大家训练完模型,显卡常常半夜或者白天闲着;就算在用,也常常只用到一小部分。公开数据表明,平均利用率不到一半,许多算力像是买了铺位却没人住。再一个老问题是设备不互通:英伟达、昇腾、别的加速器都有自己的一套驱动和调度逻辑,想把它们混合起来用,技术和成本都高。以前也有人做过类似的事,列如 Run:ai 能把资源管理得更精细,但早期只支持英伟达,而且是收费的,用户一旦进了那个生态,出不来。华为这回开源,是把这个门槛往下放。

Flex:AI 的关键点挺直接。它能把显卡切得很细,演示里能做到单卡切出十份左右,每份大约百分之十;它提供了跨厂商的调度接口,不管下面是英伟达还是昇腾,调度层都能统一看到并分配;还支持短期“拼卡”,几台机器可以临时合成更大的算力去处理突发大任务。技术上讲,这不只是简单的资源分配,而是把 GPU 管理做成更细粒度的虚拟化,再配上调度策略和统一接口,目的是把闲置和零碎的算力都挤出来用起来。

目前这种事,要和容器技术扯上关系。超过七成的 AI 应用都跑在容器里,容器把软件和环境包好,部署方便。但现有的容器生态对显卡这种硬件的管理还比较粗旷,以前容器主要解决“程序在哪台机器上跑”的问题,没深入到“显卡里面哪一小块该给谁用”。Flex:AI 把关注点往下沉,把容器从打包搬家的箱子,推进到能直接管理算力的运行时。这样一来,容器在 AI 场景里的角色就变了,不只是搬家工具,更像是算力的操作系统。

这件事对云服务商和市场模式会有直接影响。像阿里云、腾讯云这类提供显卡租赁服务的公司,许多计费逻辑是按整卡或整机算。如果用户未来能按实际占用比例付费,列如只付 10% 的成本,那原来的计费和盈利方式得改。华为选择开源,不是把工具扔给社区就完事,云厂商都会盯着看:是直接接纳改变,还是在接口上做插件、搞兼容、或者把新能力包装成增值服务,把客户继续留住,这些都是商业博弈。

再把视角拉远一点,还牵扯到产业链和国际关系问题。长期以来,中国在高端训练算力上对英伟达依赖挺深。美国对部分高性能 GPU 的出口管制,让国内厂商头疼。华为这次没有去直接撬硬件供应,而是把管理能力做出来:通过软件把昇腾这样的加速器放在能被更高效利用的位置。如果这条路走得通,像 AMD、寒武纪等厂商更容易被拉进来,理论上能形成一个比较开放的算力联盟——多家硬件厂商、统一的上层调度。软件层面把异构问题统一起来,硬件选择的弹性会更大一些。

发布会上气氛不张扬,但动作已经开始动起来。华为把代码推到开源仓库,现场开发者有人立刻把代码拉下来跑了小测试;社区里有人在私有集群上试,有人做了性能比对,也有人开始搜哪种老旧工具可以和 Flex:AI 搭配。讨论围绕两点最热:一是代码和接口的稳定性,能不能直接在生产环境替代云厂商现有的调度模块;二是性能和安全,细粒度虚拟化会不会带来额外的延迟,或者隔离不够导致任务相互干扰。

从技术细节看,问题并不简单。把显卡拆成小份儿,除了分配计算核外,还得搞清楚内存隔离怎么做、带宽如何分配、不同任务之间的干扰怎么控制、动态扩缩容时迁移成本怎么压低。演示里能看到调度器在短时间内把几个任务从一张卡迁到另一张卡,把几张卡的空闲份额拼到一起,但在真实的生产环境里,还得思考数据本地性、训练长任务的断点续跑、状态保存这些细节。华为团队在答问环节也承认这些挑战,并说会通过后续优化和社区合作逐步完善。

社区里有人表明挺欢迎,理由直白:小团队和高校实验室常常买不起整机或整卡,能把闲置算力更灵活地复用或变现,对他们友善。也有人比较谨慎:怕厂商利益博弈把事儿搞复杂,云厂商不必定会第一时间放弃利润高的整卡计费,会用兼容插件、接入门槛或者收费功能来保住收入。安全方面也有人提问:开源意味着更多人能看代码,但也可能暴露攻击面,分时共享算力时的租户隔离和数据保护得有明确保障。

发布会后,现场的演示视频和代码链接马上在技术社区里传播。有人贴出在私有集群上的测试截图,有人做了吞吐和延迟的对比表,还有人发帖问哪些场景更适合短期拼卡。几家高校和研究机构也表明会拿去做实验,看看在科研计算场景下算力利用率能不能明显提升。华为方面承诺会把一些实用的调度策略和最佳实践整理成文档,方便不同硬件组合下的试验。

从更宽的角度看,这事把原来由硬件主导的算力调度问题,推到软件和生态层面。接下来要看的是三件事:开发者社区会不会积极接纳并贡献;云服务商会怎么调整收费和上层服务;其他芯片厂商是否愿意在接口和驱动层做适配。接下来的几个月会是观测期,企业内部的测试、社区的实战反馈、以及各大云厂商和硬件厂商的策略动作,会逐渐把这盘棋摆清楚。测试还在继续,代码库也在更新,现场那些拉着代码赶回去试的小团队还在贴出新数据。

© 版权声明

相关文章

暂无评论

none
暂无评论...