昨天在上海,华为办了一场发布会,他们没有强调芯片有多厉害,也没有说模型规模有多大,而是介绍了怎样把一张显卡分割成多个小块来使用,列如原本一张卡只能运行一个任务,目前可以切出十个10%的虚拟单元,同时执行不同的程序,重大的是,华为把这个技术公开了,谁都可以拿来修改,谁都可以直接使用。
目前大家使用AI时,算力浪费很严重,全球平均利用率还不到一半,训练完模型后显卡就闲置下来,更麻烦的是不同厂家的硬件互不兼容,英伟达、华为昇腾和其他加速卡各有各的调度系统,企业想混合使用这些设备基本做不到,以前有个叫Run:ai的工具,但只支持英伟达并且收费,等于给用户限制在一个范围内。

华为这次的Flex:AI主要做了三件事,一是把算力分得很细,连10%都能单独切出来使用,二是无论用户用英伟达还是昇腾的硬件,它都可以统一管理调度,三是能够临时把几台设备的算力拼在一起,用来处理突然出现的大任务,就像把零散的积木快速搭成一个大玩具,用完再拆开那样灵活方便。
实则容器技术已经广泛使用,超过七成的AI应用都在容器里运行,但传统容器方案列如K8s对GPU资源调度还比较粗放,以前它们主要解决的是软件部署位置无关的问题,目前Flex:ai要处理的是如何高效利用算力避免浪费,将来容器可能会发展成管理算力的操作系统,而不仅仅是打包工具。
中国公司长期受制于英伟达的芯片供应,华为推出的这套系统给昇腾芯片找到了实际应用场景,如果AMD和寒武纪这类厂商也加入进来,或许能够形成一个开放的算力联盟,美国对芯片出口施加限制后,华为没有直接对抗,而是通过软件方式解决了部分问题。
云服务商可能有些担心,阿里云和腾讯云依赖英伟达硬件和自家的调度系统来盈利,目前华为把技术开源了,客户可能会思考是否还需要为整张显卡付费,转而希望只按实际使用量计费,这样一来成本结构就需要调整,目前这只是个开始,后续发展还要看各方的应对方式。




