融合算力调度：KubeCASH的四大高级特征

欢迎关注软硬件融合：

Kubernetes（K8S）是一个开源的容器编排平台，是基于容器进行算力调度的核心。AI大模型发展迅速，K8S对加速计算的支持力度明显不够，需要针对加速计算做全方位的优化和增强。

KubeCASH，是Kubernetes+CASH（Converged Architecture of Software and Hardware，软硬件融合架构）的整合。KubeCASH系统，主要从计算架构、云边端协同、算力网络、软硬件协同四个方面进行了优化增强；并且，不仅仅是技术层面的优化，还包含了对产品和业务层面的优化和支持。

本篇文章，我们详细介绍KubeCASH在这四个方面的优化。

1 融合计算的定义

算力是一个庞大的系统工程，从软硬件技术角度来说，就是要实现融合计算。融合计算指的是，异构融合 x 软硬件融合 x 云边端融合。

如上图所示，我们通过XYZ三个维度来进一步阐述：

X轴，异构融合：通过异构融合计算，把各类异构算力和融合算力的价值发挥到极致。

Y轴，软硬件融合：通过核心的开放一致性的跨集群管理系统，承上启下，融合软硬件堆栈，开源开放。

运营商

只有从微观到宏观，实现全方位的整合优化，实现融合计算，才能实现算力的最优性能和最低成本。

2 KubeCASH简介

Kubernetes（K8S）是一个开源的容器编排平台，是基于容器进行算力调度的核心。传统K8S仅基于CPU优化软件，而针对更多加速计算的支持力度不够。随着AI大模型的发展，加速计算已经成为主流，并且加速计算的类型和架构会越来越多，K8S已经力有不逮。

KubeCASH，则是在K8S基础上，针对加速计算所需的软硬件融合（CASH，Converged Architecture of Software and Hardware，软硬件融合架构）能力进行了优化增强，主要表现在如下四个方面：

芯片

分布式计算

数据中心

（算力网络增强）技术层面的算力网络，关键在于网络优化；而业务层面的算力网络，是算力行业逐渐走向分工协同的发展趋势。针对算力网络，针对客户业务需求，做了相应的增强。

（软硬件协同，开源开放，融合计算Y轴）提供南向和北向开放接口，对接各类软件和硬件。

KubeCASH的核心是算力优化，会针对算力的软硬件持续优化，目标是：同成本情况下，算力提升100-1000倍；反过来，同算力情况下，成本降低到1/100以下。

3 特征一：异构融合和多元异构

算力中心的算力多样性，主要体现在异构融合和多元异构两个方面：

NVIDIA

从计算架构的角度，KubeCASH对如下四个类型的计算架构进行了优化支持：

第一类（K8S默认支持），CPU同构计算。

TPU

服务器

处理器

第四类（长期目标），通过SOC芯片级的架构重构，或CPU、GPU、多种加速DSA芯片的芯片级交互优化以及定制服务器优化，实现对异构融合计算的支持。

实现对多元算力支持的核心在于算力调度，也就是把最合适的任务调度到最合适的计算平台上去。多元算力调度最基本的要求是架构和功能特征匹配。此外，还需要根据成本和剩余资源情况等动态更新优先级，从而达到最优的算力调度。

从云计算数据中心到AI智算中心，多样性算力越来越多。多元算力调度，是智算中心发展的重要特点之一。并且，多元算力调度，持续发展，未来会形成标准一致的算力调度平台，并对算力芯片形成反向约束，所有算力芯片资源按照既定接口接入，而平台不关心芯片架构实现的差异性。

对智算中心来说，统一标准的多元算力调度还有一个优势：标准统一的多元算力调度平台，智算中心不会被特定平台“绑架”，“谁性能好、效率高、价格低，就选谁”；没有了平台依赖，芯片公司真正“公平竞争”，智算中心不需要为生态溢价付费。

4 特征二：从跨集群到跨云边端

目前，边缘计算的发展并不是很顺利，云边端协同计算停留在样板阶段，难以规模化；云边端融合，更是遥不可及。我们简单分析一下问题症结所在：

云计算，通常仅关注到云端服务，无法涉及终端计算和边缘计算。

终端计算，通常也只能关注到终端本地。如果需要云端协作，需要把系统进行C/S架构划分，以及各自独立的终端和云端开发过程和业务运行环境。并且，系统划分是静态的，无法在运行期间动态调整。

如果涉及到边缘计算，问题就更复杂了。哪些工作该云端做？哪些工作该边缘做？哪些工作该终端做？在开发的早期阶段，对如此复杂的系统架构约束，要做好准确的系统划分非常困难，发现问题后修正的代价也很高。并且，云端、边缘和终端的开发进程和运行环境都各自独立，开发和协同的成本都非常的高。

要实现跨云边端的协同计算，甚至云边端融合，主要做两方面事情：

另一方面，业务侧。业务应用微服务化。每个微服务的重要程度、带宽、延迟等因素，以及微服务间的耦合性等因素，都是算力调度所需的关键参数。

最终，通过大模型加持的KubeCASH智能化算力调度，实现业务无感的云边端融合计算。

5 特征三：增强算力网络

算力网络，包含两层含义：

一个是技术层面的算力网络：指的是通过高速网络，把更多的算力中心连接起来，统一调度。更广泛的，这些算力网络包含的算力，既包括大规模和超大规模的云端算力中心，也包括中小规模的边缘算力中心，还包括各类智能化的海量的终端设备（算力调度主要体现在多元算力调度和跨集群、跨云边端算力调度）。

5.1 技术层的算力网络

云计算有区域（Region）和可用区（Available Zone）的概念，以亚马逊AWS为例，在34个区域（Region）运营108个可用区（Available Zone），并计划在墨西哥等地，增加18个可用区和6个区域。

一个可用区通常为物理上独立的机房，然后就近的多个可用区组成一个区域。上图为典型的公有云计算的基于区域和可用区的网络架构示意图。

网络，是大模型时代，最大的技术瓶颈。在传统的云计算，仅关注算力中心的网络。随着云边端进一步深度协同，需要考虑跨云边端的高性能网络解决方案。整体的网络架构，需要从传统云网络架构，向云边端网络架构持续转变。

5.2 业务层的算力网络

算力中心，是位于后端的算力生产工厂；算力运营，是位于前端的算力销售平台；算力客户，可以从算力工厂直接批发，也可以从算力运营平台获取更多优质的算力服务。

以算力需求方（企业侧）为例。传统的超融合，仅关注企业私有云；后来兴起了MSP系统，则在私有云基础上加入了公有云算力的接入。而KubeCASH提供了更加丰富的算力资源属性管理：

（传统的）企业自建自用，也就是私有云集群资源；（新型的）企业自建闲置资源，可以加入算力网络。变支出为收益，为企业降本增效；（传统的）类似MSP，支持公有云算力资源接入；（新型的）对接各大主流算力网络，算力资源来源各大算力网络，算力的类型也不仅仅局限于云端，也包括边缘和终端算力；（创新的）终端算力接入。终端算力纳管，通过云边端协同，支持企业海量终端算力需求的场景落地。

因此，相比传统的MSP企业云管理，KubeCASH升级成了企业云边端管理。KubeCASH，针对算力网络三方（算力中心、算力运营和算力客户），提供相应的技术和业务支持。

算力中心

算力运营

算力客户

6 特征四：开放的软硬件接入平台

国内的许多智算中心建设运营，有两个误区：

第一个误区，算力芯片来源单一。选择某家芯片公司的芯片，此芯片对业务场景的覆盖情况，就成了制约智算中心业务发展的最大“短板”。此外，选择单一平台，智算中心对芯片公司形成依赖，会掣肘自身的发展；我们的建议是，最好是形成芯片平台无关的智算中心多样性算力的调度和运营平台。

互联网

KubeCASH的核心是异构算力调度，它承上启下：

对上，也不需要担心智算中心的硬件是否能够匹配客户的业务场景。开放的算力调度平台决定了，能够实现对绝大部分场景的支持。

（正文完）