日前,摩尔线程宣布AI旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从千卡级别大幅扩展至万卡规模。该集群以全功能GPU为底座,专为万亿参数级别的复杂大模型训练而设计,旨在打造能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台。
“摩尔线程推出夸娥(KUAE)万卡智算集群解决方案,希望能够建设一个规模超万卡、场景更通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题”,摩尔线程创始人兼CEO张建中表示:“夸娥万卡智算集群作为摩尔线程全栈AI战略的一块重要拼图,可为各行各业数智化转型提供澎湃算力。”
AI大模型持续扩展趋势下,万卡通用算力成为标配
张建中指出,“通用加速计算平台正处在黄金时刻,我们看到了Scaling Law这个演进规律:需要单点规模够大并且通用的算力,才能快速跟上技术演进变化。如果规模够大、计算通用、生态兼容这三点都做好的话,对使用者来说就是非常好用的平台。”
摩尔线程创始人兼CEO 张建中
所谓万卡集群,是指由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,用以训练基础大模型。该类集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。
一些重要的趋势正在演进:一方面,Transformer架构仍在加速进步,它虽然是目前的主流架构,但是并不会大一统,其他创新架构仍在不断出现,如Mamba、RWKV和RetNet等,旨在提升计算效率,加速迭代创新。
另一方面,AI+3D+HPC在实现加速融合,从而带来计算范式的变化。比如AI+3D、AI+仿真计算、AI+FP64科学计算等,这些都需要通用加速计算平台,才能满足更多场景对多元计算的需求。
应对上述趋势,一个“大且通用”的加速计算平台越来越成为标配,以缩短训练时间,实现模型能力的快速迭代。
国际头部公司正在积极部署千卡乃至超万卡规模的计算集群,比如:Google推出的超级计算机 A3 Virtual Machines,拥有26000块 Nvidia H100 GPU,同时基于自研芯片搭建了TPUv5p 8960卡集群;Meta 今年初公布了2个24576块Nvidia H100的集群,用于支持下一代生成式Al模型的训练。
国内市场方面,通信运营商、头部互联网、大型AI研发企业、AI初创企业等都在超万卡集群的建设和使用过程中不断推动技术革新。例如字节跳动、阿里巴巴、百度等互联网公司正在积极推进超万卡集群的建设。其中,字节跳动搭建了12288 卡的Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型;科大讯飞在2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。
“国产智算万卡集群——做难而正确的事”
万卡集群并不是一万张GPU卡的简单堆叠,而是一个超级复杂的系统工程。
张建中指出,万卡集群当前面临的主要问题,包括超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等。
这其中涉及诸多的技术难点,仅以超大规模组网互联、集群有效计算效率(MFU)以及训练的高稳定性这三项技术细节来看:
超大规模组网互联包括参数面网络、数据面网络、业务面网络、管理面网络等,而不同的网络需要采取不同的组网部署方式。超万卡集群对参数面网络(计算网络)的要求最高,因为它主要用于计算节点之间的参数交换,要求具备高带宽无损能力。并且,参数面网络的速度与稳定性决定着整个集群的运行效率,要通过各种拥塞控制优化机制、负载均衡以及故障快速感知等技术手段,才能保证网络传输的零丢包无损、高吞吐与高稳定等。
集群有效计算效率即MFU方面,大量实践表明,集群规模的线性提升无法直接带来集群有效算力的线性提升,因为受限于芯片计算性能(芯片及算子使用效率)、GPU显存的访问性能(内存和I/O访问瓶颈)、卡间互联带宽、有效的分布式并行策略等。
在训练的高稳定与高可用方面,由于超万卡集群是由数千台GPU服务器、数千台交换机、数万根光纤/数万颗光模块构成,训练任务涉及上千万器件的共同作业,任何一个部件比如一个网卡、一个光模块或一个GPU故障,整个集群就会宕机导致训练中断。因此,万卡集群高稳定和高可用是个非常大的难题。
“尽管万卡建设难,挑战巨大,但摩尔线程坚信,这是一条难而正确的道路,我们致力于通过夸娥万卡智算集群,为AI大模型与通用人工智能的发展提供坚实的支撑”,张建中表示。
以国产全功能GPU为技术底座,摩尔线程的夸娥万卡智算解决方案实现了几大核心的护城河:
- 超大算力,万卡万P:单集群规模超万卡,浮点运算能力达10Exa-Flops,提供PB级显存容量和超高速卡间与节点间互联带宽,实现算力、显存和带宽的协同优化。
- 超高稳定,月级长稳训练:平均无故障运行时间超15天,支持30天以上长稳训练,周均训练有效率超过99%,采用多级可靠机制实现软硬件故障快速定位和训练任务快速恢复。
- 极致优化,超高MFU:MFU最高达60%,通过系统软件、框架、算法优化,支持自适应混合并行策略和显存优化,有效缩减计算时间和显存占用,提升训练效率。
- 全能通用,生态友好:适用于多种架构和模态的大模型,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型。基于MUSA编程语言和CUDA兼容能力,可实现新模型快速迁移和生态适配,加速业务上线。
相信AGI到来,致力于全功能的通用加速计算平台
张建中解释说,集群不是“堆卡“,主要在于单位功耗的算力在提升,而这来源于整个架构的改善、效率的提升,需要整个系统的调优。实际上,从千卡到万卡的升级建设过程中,万卡平均每瓦的算力提升了很多。
同时,国产集群具有生态兼容性优势,开发者移植到夸娥集群上,几乎不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作,能够显著节约用户和厂商的资源。
依据以往千卡级集群的建设和使用经验来看,如果是首次适配,通常数小时之内就可以在平台上运行起来;而对于已适配的大模型,用户无需额外工作即可运行。对于性能调优来说,是一个相对耗时的过程,因不同模型和芯片厂商的策略而有不同。
毫无疑问,在算力规模持续扩大的趋势下,网络通信能力成为一大关键。特别是对于建设万卡以上的集群来说,交换机技术是必备的。
据了解,摩尔线程目前在卡间互连采用自研MTLink,现在已经更迭到2.0版本。交换机方面,采用的行业的交换机芯片搭建集群。张建中表示,摩尔线程后续会进行自研,或与行业合作伙伴共同研发下一代的大规模交换机。
他认为,AGI一定会到来。随着各种不同算法进步,真正算力平台应用场景的建设,越来越多的大模型应用场景会得到验证。当万卡集群建立起来,Scaling(扩展性)向上,准确度、精度、IQ能力都在提升的话,就会产生实际价值,因此未来的集群建设会是逐步提升的过程。
虽然暂时可能无法完全解决全行业的算力短缺问题,但张建中表示有决心解决大模型领域缺少大算力的问题。摩尔线程将提供提供全功能的通用加速计算平台,增加行业选择,激发开发者的创新潜力,鼓励他们探索更广泛的应用场景,以促进更多的创新。