摩尔线程CEO张建中：万卡集群是AI主战场上的标配

本文由半导体产业纵横（ID：ICVIEWS）综合摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展。

“从今天起，世界彻底改变了。”这是GPT-3算法的发明人埃德·莱昂·克林格在GPT-3出现时说的一句话。这是一个AI的时代，这是一个算力的时代。今日，摩尔线程重磅宣布其AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从当前的千卡级别大幅扩展至万卡规模。

同时，摩尔线程联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司，分别就三个万卡集群项目进行了战略签约，多方聚力共同构建好用的国产GPU集群。

此外，我们从现场也看到摩尔线程的产品能力和强大的生态链接力。与来自清华系两家公司无问芯穹和清程极智已经开始深度合作，无问芯穹是由清华大学电子工程系系主任汪玉教授发起的，清程极智由清华大学计算机系郑纬民院士发起的。还有京东、360、智平方等多家国内企业，夸娥智算集群助力其在大模型训练、大模型推理、具身智能等不同场景和领域的创新。

万卡是最低标配

大模型自问世以来，关于其未来的走向和发展趋势亟待时间验证，但从当前来看，几种演进趋势值得关注，使得其对算力的核心需求也愈发明晰。第一，Scaling Law将持续奏效。需要单点规模够大并且通用的算力才能快速跟上技术演进。第二，Transformer架构不能实现大一统，和其他架构会持续演进并共存，形成多元化的技术生态。第三，AI、3D和HPC跨技术与跨领域融合不断加速，大模型的训练和应用环境更加复杂多元。

随着计算量不断攀升，大模型训练亟需超级工厂，即一个“大且通用”的加速计算平台，以缩短训练时间。以Llama 3为例，在它问世之际，Meta就公布了其基础设施详情：“我们在两个定制的24K GPU集群上做训练。”摩尔线程创始人张建中提出了一个标准：“AI主战场，万卡是最低标配。”

国产万卡万P万亿大模型训练平台

夸娥（KUAE）是摩尔线程智算中心全栈解决方案，是以全功能GPU为底座，软硬一体化、完整的系统级算力解决方案，包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台（KUAE Platform）以及夸娥大模型服务平台（KUAE ModelStudio），旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。

基于对AI算力需求的深刻洞察和前瞻性布局，摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展，旨在满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求，通过整合超大规模的GPU万卡集群、极致的计算效率优化以及高度稳定的运行环境，以万卡智算集群的新超级工程，重新定义国产集群计算能力的新标准。夸娥万卡智算解决方案具备多个核心特性：

超大算力，万卡万P。浮点运算能力达到10Exa-Flops，大幅提升单集群计算性能，能够为万亿参数级别大模型训练提供坚实算力基础。

超高稳定，月级长稳训练。在集群稳定性方面，摩尔线程夸娥万卡集群平均无故障运行时间超过15天，最长可实现大模型稳定训练30天以上，周均训练有效率在99%以上，远超行业平均水平。

极致优化，超高MFU：实现大模型的高效率训练，MFU最高可达到60%。在系统软件层面，基于极致的计算和通讯效率优化等技术手段，大幅提升集群的执行效率和性能表现。

全能通用，生态友好：可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型。s同时，基于高效易用的MUSA编程语言、完整兼容CUDA能力和自动化迁移工具Musify，加速新模型“Day0”级迁移，实现生态适配“Instant On”，助力客户业务快速上线。

构建万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。

张建中也感叹到：“万卡集成的难度比登喜马拉雅山还难。”

共建大模型应用生态

根据《2023~2024年中国人工智能计算力发展评估报告》，中国智能算力规模正处于高速增长状态。预计到2027年，中国智能算力规模将达1117.4EFLOPS，2022~2027年期间的年复合增长率为33.9%。万卡集群的建设需要产业界的齐心协力，为实现大模型创新应用的快速落地，让国产算力“为用而建”。

在今日的发布会线程，摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司，分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

今年5月，摩尔线程与无问芯穹正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”。MT-infini-3B模型训练总用时13.2天，经过精度调试，实现全程稳定训练不中断，集群训练稳定性达到100%，千卡训练和单机相比扩展效率超过90%。在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。

清程极智与摩尔线程合作的过程中，发现其硬件架构、指令集、编译器、MUSA软件栈等设计非常优秀，极具潜力。清程极智将与摩尔线程强强联合，携手打造世界水平的大模型基础设施。

此外，摩尔线程还与360、京东云、智平方等多家国内企业合作。

结语

随着今年“AI+”首次被写入两会工作报告，AI算力成为新质生产力的重要引擎。智算中心不应只是硬件的堆积，更是对软硬一体化的GPU智算系统整合能力的考验，GPU分布式计算系统的适配、算力集群的管理和高效推理引擎的应用等，都是提高算力中心可用性的重要因素。

四年多的潜心发展，摩尔线程在 AI GPU 方面具备了强劲的实力，构建起了一张包括芯片、板卡、服务器、集群和软件栈的全栈 AI 产品版图，并且已经多点实现落地。正如摩尔线程创始人兼CEO张建中所言：“当前，我们正处在生成式人工智能的黄金时代，技术交织催动智能涌现，GPU成为加速新技术浪潮来临的创新引擎。

夸娥万卡智算集群作为摩尔线程全栈AI战略的一块重要拼图，可为各行各业数智化转型提供澎湃算力，不仅有力彰显了摩尔线程在技术创新和工程实践上的实力，更将成为推动AI产业发展的新起点。”

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MCP23017-E/SS	1	Microchip Technology Inc	16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28	ECAD模型下载ECAD模型	$1.69	查看
ATXMEGA128A4U-MHR	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44		$4.48	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下载ECAD模型	$29.61	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MCP23017-E/SS

Microchip Technology Inc

16 I/O, PIA-GENERAL PURPOSE, PDSO28, 5.30 MM, PLASTIC, SSOP-28