加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    •  万卡是最低标配
    •  国产万卡万P万亿大模型训练平台
    •  共建大模型应用生态
    •  结语
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

摩尔线程CEO张建中:万卡集群是AI主战场上的标配

07/04 11:25
1258
阅读需 9 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

本文由半导体产业纵横(ID:ICVIEWS)综合摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展。

“从今天起,世界彻底改变了。”这是GPT-3算法的发明人埃德·莱昂·克林格在GPT-3出现时说的一句话。这是一个AI的时代,这是一个算力的时代。今日,摩尔线程重磅宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。

同时,摩尔线程联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司,分别就三个万卡集群项目进行了战略签约,多方聚力共同构建好用的国产GPU集群。

此外,我们从现场也看到摩尔线程的产品能力和强大的生态链接力。与来自清华系两家公司无问芯穹清程极智已经开始深度合作,无问芯穹是由清华大学电子工程系系主任汪玉教授发起的,清程极智由清华大学计算机系郑纬民院士发起的。还有京东、360、智平方等多家国内企业,夸娥智算集群助力其在大模型训练、大模型推理、具身智能等不同场景和领域的创新。

 万卡是最低标配

大模型自问世以来,关于其未来的走向和发展趋势亟待时间验证,但从当前来看,几种演进趋势值得关注,使得其对算力的核心需求也愈发明晰。第一,Scaling Law将持续奏效。需要单点规模够大并且通用的算力才能快速跟上技术演进。第二,Transformer架构不能实现大一统,和其他架构会持续演进并共存,形成多元化的技术生态。第三,AI、3D和HPC跨技术与跨领域融合不断加速,大模型的训练和应用环境更加复杂多元。

随着计算量不断攀升,大模型训练亟需超级工厂,即一个“大且通用”的加速计算平台,以缩短训练时间。以Llama 3为例,在它问世之际,Meta就公布了其基础设施详情:“我们在两个定制的24K GPU集群上做训练。”摩尔线程创始人张建中提出了一个标准:“AI主战场,万卡是最低标配。”

 国产万卡万P万亿大模型训练平台

夸娥(KUAE)是摩尔线程智算中心全栈解决方案,是以全功能GPU为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。

基于对AI算力需求的深刻洞察和前瞻性布局,摩尔线程夸娥智算集群可实现从千卡至万卡集群的无缝扩展,旨在满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求,通过整合超大规模的GPU万卡集群、极致的计算效率优化以及高度稳定的运行环境,以万卡智算集群的新超级工程,重新定义国产集群计算能力的新标准。夸娥万卡智算解决方案具备多个核心特性:

大算力,万卡万P。浮点运算能力达到10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。

超高稳定,月级长稳训练。在集群稳定性方面,摩尔线程夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上,远超行业平均水平。

极致优化,超高MFU:实现大模型的高效率训练,MFU最高可达到60%。在系统软件层面,基于极致的计算和通讯效率优化等技术手段,大幅提升集群的执行效率和性能表现。

全能通用,生态友好:可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型。s同时,基于高效易用的MUSA编程语言、完整兼容CUDA能力和自动化迁移工具Musify,加速新模型“Day0”级迁移,实现生态适配“Instant On”,助力客户业务快速上线。

构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。

张建中也感叹到:“万卡集成的难度比登喜马拉雅山还难。”

 共建大模型应用生态

根据《2023~2024年中国人工智能计算力发展评估报告》,中国智能算力规模正处于高速增长状态。预计到2027年,中国智能算力规模将达1117.4EFLOPS,2022~2027年期间的年复合增长率为33.9%。万卡集群的建设需要产业界的齐心协力,为实现大模型创新应用的快速落地,让国产算力“为用而建”。

在今日的发布会线程,摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司,分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

今年5月,摩尔线程与无问芯穹正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。该模型名为“MT-infini-3B”。MT-infini-3B模型训练总用时13.2天,经过精度调试,实现全程稳定训练不中断,集群训练稳定性达到100%,千卡训练和单机相比扩展效率超过90%。在行业内率先开启了国产大语言模型与国产GPU千卡智算集群深度合作的新范式。

清程极智与摩尔线程合作的过程中,发现其硬件架构、指令集编译器、MUSA软件栈等设计非常优秀,极具潜力。清程极智将与摩尔线程强强联合,携手打造世界水平的大模型基础设施。

此外,摩尔线程还与360、京东云、智平方等多家国内企业合作。

 结语

随着今年“AI+”首次被写入两会工作报告,AI算力成为新质生产力的重要引擎。智算中心不应只是硬件的堆积,更是对软硬一体化的GPU智算系统整合能力的考验,GPU分布式计算系统的适配、算力集群的管理和高效推理引擎的应用等,都是提高算力中心可用性的重要因素。

四年多的潜心发展,摩尔线程在 AI GPU 方面具备了强劲的实力,构建起了一张包括芯片、板卡、服务器、集群和软件栈的全栈 AI 产品版图,并且已经多点实现落地。正如摩尔线程创始人兼CEO张建中所言:“当前,我们正处在生成式人工智能的黄金时代,技术交织催动智能涌现,GPU成为加速新技术浪潮来临的创新引擎。

夸娥万卡智算集群作为摩尔线程全栈AI战略的一块重要拼图,可为各行各业数智化转型提供澎湃算力,不仅有力彰显了摩尔线程在技术创新和工程实践上的实力,更将成为推动AI产业发展的新起点。”

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F207ZGT6TR 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下载ECAD模型
$13.88 查看
STM32H743ZIT6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下载ECAD模型
$22.21 查看
ATXMEGA32A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44TQFP

ECAD模型

下载ECAD模型
$3.78 查看
摩尔线程

摩尔线程

摩尔线程致力于创新面向元计算应用的新一代GPU,构建融合视觉计算、3D图形计算、科学计算及人工智能计算的综合计算平台,建立基于云原生GPU计算的生态系统,助力驱动数字经济发展。

摩尔线程致力于创新面向元计算应用的新一代GPU,构建融合视觉计算、3D图形计算、科学计算及人工智能计算的综合计算平台,建立基于云原生GPU计算的生态系统,助力驱动数字经济发展。收起

查看更多

相关推荐

电子产业图谱

公众号:半导体产业纵横。立足产业视角,提供及时、专业、深度的前沿洞见、技术速递、趋势解析,链接产业资源,构建IC生态圈,赋能中国半导体产业,我们一直在路上。