万卡集群

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论
  • SuperPod:万卡AI集群建设挑战
    随着ChatGPT掀起的AI浪潮,大模型参数规模从百亿级跃升至万亿级,算力需求呈现指数级增长,万卡AI集群已成为支撑产业智能化的核心基础设施。本文介绍了万卡集群面临的能源、网络、软件和成本等方面的挑战,并详细阐述了液冷技术、网络架构重构、可靠性提升和国产化进程等解决方案。通过技术创新和国产化适配,万卡集群不仅提升了算力效率,还推动了AI产业的自主创新和产业化落地,成为中国AI发展的核心引擎。
    SuperPod:万卡AI集群建设挑战
  • 摩尔线程王华:万卡训练中,最危险的往往是「不报错」
    王华在第八届GAIR大会上分享了摩尔线程在国产GPU万卡级集群上的大规模训练实践经验,探讨了万卡训练面临的挑战,包括节点故障、性能抖动、通信与存储瓶颈等问题,并介绍了相应的工程解法,如模拟策略选择、异步checkpoint、慢节点治理、静默数据错误、Hang以及Inf/NaN等问题的应对措施。
    摩尔线程王华:万卡训练中,最危险的往往是「不报错」
  • 5nm AI芯片暗藏致命短板,测试瓶颈正在拖垮万卡算力?
    AI芯片的快速演进中,测试测量产业已受到深刻影响,它被迫站到摩尔定律与物理极限的交汇点寻求创新。
    5nm AI芯片暗藏致命短板,测试瓶颈正在拖垮万卡算力?
  • 中国本土GPU企业案例分析——摩尔线程
    2024 年中国本土 AI 芯片品牌渗透率已提升至 30%,但高端市场仍由英伟达主导。随着某西方国家自2024年加强对华高端 GPU 出口限制,为国产替代创造了窗口期。 过去五年,中国 GPU 产业呈现快速增长态势,市场规模从 2020 年的 384.77 亿元快速增长到 2024 年的 1,638.17 亿元。未来,随着 AI 的应用不断开发,对于 GPU 等算力基础设施的需求预计将会出现爆发增
    1.6万
    2025/07/08
    中国本土GPU企业案例分析——摩尔线程
  • 从“万卡集群”到“十万卡集群”,需要怎样的高速互连技术?
    随着生成式人工智能功能的日益强大,使得模型训练需求呈现爆发式增长。在这一背景下,任何单一的图形处理器(GPU)、异构处理器(XPU)或其他人工智能加速器,都已难以满足人工智能工作负载的庞大计算需求。
    从“万卡集群”到“十万卡集群”,需要怎样的高速互连技术?
  • DeepSeek来了,万卡还是AI入场券吗?
    人工智能的极限就是拼卡的极限。顶级AI公司为这场“暴力美学”竞赛设定了单点集群万卡的门槛。OpenAI的单点集群5万张卡,谷歌2.6万张卡,Meta2.45万张卡。摩尔线程创始人兼CEO张建中曾在发布会上表示,“AI主战场,万卡是最低标配。”而随着DeepSeek的横空出世,一场关于AI规则重写的大戏正在上演。
    DeepSeek来了,万卡还是AI入场券吗?

正在努力加载...