加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01.天翼云万卡方案破解三大挑战可训万亿参数基础模型
    • 02.一站式智算服务行业大模型训推三步走
    • 03.结语:国家队出手智算云助力产业数智升级
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

越过智算云发展拐点!解读天翼云智算服务,用“组合拳”突围大模型训推难题

07/10 08:20
898
阅读需 11 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

作者 |  香草

编辑 |  漠影

天翼云万卡方案驱动万亿参数大模型训练

在大模型热潮的推动下,AI算力呈现出爆炸式的增长,为云计算行业带来新的机遇。但同时,如何满足巨大的算力需求,提供高性能、强稳定的解决方案等,也为云厂商带来新的挑战。云计算厂商如何在智能云赛道中突围?智东西7月9日报道,在2024世界人工智能大会(WAIC 2024)期间,天翼云科技有限公司董事长、总经理胡志强带来主题演讲,深入解读了天翼云在智算资源供给、智算服务能力、模型应用生态三个方面的能力。

具体来说,天翼云自建了丰富的智算资源,并汇集了大量社会智算资源;基于一体化计算加速平台云骁、一站式智算服务平台慧聚,能承载万亿参数规模的基础大模型训练及行业大模型训练推理;推出AI云电脑,构建红云大模型开发者社区,打造开放的模型生态。

其中在智算服务方面,天翼云聚焦基础大模型、行业大模型两大场景,分别提供模型开发训练、训练推理等服务,通过云骁、慧聚两大平台打造了万卡集群的平台化能力和解决方案能力,为客户提供高效、便捷、稳定的智算服务。天翼云智算服务具体能解决哪些行业痛点?是否已经在企业中落地并取得一定成效?带着这些疑问,我们试图寻找答案。

01.天翼云万卡方案破解三大挑战可训万亿参数基础模型

现阶段,大模型的参数量在Scaling Law的推动下持续增长。以OpenAI等第一梯队的大模型公司为例,其一直在扩充训练数据、加大算力投入、堆积模型参数等方向上前进,尤其是基础大模型,呈现出参数越来越大的趋势。

而随着模型参数的增加,对计算资源、存储能力和网络带宽等需求也随之增加,这对AI基础设施提出高要求。胡志强谈道,天翼云在支撑中国电信星辰大模型训练过程中,遇到的挑战主要集中在三个方面:算力、性能和稳定性

算力方面,要训练一个万亿参数大模型,至少需要单集群6000卡,甚至万卡以上规模,并通过同等规模的亚毫秒延时级RDMA(远程直接数据存取)网络,才能支撑训练过程中PB级的数据存取。

性能方面,大规模的分布式训练对算力、存储、网络协同难度大,模型训练中生成的Checkpoint文件大、读写速度慢等诸多性能问题,导致大模型训练综合效率低下。

稳定性方面,AI基础设施软硬件技术栈复杂,任何中断或错误都可能导致训练失败,重新开始不仅浪费时间,也增加了成本。例如,硬件故障率高,且故障难以发现、恢复速度慢,严重影响大模型训练效率。针对这些痛点,云计算厂商应如何破解?

天翼云交出的答卷,是面向超大规模参数基础大模型开发训练的万卡解决方案。具体来说,天翼云基于单集群万卡智算中心,结合一体化计算加速平台云骁一站式智算服务平台慧聚,从基础设施到平台,构建了基础大模型训练解决方案。

算力层面,天翼云以可横向扩展的PB级并行文件存储服务(HPFS),提供高性能、亚毫秒级时延的并行文件存储能力;以超大规模二层RDMA网络,满足基础算力的需求;同时,通过对计算、内存、通信等方面的多维优化,提升了综合算效。

性能层面,天翼云对AI框架进行升级,使编译效率翻倍;通过拓扑感知调度,大幅提升集合通信效率;基于存储异步加速,实现Checkpoint文件快速保存及加载。

稳定性层面,基于对200多项指标的实时监控,模型训练单次不中断运行可达近一周时间;且一旦发生故障,可迅速断点续训,实现高稳定可用运行。基于国产万卡智算集群和自研智算平台,天翼云智算服务已经具备支撑万亿参数基础大模型训练的能力

从系统工程上来看,要构建国产万卡集群,并不只是堆叠一万张卡这么简单,还涉及到硬件设计软件架构、网络通信、能源管理以及系统稳定性等多个方面的综合考量,包括超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等技术难题。

天翼云提供的万卡解决方案,展示了国产算力如何通过技术创新来应对这些挑战,这不仅对天翼云自身是巨大的技术突破,也为整个行业提供了启示。

02.一站式智算服务行业大模型训推三步走

在本届WAIC上,除了众多基础大模型的迭代更新引人注目外,行业大模型如何推动技术落地,也成为备受关注的话题。不同于基础大模型注重通用性和广泛适用性,行业大模型更侧重于特定行业的定制化需求。

在落地层面,尤其是面向企业场景,行业大模型发挥了至关重要的作用。

而在技术层面,基础大模型的开发重点在于模型的训练过程,包括模型架构的设计、大规模数据集的构建等;行业大模型则更侧重于训练推理过程,即如何对训练好的模型面向不同场景进行微调,并应用到实际场景中,解决具体问题。行业大模型的训推服务同样面临三大挑战:训练部署工程化复杂、训推效率低、训练中断频繁

基于云骁、慧聚两大平台,天翼云面向行业大模型训推场景提供一站式的智算服务,针对性地破解这三个难题。

训练部署工程方面,行业大模型通常需要处理特定领域的复杂数据,这要求模型训练和部署过程中必须考虑数据的多样性和特定性,这带来数据的清洗、标注,模型的适配、训练、调优、量化及部署等7个环节的难题,因此,自动化流程的建立对于简化训练部署至关重要。

针对这些复杂环节,慧聚平台提供全栈工具链,通过预置行业数据集、支持国内外主流AI加速硬件、预置多个基础大模型等能力,实现大模型训推三步走。客户只需要经过选数据、选硬件、选模型三个步骤,就可以实现大模型精调。

训练效率方面,大模型的训推过程需要大量计算资源,如何高效利用这些资源、避免资源浪费,是提高训推效率的关键。例如,在训推过程中,数据需要在不同的处理单元之间传输,数据传输的效率直接影响到整体的训推速度。

针对模型参数量大、算子运行效率低、模型开箱性能低等因素,天翼云通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率。为了进一步优化模型结构和算法、节省算力成本、提高模型运行速度,天翼云使用了模型量化压缩、自研推理加速算子库、自硏AI推理加速框架等核心技术,让模型推理效率得到显著提升。

训练连续性方面,特别是在大规模训练过程中,硬件故障是导致训练中断的常见原因;同时,软件或配置错误、数据输入错误、运行环境不稳定等问题也常常导致训练的中断。如何在全链路感知故障并准确定位,成为解决训练频繁中断难题的重要挑战。

天翼云通过全链路故障分钟级检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,实现训推过程全链路监控。基于一站式的智算服务能力,天翼云为国内领先的AI公司提供AI基础设施层服务,缩短其语音识别模型训练时间周期并降低算力成本;在科研、制造业等领域,天翼云智算服务也已经落地,帮助客户进行大模型训练和微调,降低科研、科技创新成本。

随着AI技术落地的需求增长,行业大模型也将迎来更广阔的应用前景。天翼云提供的一站式智算服务能力不仅能帮助企业客户突破瓶颈,也能在实践过程中不断汲取经验再进化,推动技术迭代创新。

03.结语:国家队出手智算云助力产业数智升级

在WAIC 2024现场,天翼云以最新的智算成果亮相,展出了单体万卡液冷智算池,息壤、云骁、慧聚三大智算平台,AI云电脑以及基于天翼云智算云底座的星辰大模型等技术成果。

作为云服务国家队,天翼云没有拘泥于现有的技术和市场格局,而是以开放的心态和前瞻的视野,积极探索和引领云计算和AI领域的新趋势。基于丰富的智算资源储备、强大的智算服务能力以及开放的模型应用社区,天翼云正在加速布局全新的智算云生态,为千行百业向智、向新发展注入国云力量。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
FT230XS-R 1 FTDI Chip Microprocessor Circuit, CMOS, PDSO16,

ECAD模型

下载ECAD模型
$2.26 查看
USB2514BI-AEZG-TR 1 SMSC USB Bus Controller, CMOS
$4.43 查看
MKL02Z32CAF4R 1 Freescale Semiconductor Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20

ECAD模型

下载ECAD模型
$2.7 查看

相关推荐

电子产业图谱