作者 | 香草
编辑 | 漠影
天翼云万卡方案驱动万亿参数大模型训练
在大模型热潮的推动下,AI算力呈现出爆炸式的增长,为云计算行业带来新的机遇。但同时,如何满足巨大的算力需求,提供高性能、强稳定的解决方案等,也为云厂商带来新的挑战。云计算厂商如何在智能云赛道中突围?智东西7月9日报道,在2024世界人工智能大会(WAIC 2024)期间,天翼云科技有限公司董事长、总经理胡志强带来主题演讲,深入解读了天翼云在智算资源供给、智算服务能力、模型应用生态三个方面的能力。
具体来说,天翼云自建了丰富的智算资源,并汇集了大量社会智算资源;基于一体化计算加速平台云骁、一站式智算服务平台慧聚,能承载万亿参数规模的基础大模型训练及行业大模型训练推理;推出AI云电脑,构建红云大模型开发者社区,打造开放的模型生态。
其中在智算服务方面,天翼云聚焦基础大模型、行业大模型两大场景,分别提供模型开发训练、训练推理等服务,通过云骁、慧聚两大平台打造了万卡集群的平台化能力和解决方案能力,为客户提供高效、便捷、稳定的智算服务。天翼云智算服务具体能解决哪些行业痛点?是否已经在企业中落地并取得一定成效?带着这些疑问,我们试图寻找答案。
01.天翼云万卡方案破解三大挑战可训万亿参数基础模型
现阶段,大模型的参数量在Scaling Law的推动下持续增长。以OpenAI等第一梯队的大模型公司为例,其一直在扩充训练数据、加大算力投入、堆积模型参数等方向上前进,尤其是基础大模型,呈现出参数越来越大的趋势。
而随着模型参数的增加,对计算资源、存储能力和网络带宽等需求也随之增加,这对AI基础设施提出高要求。胡志强谈道,天翼云在支撑中国电信星辰大模型训练过程中,遇到的挑战主要集中在三个方面:算力、性能和稳定性。
算力方面,要训练一个万亿参数大模型,至少需要单集群6000卡,甚至万卡以上规模,并通过同等规模的亚毫秒延时级RDMA(远程直接数据存取)网络,才能支撑训练过程中PB级的数据存取。
性能方面,大规模的分布式训练对算力、存储、网络协同难度大,模型训练中生成的Checkpoint文件大、读写速度慢等诸多性能问题,导致大模型训练综合效率低下。
稳定性方面,AI基础设施软硬件技术栈复杂,任何中断或错误都可能导致训练失败,重新开始不仅浪费时间,也增加了成本。例如,硬件故障率高,且故障难以发现、恢复速度慢,严重影响大模型训练效率。针对这些痛点,云计算厂商应如何破解?
天翼云交出的答卷,是面向超大规模参数基础大模型开发训练的万卡解决方案。具体来说,天翼云基于单集群万卡智算中心,结合一体化计算加速平台云骁、一站式智算服务平台慧聚,从基础设施到平台,构建了基础大模型训练解决方案。
在算力层面,天翼云以可横向扩展的PB级并行文件存储服务(HPFS),提供高性能、亚毫秒级时延的并行文件存储能力;以超大规模二层RDMA网络,满足基础算力的需求;同时,通过对计算、内存、通信等方面的多维优化,提升了综合算效。
在性能层面,天翼云对AI框架进行升级,使编译效率翻倍;通过拓扑感知调度,大幅提升集合通信效率;基于存储异步加速,实现Checkpoint文件快速保存及加载。
在稳定性层面,基于对200多项指标的实时监控,模型训练单次不中断运行可达近一周时间;且一旦发生故障,可迅速断点续训,实现高稳定可用运行。基于国产万卡智算集群和自研智算平台,天翼云智算服务已经具备支撑万亿参数基础大模型训练的能力。
从系统工程上来看,要构建国产万卡集群,并不只是堆叠一万张卡这么简单,还涉及到硬件设计、软件架构、网络通信、能源管理以及系统稳定性等多个方面的综合考量,包括超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等技术难题。
天翼云提供的万卡解决方案,展示了国产算力如何通过技术创新来应对这些挑战,这不仅对天翼云自身是巨大的技术突破,也为整个行业提供了启示。
02.一站式智算服务行业大模型训推三步走
在本届WAIC上,除了众多基础大模型的迭代更新引人注目外,行业大模型如何推动技术落地,也成为备受关注的话题。不同于基础大模型注重通用性和广泛适用性,行业大模型更侧重于特定行业的定制化需求。
在落地层面,尤其是面向企业场景,行业大模型发挥了至关重要的作用。
而在技术层面,基础大模型的开发重点在于模型的训练过程,包括模型架构的设计、大规模数据集的构建等;行业大模型则更侧重于训练推理过程,即如何对训练好的模型面向不同场景进行微调,并应用到实际场景中,解决具体问题。行业大模型的训推服务同样面临三大挑战:训练部署工程化复杂、训推效率低、训练中断频繁。
基于云骁、慧聚两大平台,天翼云面向行业大模型训推场景提供一站式的智算服务,针对性地破解这三个难题。
在训练部署工程方面,行业大模型通常需要处理特定领域的复杂数据,这要求模型训练和部署过程中必须考虑数据的多样性和特定性,这带来数据的清洗、标注,模型的适配、训练、调优、量化及部署等7个环节的难题,因此,自动化流程的建立对于简化训练部署至关重要。
针对这些复杂环节,慧聚平台提供全栈工具链,通过预置行业数据集、支持国内外主流AI加速硬件、预置多个基础大模型等能力,实现大模型训推三步走。客户只需要经过选数据、选硬件、选模型三个步骤,就可以实现大模型精调。
在训练效率方面,大模型的训推过程需要大量计算资源,如何高效利用这些资源、避免资源浪费,是提高训推效率的关键。例如,在训推过程中,数据需要在不同的处理单元之间传输,数据传输的效率直接影响到整体的训推速度。
针对模型参数量大、算子运行效率低、模型开箱性能低等因素,天翼云通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率。为了进一步优化模型结构和算法、节省算力成本、提高模型运行速度,天翼云使用了模型量化压缩、自研推理加速算子库、自硏AI推理加速框架等核心技术,让模型推理效率得到显著提升。
在训练连续性方面,特别是在大规模训练过程中,硬件故障是导致训练中断的常见原因;同时,软件或配置错误、数据输入错误、运行环境不稳定等问题也常常导致训练的中断。如何在全链路感知故障并准确定位,成为解决训练频繁中断难题的重要挑战。
天翼云通过全链路故障分钟级检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,实现训推过程全链路监控。基于一站式的智算服务能力,天翼云为国内领先的AI公司提供AI基础设施层服务,缩短其语音识别模型训练时间周期并降低算力成本;在科研、制造业等领域,天翼云智算服务也已经落地,帮助客户进行大模型训练和微调,降低科研、科技创新成本。
随着AI技术落地的需求增长,行业大模型也将迎来更广阔的应用前景。天翼云提供的一站式智算服务能力不仅能帮助企业客户突破瓶颈,也能在实践过程中不断汲取经验再进化,推动技术迭代创新。
03.结语:国家队出手智算云助力产业数智升级
在WAIC 2024现场,天翼云以最新的智算成果亮相,展出了单体万卡液冷智算池,息壤、云骁、慧聚三大智算平台,AI云电脑以及基于天翼云智算云底座的星辰大模型等技术成果。
作为云服务国家队,天翼云没有拘泥于现有的技术和市场格局,而是以开放的心态和前瞻的视野,积极探索和引领云计算和AI领域的新趋势。基于丰富的智算资源储备、强大的智算服务能力以及开放的模型应用社区,天翼云正在加速布局全新的智算云生态,为千行百业向智、向新发展注入国云力量。