越过智算云发展拐点！解读天翼云智算服务，用“组合拳”突围大模型训推难题

作者 | 香草

编辑 | 漠影

天翼云万卡方案驱动万亿参数大模型训练

在大模型热潮的推动下，AI算力呈现出爆炸式的增长，为云计算行业带来新的机遇。但同时，如何满足巨大的算力需求，提供高性能、强稳定的解决方案等，也为云厂商带来新的挑战。云计算厂商如何在智能云赛道中突围？智东西7月9日报道，在2024世界人工智能大会（WAIC 2024）期间，天翼云科技有限公司董事长、总经理胡志强带来主题演讲，深入解读了天翼云在智算资源供给、智算服务能力、模型应用生态三个方面的能力。

具体来说，天翼云自建了丰富的智算资源，并汇集了大量社会智算资源；基于一体化计算加速平台云骁、一站式智算服务平台慧聚，能承载万亿参数规模的基础大模型训练及行业大模型训练推理；推出AI云电脑，构建红云大模型开发者社区，打造开放的模型生态。

其中在智算服务方面，天翼云聚焦基础大模型、行业大模型两大场景，分别提供模型开发训练、训练推理等服务，通过云骁、慧聚两大平台打造了万卡集群的平台化能力和解决方案能力，为客户提供高效、便捷、稳定的智算服务。天翼云智算服务具体能解决哪些行业痛点？是否已经在企业中落地并取得一定成效？带着这些疑问，我们试图寻找答案。

01.天翼云万卡方案破解三大挑战可训万亿参数基础模型

现阶段，大模型的参数量在Scaling Law的推动下持续增长。以OpenAI等第一梯队的大模型公司为例，其一直在扩充训练数据、加大算力投入、堆积模型参数等方向上前进，尤其是基础大模型，呈现出参数越来越大的趋势。

而随着模型参数的增加，对计算资源、存储能力和网络带宽等需求也随之增加，这对AI基础设施提出高要求。胡志强谈道，天翼云在支撑中国电信星辰大模型训练过程中，遇到的挑战主要集中在三个方面：算力、性能和稳定性。

算力方面，要训练一个万亿参数大模型，至少需要单集群6000卡，甚至万卡以上规模，并通过同等规模的亚毫秒延时级RDMA（远程直接数据存取）网络，才能支撑训练过程中PB级的数据存取。

性能方面，大规模的分布式训练对算力、存储、网络协同难度大，模型训练中生成的Checkpoint文件大、读写速度慢等诸多性能问题，导致大模型训练综合效率低下。

稳定性方面，AI基础设施软硬件技术栈复杂，任何中断或错误都可能导致训练失败，重新开始不仅浪费时间，也增加了成本。例如，硬件故障率高，且故障难以发现、恢复速度慢，严重影响大模型训练效率。针对这些痛点，云计算厂商应如何破解？

天翼云交出的答卷，是面向超大规模参数基础大模型开发训练的万卡解决方案。具体来说，天翼云基于单集群万卡智算中心，结合一体化计算加速平台云骁、一站式智算服务平台慧聚，从基础设施到平台，构建了基础大模型训练解决方案。

在算力层面，天翼云以可横向扩展的PB级并行文件存储服务（HPFS），提供高性能、亚毫秒级时延的并行文件存储能力；以超大规模二层RDMA网络，满足基础算力的需求；同时，通过对计算、内存、通信等方面的多维优化，提升了综合算效。

在性能层面，天翼云对AI框架进行升级，使编译效率翻倍；通过拓扑感知调度，大幅提升集合通信效率；基于存储异步加速，实现Checkpoint文件快速保存及加载。

在稳定性层面，基于对200多项指标的实时监控，模型训练单次不中断运行可达近一周时间；且一旦发生故障，可迅速断点续训，实现高稳定可用运行。基于国产万卡智算集群和自研智算平台，天翼云智算服务已经具备支撑万亿参数基础大模型训练的能力。

从系统工程上来看，要构建国产万卡集群，并不只是堆叠一万张卡这么简单，还涉及到硬件设计、软件架构、网络通信、能源管理以及系统稳定性等多个方面的综合考量，包括超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等技术难题。

天翼云提供的万卡解决方案，展示了国产算力如何通过技术创新来应对这些挑战，这不仅对天翼云自身是巨大的技术突破，也为整个行业提供了启示。

02.一站式智算服务行业大模型训推三步走

在本届WAIC上，除了众多基础大模型的迭代更新引人注目外，行业大模型如何推动技术落地，也成为备受关注的话题。不同于基础大模型注重通用性和广泛适用性，行业大模型更侧重于特定行业的定制化需求。

在落地层面，尤其是面向企业场景，行业大模型发挥了至关重要的作用。

而在技术层面，基础大模型的开发重点在于模型的训练过程，包括模型架构的设计、大规模数据集的构建等；行业大模型则更侧重于训练推理过程，即如何对训练好的模型面向不同场景进行微调，并应用到实际场景中，解决具体问题。行业大模型的训推服务同样面临三大挑战：训练部署工程化复杂、训推效率低、训练中断频繁。

基于云骁、慧聚两大平台，天翼云面向行业大模型训推场景提供一站式的智算服务，针对性地破解这三个难题。

在训练部署工程方面，行业大模型通常需要处理特定领域的复杂数据，这要求模型训练和部署过程中必须考虑数据的多样性和特定性，这带来数据的清洗、标注，模型的适配、训练、调优、量化及部署等7个环节的难题，因此，自动化流程的建立对于简化训练部署至关重要。

针对这些复杂环节，慧聚平台提供全栈工具链，通过预置行业数据集、支持国内外主流AI加速硬件、预置多个基础大模型等能力，实现大模型训推三步走。客户只需要经过选数据、选硬件、选模型三个步骤，就可以实现大模型精调。

在训练效率方面，大模型的训推过程需要大量计算资源，如何高效利用这些资源、避免资源浪费，是提高训推效率的关键。例如，在训推过程中，数据需要在不同的处理单元之间传输，数据传输的效率直接影响到整体的训推速度。

针对模型参数量大、算子运行效率低、模型开箱性能低等因素，天翼云通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术，大幅提升训练效率。为了进一步优化模型结构和算法、节省算力成本、提高模型运行速度，天翼云使用了模型量化压缩、自研推理加速算子库、自硏AI推理加速框架等核心技术，让模型推理效率得到显著提升。

在训练连续性方面，特别是在大规模训练过程中，硬件故障是导致训练中断的常见原因；同时，软件或配置错误、数据输入错误、运行环境不稳定等问题也常常导致训练的中断。如何在全链路感知故障并准确定位，成为解决训练频繁中断难题的重要挑战。

天翼云通过全链路故障分钟级检测、定位、告警，全链路日志监控与可视化、断点续训快速恢复等核心技术，实现训推过程全链路监控。基于一站式的智算服务能力，天翼云为国内领先的AI公司提供AI基础设施层服务，缩短其语音识别模型训练时间周期并降低算力成本；在科研、制造业等领域，天翼云智算服务也已经落地，帮助客户进行大模型训练和微调，降低科研、科技创新成本。

随着AI技术落地的需求增长，行业大模型也将迎来更广阔的应用前景。天翼云提供的一站式智算服务能力不仅能帮助企业客户突破瓶颈，也能在实践过程中不断汲取经验再进化，推动技术迭代创新。

03.结语：国家队出手智算云助力产业数智升级

在WAIC 2024现场，天翼云以最新的智算成果亮相，展出了单体万卡液冷智算池，息壤、云骁、慧聚三大智算平台，AI云电脑以及基于天翼云智算云底座的星辰大模型等技术成果。

作为云服务国家队，天翼云没有拘泥于现有的技术和市场格局，而是以开放的心态和前瞻的视野，积极探索和引领云计算和AI领域的新趋势。基于丰富的智算资源储备、强大的智算服务能力以及开放的模型应用社区，天翼云正在加速布局全新的智算云生态，为千行百业向智、向新发展注入国云力量。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32H743IIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$17.38	查看
ATTINY85-20SUR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8	ECAD模型下载ECAD模型	$1.43	查看
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下载ECAD模型	$15.87	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32H743IIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals