国产大模型破晓时，曙光全栈AI亮剑

作者 | 三北，编辑 | 漠影

AI基础设施新战场，曙光把软硬两把宝刀都磨好了。

随着大模型发展中的硬件瓶颈凸显，软件优化成为一条必由之路。在近日举办的2024中国生成式AI大会上，国产算力龙头中科曙光亮出AI软件“肌肉”，推出曙光AI基础软件系统DAS，为大模型迁移和优化提供了一条新捷径。

众所周知，中科曙光是国产算力之光的代表。在大模型的驱动下，曙光又建立起了软硬一体和AI全链路能力，展现了算力玩家能力扩圈的新趋势。

大模型的发展势不可挡。国际数据公司IDC的报告预测，2024年企业在AI上的投入增长将高达250%。大模型发展对算力服务提出了什么新要求？曙光AI基础软件系统DAS能提供什么样的升级服务和真实价值？通过对话中科曙光智能计算产品事业部副总经理胡晓东，本文对此进行了深入探讨。

01.大模型催生AI新战场，国产算力龙头“变软”

大模型产业正进入高速发展期，所需的不再是单项算力能力，而是多维综合能力。根据IDC中国副总裁钟振山在近期中国ICT市场趋势论坛上的发言，2024年大模型发展出现五大趋势：中国大模型在2024年“卷”向产业；开源和闭源共同促进应用生态繁荣；大模型走向手机、PC等端侧；多模态将促使杀手级应用出现；新一代AI基础设施成为下一个战场。

在AI基础设施新战场，以曙光为代表的核心基础设施领军企业已经提前布局。胡晓东告诉智东西：“我们深知算力是AI技术发展的核心驱动力。然而，仅拥有强大的硬件算力是不够的，需要软硬一体化的能力支撑AI技术的落地应用，并联合伙伴一起打造完整的AI生态圈。”

在与客户深入交流的过程中，胡晓东和他的团队发现许多客户在AI应用过程中面临着种种挑战，如模型训练效率低下、算法部署困难、算力资源利用率不高等问题。这些问题严重影响了AI技术的普及和应用。为了解决这些问题，曙光在今年推出了DAS人工智能基础软件系统，帮助客户更快速、更高效地实现AI技术的落地应用。

曙光深耕算力底座基础能力几十年，自1993年研发出国内首台全对称共享存储多处理机系统曙光一号之后，逐步完成了对算力产业的全产业链覆盖，近年来还推出了国内首款规模化量产液冷服务器等核心高端硬件，成为核心硬件实力担当。DAS人工智能基础软件系统，是这家算力龙头向全栈AI阶段迈出的关键历史性一步。

配合曙光基础硬件及开发工具栈等能力，DAS人工智能基础软件系统聚焦打造一套完整的人工智能软硬件生态体系，帮助用户抵达AI应用迁移、开发及迭代的“最后一公里”。胡晓东谈道，DAS人工智能基础软件系统是从2019年就基于曙光过往的技术及项目积累开始投入研发的，经多年不断发展，近期逐步产品化并对外发布：

1、首先，打造算力基础设施是曙光在全国产化能力上构建的一个最坚实的基础。

2、第二个是软件生态，只有通过软件才能真正将算力发挥出来。

3、第三方面是平台层，应该是能将底层的硬件能力、软件能力实现打包统一化交付的能力，依托平台将整个算力以服务的形式交付到用户手上。

可以看到，大模型催生了AI算力新需求，而国产算力之光主动选择“变软”，背后是对AI产业需求和痛点的深入洞察。

02.软件扛着硬件跑，曙光全栈AI亮剑

当下，市面上已经出现了昇腾MindSpore、阿里魔搭等AI开发平台及社区，而曙光打造的DAS人工智能基础软件系统的一大差异化是国产化自主可控属性。胡晓东告诉智东西，围绕过往的产品及技术的储备，曙光希望拉通算力底层、软件栈、平台、内容侧，共同打通一套赋能机制，将所有的产品及服务能力化地交付到用户手上，构建出一套国产AI能力化输出流程。

站在大模型闭环角度来看，从模型开发到场景适配、应用部署，从基础训练到准备资源、准备不同的库去微调，再到压缩、推理、服务，到把这个模型输出，曙光都结合项目经验和伙伴交流情况进行了分析。

AI赛道性能为王。“每个层级有不同的关注点，对于硬件、软件栈有不同的需求。从算力来讲，通用大模型需要更高算力，很多细分领域则需要更精细的数据，每个环节有不同的关注特性。”胡晓东在DAS人工智能基础软件系统的发布时说。

曙光如何帮企业快速把高吞吐率的模型训练出来？DAS人工智能基础软件系统从AI组件的纳管、性能组件的优化、软件工程化能力的建设等多方面来打造AI模型的“发射台”，助力用户更轻松应对AI领域工作应用场景。

1、AI组件纳管：广泛覆盖框架及加速库，保持高速迭代一方面，AI组件需要广泛的基础。曙光DAS人工智能基础软件系统尽可能适配了市面已经有的不同的框架、加速库，包括训练、推理或者通信，从而获得广泛的基础。另一方面，软件组件需要高速迭代。比如PyTorch、TensorFlow、PaddlePaddle等主流深度学习框架都会快速迭代，为此曙光开发了快速适配工具，从而形成快速适配、快速迁移、快速优化的基础体系。

2、性能组件优化：提高计算访存密度，保障组件性能释放性能组件层面涉及更多“慢工细活”。首先第一个层面需要做基础计算库，保证它有一个基础能力的运行；同时，对于很多访存密集型算子，曙光会做手动的融合，去提高计算访存密度。对于高阶开发者，曙光打造了算子模板库Composable Kernel，提供Tile级精细的算力能力，便于去快速地生成算子模板。在编译器层面，DAS人工智能基础软件系统则有Triton、OpenXLA、TVM做整体编译集成，帮助开发者形成快速整体优化的工具，保障所有的组件快速使用，同时保障性能发挥到极致。

3、软件工程化能力建设：不同组件及策略整合，大规模异构算力加速比达70%在软件工程化能力的建设阶段，曙光把各样的组件、不同的策略进行了整合。以大模型训练为例，一方面曙光结合像Megatron-DeepSpeed这样的库以及各种不同策略的组合，用冗余重计算等手段进行整合，提高大模型训练效应。对于推理层面，曙光通过FlashDecoding、FlashAttention等机制进行优化，去提高模型的吞吐量，降低延迟。在基于24000张卡进行大模型训练案例中，DAS人工智能基础软件系统使得大规模异构算力保持了70%以上的加速比。

总的来说，曙光在性能层面构建了一整套开放的AI全栈优化能力，实现AI全场景框架组件的全面适配，满足AI场景快速变化的需求。而在软件之上，曙光打造了开发中台、内容平台、云服务等一整套平台能力，实现各种能力的快速迁移调度，提供完整的云化的服务环境。可以看到，曙光已经率先“亮剑”，打造国产大模型的AI基础软件“发射台”。胡晓东谈道，在软件开发的过程中团队遇到的问题有很多，包括技术难点的攻克，关键项目的交付，他们和技术团队，和最终客户、合作伙伴一起，克服了一个个技术难题，慢慢完善了现在的DAS体系。

03.培育软硬一体AI生态，加速大模型落地千行百业

“亮剑”AI大模型时代，中科曙光已涉足行业实战。过去一年以来，曙光逐步完善了集“研发、应用、生产、运营”于一体的完整AI生态链，已经为数字金融、智能驾驶、生物医疗、智慧通信等领域全景赋能。

近日，某公司自主研发的算力管理平台与中科曙光智能计算产品成功适配，通过高效管理、智能调度和稳定性观测等能力，实现计算资源的最优化管理和利用，显著提升稳定性，降低运维成本。

某知名产业大模型已在近日与中科曙光智能计算产品成功适配，结合中科曙光智能计算产品卓越的计算能力和性价比，在智慧城市领域、时空信息领域、企业智能服务等领域提供全国产化行业应用智能体基座，实现全面降本增效。曙光人工智能基础软件系统DAS在某工业检测领域的应用涉及图像识别、模式分析和数据预测等方面，大大提高了数据处理的效率，降低了人为错误的风险，并且极大地提升了该领域工业检测的准确性和科学性。

为了推进AI能力化实践，曙光与产学研合作落地，包括与国内外主流模型适配并探索商业模式，把AI能力输出去用作AI集群的设计，与行业伙伴的业务做结合等，以此把智能算力-大模型-行业AI化的流程走通。大模型产业发展目前正处于迅猛发展的阶段。大模型在各个领域的应用日益广泛，产业面临着多重利好因素，包括政府层面的有力支持、用户提升生活和工作效率的需求激增，以及科技公司对AI领域的加大投入。胡晓东说，作为国产算力的领军企业，曙光将持续打造并完善AI计算产业生态，为大模型产业的发展提供了坚实的算力底座。同时，曙光也积极探索大模型在各行业的应用场景，推动AI技术的普及和应用。

04.结语：国产大模型破晓时，算力龙头全栈AI亮剑

随着“百模大战”进入深水区，模型参数量增长和模型增多带来了底层算力的爆发式需求，也为基础设施厂商带来巨大的机遇。透过中科曙光在大模型时代的AI新布局，我们看到这家算力龙头已将AI生态建设升级为一大战略举措，亮剑全栈AI。

国产大模型破晓时，国外对中国的算力进行禁运，为产业发展带来了严峻挑战。如果我们把大模型的浪潮比作淘金，首先淘到淘不到不知道，铲子就不够用了。而要解决“铲子”问题，仅靠堆硬件是无法胜任的，而是需要软件加持、软硬结合的闭环思路。奔赴使命，算力龙头开始打造全栈AI能力。

以人工智能基础软件系统DAS为抓手，曙光正将其几十年的算力积累与大模型的时代需求和痛点结合，为产业打造优质模型及应用的“发射台”，加速国产AI生态建设，推动国产大模型产业发展的进程。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DS3234SN#	1	Maxim Integrated Products	Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20		$10.19	查看
STM32F429IET6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	$23.92	查看
MC9S12A128CPVE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112		$22.47	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

DS3234SN#

Maxim Integrated Products

Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20

$10.19

查看

STM32F429IET6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT