大模型价格战开打，多芯混合能否成破局之策？

作者：丰宁

近期，国内多个大模型企业陆续下调相关产品价格。五月初开始，9家发布新内容的国内大模型企业中，有7家宣布降价。其中包括：深度求索、智谱AI、字节跳动、阿里云、百度、科大讯飞、腾讯云这7家企业，共涉及21款模型。甚至于有大厂打出“免费模式”的旗号。

01、大模型价格战愈演愈烈

5月6日，知名私募巨头幻方量化创立的深度求索对外发布第二代MoE模型DeepSeek-V2。MoE模型即混合专家模型，将复杂任务拆解为子任务，分别交由合适的“专家”模型处理，提高准确性和推理效率。

模型迭代的同时，深度求索把API调用的定价降到每百万tokens输入1元、输出2元，价格仅为GPT-4-Turbo的近百分之一。5 月 11 日，智谱 AI 跟进，宣布将其 GLM-3 Turbo 模型的调用价格下调 80%。从 5 元/百万 tokens 降至 1 元/百万 tokens。1 元可以购买 100 万 tokens。

5 月 15 日，字节的豆包大模型正式对外开放，放出了较业内极低的价格，价格单位直接从“元”变为“厘”。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版两款通用模型，其中，豆包通用模型 pro-32k 版，推理输入价格 0.0008 元/千 tokens，较行业价格低 99.3%。lite 版为 0.0003 元/千 tokens。随后在5月21日，阿里云也发布降价通知，通义9款主力大模型大幅降价。其中，通义千问GPT-4级主力模型Qwen-Long 的 API输入价格直降97%至0.0005元/千tokens，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。当日，百度甚至宣布文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费。科大讯飞也在22日宣布讯飞星火 Lite 版 API 永久免费开放，讯飞星火 Pro/Max API 价格降至 0.21 元/万 tokens。此外，22日腾讯也公布了全新的大模型升级方案。腾讯的主力模型之一混元-lite 模型，API 输入输出总长度计划从目前的 4k 升级到 256k，价格从 0.008 元/千 tokens 调整为全面免费。

在AI领域的激烈角逐中，大模型正逐步走向价格战的漩涡。那么，推动这一变革的深层原因是什么？而它又将如何深远地影响整个行业生态？

02、降价的本质为何？

价格战有利于巨头抢占市场

当前的行业价格战，可以看做是“百模大战”带来的一个衍生结果。大模型狂热之时，几乎每隔一天就有一个大模型“蹦出来”。截至2023年11月30日，国内已经有至少200家大模型厂商推出了各自的大模型。

当下的大模型竞争早已超过了技术的范畴，更多是一种生态层面的比拼，具体表现在有多少应用、有多少插件、有多少开发者以及用户等。要知道，当前的大模型市场，空间相当有限，大部分的大模型APP都已经开始面临用户增长乏力的困境，包括备受瞩目的OpenAI。因此降价便是这些大厂获得更多市场的方式之一。

此外，从价格角度来看，一些初创公司的价格本身就较低。因此，针对当下的科技巨头纷纷降价，那些AI创业公司大都没有选择跟进。一些参与AI大模型投资的投资人表示，“这波降价对一些创业公司TO B模式影响较大。”因为过去很多公司，之所以选择跟初创公司合作，主要就是看重初创公司的API比大厂要便宜，但现在基本上没有任何比大厂便宜的可能性了，这意味着创业公司的B端商业化模式不复存在了。对于这些初创公司来说，倘若找不到新的出路，或许就会面临生死考验。

入门级、轻量级的文本大模型的能力差距不显著

半导体产业纵横观察发现，在这波降价潮中降价的模型主要为入门级、轻量级的文本大模型，而高性能及图像识别、语音识别等垂类的多模态模型并没有调整价格。而这些入门级、轻量级的文本大模型技术和能力等各方面已经趋同，各厂商之间的技术壁垒并不显著，因此价格竞争成为了它们之间主要的竞争手段。

根据上海人工智能实验室发布的大模型开源开放评测体系司南（OpenCompass2.0）显示，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

大模型的边际收益正在持续走低

Gary Marcus 博士在“Evidence that LLMs are reaching a point of diminishing returns — and what that might mean”《LLMs正达到收益递减的证据——及其可能意味着什么》一文中提到，从GPT-2到GPT-4甚至GPT-4 Turbo的性能变化，已经出现了性能递减的迹象。Gary Marcus 博士表示：“自GPT-4发布以来，多个模型在GPT-4水平性能上都有着巨大的收敛，然而并没有明显领先的模型。”

在收益递减的背景下，意味着处理相同的任务，开发者的实际成本是在上升的。在AI创新商业化前景还不明朗的市场环境下，为了保住现有用户，大模型厂商必须给出有吸引力的对策。包括提供更小的模型，比如谷歌推出的Gemini 1.5 Flash。另一个手段就是直接降价。

03投入高昂，多芯混合或有助力

人工智能的核心是算力，算力需求主要分为两部分，包括训练算力和推理算力。目前来说对训练算力需求非常高，根据去年的一则数据显示，ChatGPT的公开数据显示它的整个训练算力消耗非常大，达到了3640PF-days。换算成英伟达A100芯片，它单卡算力相当于0.6P的算力，理想情况下总共需要大概6000张，在考虑互联损失的情况下，需要一万张A100作为算力基础。在A100芯片10万人民币/张的情况下，算力的硬件投资规模达到10亿人民币。推理算力主要是英伟达T4卡，推理成本大约相当于训练成本的三分之一。

除了算力的成本，还有随之而来的存储、推理、运维、应用等一系列成本。‍‍那么如何解决绝大多数企业当下最关心的“降本增效”问题？除了对模型的优化，硬件层面的创新思路亦不容忽视。近期，业界不少专家和技术人员开始聚焦于多芯混合的概念，尝试通过这一策略来为企业带来更高的性能和更低的成本。

那么到底什么是多芯混合？它又如何在AI大模型算力紧缺的当下提供更优的解决方案。多芯混合主要涉及在硬件设计或应用中，结合使用不同类型、不同功能或不同制程架构的芯片，以形成一个混合的计算系统或解决方案。

上文提到当前基础大模型训练所需要的最大 AI 算力集群规模，已经从单一集群千卡逐步提升至万卡量级。同时，很多智算中心已经部署的 GPU 集群，通常是十几台至数百台服务器不等，难以满足未来行业大模型训练的需求。所以，在已有 AI 算力集群的基础上，构建由昆仑芯、昇腾等不同芯片混合组成的单一集群，为大模型训练提供更大 AI 算力，成为了一个自然的选择。

多芯混合有哪些优势？

第一，通过将计算任务分配到多个GPU上，可以显著加速模型的训练速度。多GPU并行训练还可以减少单GPU训练中由于计算瓶颈导致的时间浪费，从而提高了训练效率。

第二，多GPU训练可以同时处理更多的数据，从而提高了内存利用率。

第三，这种混合集群的构建能够有效降低成本。毕竟，与英伟达的A100/H100系列GPU相比，其他品牌的GPU价格更为亲民。然而，若此方案真如我们想象中那般易于实施，那么它早已被业界的诸多巨头所采纳。具体看看，这一方案的实施都存在哪些难点？

04、多芯混合要解决哪些问题？

为了建设一个能够高效训练大模型的集群，需要在卡间和机间建立高效的互联互通，将大模型训练任务按照合适的并行策略拆分到GPU卡中，最后通过各种优化方法，加速GPU对算子的计算效率，完成大模型训练。然而，不同芯片之间很难互联互通，因为英伟达GPU、昆仑芯、昇腾 910B 的物理连接方式，并行策略以及AI加速套件上都不一样。

首先，在互联互通上，单台服务器内的 8 块 GPU 卡通过 NVLink 连接。不同服务器之间的 GPU 卡通过 RDMA 网络连接。过去，我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然，经过多年的投入，他们已经建立起了难以逾越的优势。但除此以外，如上所述，英伟达还有很多隐形护城河，NVLink就是其中的一个，一个为GPU到GPU互联提供高速连接的技术。在摩尔定律逐渐失效，但对算力要求越来越高的当下，这种互联显得尤为必要。英伟达官网表示，NVLink 是全球首创的高速GPU 互连技术，为多GPU 系统提供另一种选择，与传统的PCI-E 解决方案相比，速度方面拥有显著提升。使用NVLink 连接两张英伟达GPU，即可弹性调整存储器与效能，满足专业视觉运算最高工作负载的需求。而昆仑芯服务器内部通过 XPU Link 进行连接，服务器之间通过标准的 RDMA 网卡进行连接，卡和卡之间使用 XCCL 通信库进行相互通信。昇腾 910B 服务器内部通过 HCCS 进行连接，服务器之间通过华为自研的内置 RDMA 进行连接，卡和卡之间使用 HCCL 通信库进行相互通信。

其次，在并行策略上，英伟达GPU 和昆仑芯采用单机 8 卡的部署方式，昇腾 910B 则是机内 16 卡分为 2 个 8 卡通信组。这意味着在 AI 框架下形成不同的集群拓扑，需要有针对性地制定分布式并行策略。

最后，在 AI 加速套件上，由于昆仑芯、昇腾等芯片在计算能力，显存大小，I/O 吞吐，通信库等均存在差异，故需要面向具体芯片进行特定优化。最后的结果，就是每一种芯片，有一个各自对应的算子库，以及相应的加速策略。

05、哪些厂商开始试水？

值得注意的是，近日，AMD、博通、思科、谷歌、惠普企业 (HPE)、英特尔、Meta 和微软等领先科技公司组成的联盟宣布成立超级加速器链路 (UALink) 促进会。该计划旨在制定一项开放的行业标准，以促进数据中心 AI 系统的高速、低延迟通信。面对日益增长的 AI 工作负载，这些科技巨头均迫切需要超高性能互连。

百度也在打造多芯混合训练AI集群。百度百舸的多芯混合训练方案，屏蔽了底层复杂的异构环境，将各类芯片融合成为了一个大集群，可以实现存量不同算力的统一，整合发挥这些算力的最大效能，支持更大模型训练任务。同时，支持新增资源的快速融入，满足未来业务增长的需要。该方案不仅通过百度智能云的公有云提供服务，同时还可以通过ABC Stack专有云进行交付。

此前，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，在“一云多芯”方面，百度百舸兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片，支持同一智算集群中混合使用不同厂商芯片，最大程度上屏蔽硬件之间差异，帮助企业摆脱单一芯片依赖，打造更有性价比、更安全、更具弹性的供应链体系。在多芯混合训练任务中，百舸能够将单芯片利用率、芯片间通信效率、集群整体效能发挥到极致，百卡规模性能损失不超过3%，千卡规模性能损失不超过5%，均为国内最高水平。

近日，FlagScale 开源大模型并行训练框架全面升级。智源团队与天数智芯团队合作，实现了“英伟达芯片+其它AI芯片”集群上单一大模型任务的异构混合训练，并在70B大模型上验证了不同架构芯片上进行异构混合训练的有效性。同时，为了加速多种AI芯片在大模型训练场景的使用，智源积极探索高效灵活的芯片适配方案，通过与硬件厂商的深入合作，FlagScale 已在6家不同厂商的多款AI芯片上适配Aquila2系列大模型的大规模训练。

由于不同厂商的卡间互联协议不同，为了实现“英伟达芯片+其它AI芯片”高速互联，智源团队与天数智芯协作，优化天数智芯的iXCCL通信库，使其在通信原语操作上以及API接口上兼容英伟达NCCL，然后将框架编译链接到同一iXCCL通信库上，从而在用户和AI框架无感知的情况下实现异构算力芯片间高效通信，进而实现不同架构芯片混合训练。同时，双方还协作优化了流水线并行的分配方式，并针对不同芯片算力、内存带宽、内存容量的差异来为不同芯片配置不同的流水线并行策略，以使得训练过程中能充分发挥不同芯片的性能，最终率先实现了通用GPU异构大模型高效训练方案。

06、国产GPU厂商的机遇

多芯混合技术允许将不同架构、不同功能的芯片集成在一个系统中，这为国产厂商提供了技术创新的机会。通过整合和优化不同芯片的性能，可以开发出更高效、更灵活的解决方案。多芯混合技术为国产厂商带来了综合性的发展机遇。

这一技术不仅推动了技术创新，满足了市场对高性能、低功耗芯片的日益增长需求，还促进了产业链上下游的协同合作，加强了产业整体竞争力。同时，国家政策的支持也为国产厂商在多芯混合技术领域的发展提供了有力保障。国产厂商应抓住这一机遇，加大研发力度，推动多芯混合技术的突破与应用，以提升国产芯片的技术水平和市场竞争力。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA384C3-MH	1	Microchip Technology Inc	IC MCU 8BIT 384KB FLASH 64QFN		$8.79	查看
FT230XS-R	1	FTDI Chip	Microprocessor Circuit, CMOS, PDSO16,	ECAD模型下载ECAD模型	$2.26	查看
STM32H743IIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$17.38	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA384C3-MH

Microchip Technology Inc

IC MCU 8BIT 384KB FLASH 64QFN

$8.79

查看

FT230XS-R

FTDI Chip

Microprocessor Circuit, CMOS, PDSO16,

$2.26

查看

STM32H743IIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals