自研AI服务器芯片，竞争升级

作者：畅秋

有越来越多的互联网和IT设备大厂开始自研AI 服务器芯片，最近，这一风潮吹到了苹果公司，据悉，该智能设备龙头正在开发用于AI服务器的定制芯片。

与微软和谷歌等竞争对手相比，苹果在推出生成式AI方面进展较慢，不过，苹果公司CEO库克称，AI已经在苹果产品的幕后发挥作用，此前有媒体报道，苹果计划使用AI来提高搜索存储在苹果设备上的数据的能力。

今年2月，库克在年度股东大会上表示，使用苹果AI技术的功能包括Vision Pro的手部跟踪工具和Apple Watch的心率警报。他还表示，MacBook中的芯片能够运行AI。库克表示，今年晚些时候，将与大家分享如何在生成式AI领域开辟新天地。苹果公司通常在6月份的年度开发者大会上宣布新的软件产品和功能。

知名分析师郭明錤在2023年10月发布的一份报告显示，预计苹果在2023和2024年分别采购2000–3000台、1.8万–2万台AI服务器，分别占同期全球AI服务器出货量的1.3%和5%。估算苹果在2023和2024年需要分别支出约6.2亿和47.5亿美元，用于AI服务器采购。

基于苹果产品的功能需求，以及庞大的AI服务器资本支出，再结合该公司自研芯片的历史，相信其自研AI服务器芯片是早晚的事，特别是苹果放弃造车，将资金和资源重点投入到AI技术和产品研发上，自研AI服务器芯片就更加顺理成章了。

01、AI服务器芯片的重要性

据统计，2024年，全球服务器出货量约1365.4万台，其中，各家ODM的出货以AI服务器最为强劲。分析师指出，2024年，AI服务器出货年增长率和占比都将达到两位数，这主要得益于生成式AI市场的增长。预计生成式AI市场规模将从2022年的400亿美元增长到2032年的1.3万亿美元，年复合增长率高达41.7%。

由于全球生成式AI市场商机与增长潜力巨大，对训练AI系统的软硬件需求量很大，使得市场对AI 服务器及相关芯片的需求不断增长。AI大模型迭代速度越来越快，厂商对智能算力的投入大幅增加，支持存储和训练的高端AI服务器的需求激增，2023和2024年，大模型训练所需数据量激增，AI大模型厂商需要的是能够支持存储和训练的高端AI服务器，因此，各服务器厂商都在升级芯片规格、扩大卡组数量。

与传统服务器相比，AI服务器在多个方面有所不同。硬件方面，AI服务器采用异构形式，内存容量更大，可满足不同场景需求；卡的数量方面，由于AI服务器需要大量计算，至少配置4个GPU卡，有的需要8个；系统结构方面，AI服务器在散热、拓扑等方面进行了专门设计，以实现稳定运行。

02、自研AI服务器芯片热潮

根据应用场景不同，AI服务器可分为深度学习训练型和智能应用推理型；根据计算模块结构不同，AI服务器可分为CPU+GPU、CPU+ASIC、CPU+FPGA等，其中，最常见的是CPU+多块GPU组合模式。

虽然AI服务器计算系统主要由CPU和GPU组成，但就目前而言，GPU占据了较大市场份额，CPU份额相对较小。在这种情况下，GPU厂商的行业地位就很凸出了。然而，虽然市场很大，但能够提供高性能GPU的厂商却很少，目前，能够形成一定市场规模的厂商只有3家：英伟达，AMD和英特尔。

基于这种市场供求关系，对AI服务器具有很大需求量的互联网和IT设备大厂纷纷开始自研相关芯片，如亚马逊AWS，谷歌，Meta，微软和苹果。亚马逊AWS自研芯片始于2015年，当时收购了Annapurna Labs，2018年，AWS推出了基于Arm架构的Graviton处理器，这是其首款自研服务器芯片。

2020年，AWS发布了Graviton2。2023年12月，AWS推出了Graviton4和Trainium2，Graviton4的性能比Graviton2提升了30%，Trainium2在AI训练速度上提升了4倍。2016年，谷歌推出了自研的AI张量处理单元（TPU），这些专为机器学习设计的芯片为谷歌云平台上提供了AI加速能力，2022年前后，谷歌开始研发基于Arm架构的服务器CPU，2024年4月，谷歌发布了首款自研Arm构架CPU——Axion，并宣布该芯片已经在内部使用。

2020年，微软开始为其Azure云服务定制芯片，2023年11月，微软推出了两款自研芯片——Maia100和Cobalt100。Maia100是一款专为大语言模型训练和推理而设计的芯片，采用台积电5nm制程，Cobalt100是一款基于Arm架构的128核服务器CPU。今年4月初，Meta发布了新一代AI训练和推理加速器MTIA，其计算和内存带宽是上一代产品的两倍多，最新版本芯片有助于驱动Facebook和Instagram上的排名和推荐广告模型。

03、自研AI芯片的好处

互联网和IT设备大厂自研AI芯片的核心动机是降低成本。当然，自研芯片的前提是自身有很大的需求量，否则自研没有意义。这些大厂的巨量规模能够分摊芯片研发成本，随着产量的增加，单位芯片的成本会降低。

通过自研，这些大厂可以直接控制芯片的设计和生产成本，从而减少对外部供应商的依赖。这种成本控制能力使它们能够更有效地管理运营支出，提高整体利润率。自研芯片还可以优化供应链管理，减少中间环节，从而降低采购成本和物流成本。

此外，自研芯片可以根据云服务的具体需求进行定制，避免不必要的功能和性能过剩，进一步降低生产成本。通过自研芯片，这些大厂能够掌握更多的议价权和定价权，避免成为英特尔、英伟达等传统芯片商的“打工仔”。这不仅有助于提升利润空间，还能够在价格竞争中保持灵活性，根据市场情况调整定价策略。

自研芯片还可以帮助这些大厂完善软硬件生态系统，它们能够根据自家的业务需求和特点定制芯片，从而实现硬件与软件之间的无缝对接和优化。自研芯片还可以保持技术创新，随着云计算、大数据、人工智能的快速发展，数据中心面临的工作负载越来越多样化，自研芯片使这些大厂能够快速响应市场变化，及时推出符合新需求的产品和服务。

04、自研AI服务器芯片的难度有多大？

AI服务器芯片属于超大规模集成电路，除了需要大量资金投入，其设计和制造的难度都很大，需要能够精准把握技术路线选择，另外，在团队建设，以及与晶圆代工厂合作方面，需要具备业界顶级水平，才能把芯片做好。

AI服务器需要训练和推理两类处理器和系统，如何规划技术发展路线是关键，也就是说，是发展训练，还是推理，或是兼而有之，是不同的技术路线，这要考虑到市场现状及未来的发展情况。

训练芯片主要用于AI算法训练，即在云端将一系列经过标记的数据输入算法模型进行计算，不断调整、优化算法参数，直至算法识别准确率达到较高水平。

推理芯片主要用于AI算法推理，将在云端训练好的算法模型进行裁剪、优化变“轻”之后，进入应用阶段，输入数据直接得出识别结果。

不同用途（训练和推理）、不同应用场景（端-边-云）对AI芯片有着不同的要求。训练芯片追求的是高性能（高吞吐率）、低功耗，推理芯片追求的是低延时（完成推理过程所需要的时间尽可能短）、低功耗。“端-边-云”这3个环节对AI芯片的要求也不同，在端和边上进行的大部分是AI推理，大部分的训练是在云和数据中心进行的，训练过程对时延没有什么要求，需要保证AI芯片在尽可能保证较高算力的情况下，功耗尽量低。

目前，英伟达GPU主导的AI训练市场最为火热，然而，随着AI应用的深入展开，巨大的推理芯片市场会逐渐展现出来，该市场比我们目前看到的要大得多，没有任何一家厂商的芯片能够满足这个市场需求。这就是前文提到的亚马逊、谷歌、微软，甚至英伟达自研CPU的原因所在。

有统计显示，AI芯片市场包括约15%的训练，45%的数据中心推理和40%的边缘推理。在这样的行业背景下，大厂自研芯片，必须找准方向，权衡好中短期和中长期应用需求，分配好训练芯片和推理芯片的研发投入。芯片研发团队建设也很重要。

技术团队搭建，是一个长期积累的过程，需要时间，难度不小，因此，多家互联网大厂对芯片设计外包服务的依赖度较高，这恐怕只能解决短期、少量需求问题，长期来看，还需要技术积累和芯片团队建设。

下面看一下自研芯片大厂与晶圆代工厂的合作关系。

AI服务器芯片采用的都是最先进制程工艺，这方面，考虑到三星电子的先进制程（4nm和3nm）良率迟迟提升不上去，台积电几乎是唯一的晶圆代工厂选择。根据专门研究半导体公司的金融分析师Dan Nystedt的估计，2023年，苹果公司占台积电收入的25%（175.2亿美元）。2023年，台积电的前10名客户占其收入的91%，高于2022年的82%，这些公司包括联发科、AMD、高通、博通、索尼和Marvell。可以看出，没有一家互联网大厂，除了苹果，都是IC设计大厂。

多年来，苹果一直是台积电的头号客户，而且，在未来多年内将一直是台积电的第一大客户。据悉，苹果自研的AI服务器芯片将采用台积电的3nm制程工艺，将在2025下半年生产，那时，台积电的3nm制程将升级到“N3E”版本。

对于互联网和IT设备大厂来说，自研的AI服务器芯片，必须找到足够好的晶圆代工厂生产，要想保持长期、稳定发展，就必须对晶圆代工厂的制程工艺有足够的了解。这方面，与谷歌、亚马逊和微软相比，苹果具有先天优势，因为该智能设备巨头是台积电多年的第一大客户，双方有深入了解，能够更好地把握好芯片生产规模、良率、成本，可以实现无缝过渡。

05、芯片设计服务商机无限

如前文所述，互联网大厂自研AI服务器芯片，由于研发难度很大，这些大厂短时间内又难以形成有足够技术和经验积累的团队，因此，选择外包，找芯片设计服务合作伙伴就成为了不二选择。例如，谷歌开发的两种Arm服务器CPU，其中一款代号为“Maple”，是基于Marvell的技术。

另外，谷歌自研的TPU用于取代英伟达的GPU，谷歌设计的芯片蓝图，都由博通进行物理实现。物理实现是将逻辑电路转换为有物理连接的电路图的过程，博通绘制好物理版图后，再送到台积电流片，流片成功后的芯片正式进入制造环节，整个过程都需要博通深度参与。数据中心中成百上千个高性能处理器共同运作，它们之间的通信就成为了大问题，这也是当下数据中心性能损耗的主要来源。

博通是通信巨头，最善于解决通信带宽问题，在全球50GB/s的SerDes市场中，博通占据了76%的份额，其SerDes接口通过将低速并行数据转换为高速串行数据，然后在接收端转换回并行数据。通过这样的操作，数据可以从一个TPU高速转移到另一个TPU，大大提升了传输效率。有了博通的帮助，谷歌自研芯片的项目进展速度明显加快了，TPU从设计开始，仅用15个月就部署进了数据中心。

随着大模型市场竞争快速展开，谷歌大幅增加了TPU设计服务订单，使博通一跃成为仅次于英伟达的AI芯片厂商，Semianalysis预估，AI芯片会在2024年给博通带来80亿~90亿美金的营收。

不止谷歌，Meta、亚马逊、微软等大厂都在加大自研AI服务器芯片的投入力度，找芯片设计服务外包合作伙伴的需求只增不减，此时，以博通、Marvell为代表的芯片设计服务公司的商机会越来越多。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32H743VIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$20.56	查看
ATSAMD20J18A-AUT	1	Microchip Technology Inc	IC MCU 32BIT 256KB FLASH 64LQFP	ECAD模型下载ECAD模型	$4.06	查看
ATTINY85-20SU	1	Microchip Technology Inc	IC MCU 8BIT 8KB FLASH 8SOIC	ECAD模型下载ECAD模型	$1.83	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32H743VIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals