英特尔把对抗英伟达的希望，寄托在了中国

作者｜薛良Neil
邮箱｜neilshen@pingwest.com

每一家芯片厂商都想要把“人工智能=英伟达芯片”这个公式推翻，英特尔尤其有必要这样做。7月11日，英特尔在北京发布了名为Gaudi 2深度学习加速器芯片，这是英特尔专为大模型训练和推理打造的专供中国市场的芯片。

英特尔的目标显而易见，它把对抗英伟达的希望寄托在了中国市场。

一直以来，数据中心业务都是英特尔主要收入来源之一，它和英特尔在CPU领域的成功一道，在过去几十年构筑了英特尔最强的企业护城河，而这条宽且深的护城河，部分由于英伟达主导的人工智能浪潮，现在已不复存在。

最新的财政季度，包括个人电脑在内的客户计算事业部CCG和数据中心与人工智能事业部DCAI业务收入双降，同比都在38%左右，由此拖累了英特尔录得自2010年以来最低的季度收入（同比下降36%），更是30年来首次连续亏损。

CPU卖不动了大家早有预期，后疫情时代包括PC在内的个人电子消费品市场都陷入疲软，下行的半导体周期还叠加了摩尔定律的失效——英特尔最核心的CPU芯片制程工艺曾长时间停留在14nm阶段数年，以至于长久以来屈居第二的AMD通过异性架构的处理器实现反超。

但数据中心业务的下降就显得有些不同寻常，英特尔市场份额的萎缩同人工智能的高歌猛进形成了鲜明的对比——类似ChatGPT的大模型技术无论是训练还是推理都需要庞大的数据中心算力来支撑，然而目前为止英特尔并没有从中得到任何利好，绝大部分的收入实际上都被英伟达拿走了。

随着百模大战的展开，所有人都在如饥似渴地囤货英伟达显卡，在供不应求且小道消息满天飞的情况下，A800这样专供中国市场的“阉割版”芯片的售价在15天之内就涨了两万块钱，交货周期也从过去的1个月拉长到最少3个月。甚至许多经销商玩起了同奢侈品行业一样的“配货”规则——想要最新的算力卡，就得搭配采购其它积压的库存一起。

这就是目前市场火热的现状。人工智能是近年来普遍疲弱的科技行业少见的增长亮点，整个半导体行业都在受益于这场AI浪潮，有人预计到2030年整个芯片市场的收入将达到1.25万亿美元，而根据摩根士丹利的估计，四年内AI芯片和它的上下游关联领域的收入就将达到总收入的10%，也就是1250亿美元。

出于任何理由，英特尔都不会放弃这项传统上属于英特尔优势领域的业务，而这一次，英特尔把出手的地点选在了中国。

外科手术式精准出手

“市场想要备选方案。”英特尔公司执行副总裁、数据中心与人工智能事业部总经理Sandra Rivera在北京作出如上表述。

其中之一的意思是，有太多太多的言论有意无意把生成式AI同英伟达GPU绑定了起来，而英特尔并不认同这一点。基于英特尔产品组合的AI解决方案，用英特尔自己的话说，“为在封闭生态系统中寻求摆脱当前效率与规模限制的客户提供了极具竞争力的选择。”

现在选择来了。

在7月11日举办的活动上，Sandra Rivera 笑容满面地向媒体和合作伙伴展示了名为Gaudi 2的深度学习加速器芯片，英特尔宣称这是大规模部署AI的“更优解”。

Gaudi 2 采用台积电7nm制程，拥有24个可编程Tensor 核心，21个100 Gbps（RoCEv2）以太网接口用来内部互联，96GB HBM2E内存，总内存带宽达到了2.4TB/s。

Gaudi 2 的定位非常精准，就是针对大语言模型LLM和生成式AI。它是由英特尔2019年收购的以色列AI初创公司Habana Labs 设计的，尽管英特尔从未将其称之为GPU，但无疑把它看作是英伟达高端GPU A100和H100的竞品。

实际上，英特尔在现场展示了Gaudi 2 的强大性能都在对标英伟达。比如针对Bert模型预训练，发布会现场的图表显示，Gaudi 2 的性能比英伟达A100 快1.7倍。Sandra Rivera称 Gaudi 2 不仅在性能上超过A100，还在最先进模型上提供了约2倍于A100的性价比。

至于更先进的H100，Habana Labs 首席运营官 Eitan Medina 直言，Gaudi 2 是为数不多能替代英伟达 H100 进行LLM训练的方案，在由MLCommons 发布的 MLPerf 3.0 基准测试中，Gaudi 2 是唯二能够进行 GPT3 训练的，另一个正是 H100。

尽管在目前基于GPT-3模型，单个H100的性能领先于Gaudi 2 达3.6倍，但Eitan Medina 预计随着在9月采用FP8软件，Gaudi 2 有望显著缩短训练时间，这样它在性价比方面就会超过H100。

中小模型推理方面，英特尔有已经升级到第四代的至强处理器，发布会现场英特尔演示了使用至强处理器的电脑使用stable diffusion生成图片，花费大约五秒钟。当模型规模提升到千亿级别时，则有 Gaudi 2 来帮助大模型进行训练。

英特尔由此组成了一个产品组合。

这样的产品组合让英特尔覆盖了目前人工智能对算力需求的方方面面，而Gaudi 2作为英特尔在大模型领域布局的重要一环，精准聚焦于在性能和每瓦能耗两方面展开同英伟达的竞争——提供不弱的性能同时，保持了较高的性价比，这等同于在为客户省钱。

英特尔在服务器领域的丰富经验让这场关于Gaudi 2的发布会很大程度上变成了针对重要客户的宣传，除了性价比之外，Gaudi 2还在规模化部署和开箱即用方面让人印象深刻。

同样是MLPerf 3.0基准测试，在GPT3模型上，把Gaudi 2从256个增加到384个，其扩展效果是近乎线性的（近线性95%），这意味着客户可以按照自己的需要扩展部署Gaudi 2芯片而几乎不用考虑其性能上的结构性损失。

至于开箱即用方面，Gaudi 2的SynapseAI软件套件集成了PyTorch、TensorFlow和DeepSpeed等主流人工智能开发框架，这意味着开发者可以非常迅速地在不同硬件平台上进行代码迁移。

有多迅速？Hugging Face首席布道师Julien Simon给出的答案是10分钟，这还包括了阅读文档的时间。

“最简单的开发体验之一。”Julien Simon如此形容。

实际上，作为一款在去年就已经发布的芯片，Gaudi 2 在近一年的时间里一直在针对大模型需求进行软件方面的迭代，同去年11月提交MLPerf 3.0基准测试的数据相比，Gaudi 2在Bert模型性能上提高了10%，英特尔宣称预计在第三季度发布对FP8软件支持的时候（目前是BF16），其性能还将有进一步明显提升。

从性能、效率和迁移成本、规模化扩展方面，Gaudi 2看上去都做好了准备。

要说还欠缺什么部分，那可能是中国市场的东风。

对中国市场的重视

Gaudi 1 就是在北京发布的，此番故地重游，英特尔为Gaudi 2中国区发布做了许多准备。

中国区发布的Gaudi 2相比国际版，内部互联的以太网接口由24个减少到了21个，这显然是为了应对美国政府相关的合规要求。

不过英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示，其整体性能基本上是一致的，特别是Gaudi 2在中国会首先搭载在浪潮信息的服务器上，根据Eitan Medina的说法，浪潮服务器的设计实际上没有用到所有的网口，也就说企业级客户在采购服务器（而不是Gaudi 2芯片本身）的时候，其性能损失很少。

英特尔的营收有近四分之一来自中国，实际上本周英特尔CEO Patrick Gelsinger 也在中国，尽管没有任何公开媒体行程。这已经是这位大刀阔斧改革英特尔的CEO今年内二度访华。

深耕中国市场让英特尔可以更好地同中国产业上下游的伙伴紧密合作。除了Gaudi 2芯片，发布会上一同亮相的还有浪潮服务器NF5698G7，它由8颗Gaudi 2和两颗至强芯片组成。浪潮信息高级副总裁、AI&HPC产品线总经理刘军宣称，其算法工程师实际体验后认为它的使用体验“和GPU上使用基本没有太大区别”，这意味着客户从迁移数据到训练负载的整个过程都将十分平顺。

除了浪潮外，Gaudi 2在中国的合作伙伴还有紫光新华三和超聚变等公司，也就是说，企业级客户数据中心的采购需求可以在芯片发布的第一天经由英特尔的合作伙伴来满足。

能抢走多少英伟达的蛋糕？

不管英特尔做了多少，最后的问题还得回到商业化上。当天Sandra Rivera也被问到关于英特尔对英伟达、特别是CUDA生态的看法，由于许多开发者都在CUDA环境中编写代码，这种生态实际上构成了竞争壁垒，让迁移数据到别的平台变得格外困难。

Sandra Rivera 对此表示了乐观，80%的大模型开发者是基于框架层做开发，而Gaudi 2和英特尔的服务器在软件层面已经基于框架层做了很长时间的积累和适配，并且同包括Hugging Face在内的开源社区进行合作。

换而言之，英特尔已经在自己所能及的范围内尽力降低了开发者的迁移成本。考虑到英特尔多年来在数据中心业务的积累，尤其是至强系列服务器芯片同Gaudi 2能发挥更好的协同效果，在地缘政治日益复杂的背景下，作为一种替代方案，Gaudi 2显然是一个值得考虑的选项——一个合格和更具性价比的替代品，这实际上也是英特尔对这一代Gaudi 2芯片的定位。

当然，上面的情况都属于理论推测的范畴，想要在人工智能浪潮中分一杯羹，还不得不考虑真实的商业逻辑。

尽管投资生成式AI看上去是所有科技大厂的必选项，但在资金投入上大部分企业仍然被避险情绪所主导，也就是说，大家并不愿意冒迁移平台的风险。

在大模型芯片领域，英特尔还是个新手，Gaudi 2在全球范围内推出已经有一年多时间，而配套的软件一直在优化迭代，这或许影响了用户的采购意愿，在发布会上英特尔没有宣布任何一家客户采购Gaudi 2，与之形成鲜明对比的是英伟达在台北电脑展上推出DGX GH200 超级计算机时就同步官宣了三个大客户：谷歌云、Meta和微软。

更严峻的挑战在于，即便是这些数据中心大客户，也都在开发属于自己的大模型芯片以期削减成本。这个过程是与它们大肆采购英伟达芯片同步展开的，而这同样也是英特尔必须面对的课题。

算下来，中国市场对于英特尔来说确实是个难得的机会，但芯片业务上把目光投向中国的也不只英特尔一家，包括 AMD 和Graphcore 在内的公司都在加紧推出自己的AI专用加速芯片，它们同英特尔正产生着直接的竞争。特别是AMD，这个CPU领域英特尔的老对手刚刚发布了名为MI300X的GPU，在多项性能和指标上都宣称高过H100一筹。

相比模型层的百模大战，硬件层“天下苦英伟达久矣”的呼声一直存在，英特尔这次精准出手可以看作是这家老牌芯片公司对英伟达人工智能领域垄断地位的一次挑战，而它的成功与否，最终还是需要交给市场来检验。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU810-I/PT	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100		$10.04	查看
PIC32MX795F512LT-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$11.46	查看
MK60DN512VMC10	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121		$10.69	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

DSPIC33EP512MU810-I/PT

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100