英伟达“特供”AI芯片背后的阳谋

东风吹、战鼓擂，这世界谁怕谁！

皮衣老黄，最近真的飘了。

就在一周前，英伟达的市值刷出了史上新高，首次突破3万亿美元大关超越苹果，当时仅次于微软。

5天后，英伟达股东大会匆匆通过了股票拆分方案，对公司股票按照1拆10的比例进行拆分，总股本从原来的24.6亿，变成了246亿。

董事会认为，较低的价格可能会让更广泛的投资者更容易获得英伟达的股票所有权并刺激需求，从而可能为英伟达投资者带来更多收益。

6月11日，分红方案紧随拆分计划出台，每股派息1美分。

对于目前全球最大也是最重要的AI算力硬件提供商而言，其目前在资本市场的亮眼表现，使得几乎各方都满足于目前这种皆大欢喜。以至于国台办12日在记者招待会时，针对黄仁勋一周以前的妄言，都只是不痛不痒来了句“希望他好好补补课”而已。

所谓高高举起、轻轻放下，不少人人对此感觉憋屈。但，这就是当前掌握着能够“卡你脖子”的核心技术，带来的“底气”。因为就在12日，有知情人士爆料内幕消息称，美国商务部工业与安全局（Bureau of Industry and Security，缩写BIS），正计划在去年10月初生效的，旨在遏制中国半导体技术进步的“半导体制造最终用途规定”中，明文插入限制中国企业获得全环绕栅极晶体管（GAA）技术的条款，以便进一步封堵“漏洞”。

这是一种，可以进一步缩小超大规模集成电路中，半导体器件几何尺寸的先进技术，延缓中国企业掌握该技术，将有助于美国继续延长其掌握最先进半导体工艺的周期。

然而仅仅一味加码和打压，并不能更好地实现美国政府三年来奉行的“小院高墙”打压政策。相反，还有可能损害美国企业的利益。以英伟达为例，其AI计算卡产品中，曾经有近四分之一的订单来自中国企业。

所以，无论去年十月启动的对华半导体技术最终遏制措施，还是目前最新的“补漏”条款，都不再以特朗普时代简单、粗暴而且全面的打压作为手段。

并不彻底封死你获得先进AI算力的渠道，但需要进行精心而且有策略的进行限制。就好似调配一杯具备慢毒性的可口鸩酒，并将其摆在饥渴的中国企业面前。

01、精心炮制的“鸩酒”

基于BIS的规则，由英伟达一手调配，摆到中国AI企业面前的这杯“鸩酒”，名叫HGX H20。

之所以用“鸩酒”描述一款AI计算卡产品，乃是因为其作为英伟达现有旗舰产品的阉割特供版，经由皮衣老黄精湛的“刀法”，性能控制堪称“出色”，卡死的关键性能点也足够歹毒——

在深度机器学习的关键数据INT8方面，功率为270w的H20算力仅296 Tops，TF32算力则为74 Tops。与之相比，其未“阉割”的母型H100在350w与700w功率下，算力分别达到3026/3958Tops以及756/989 Tops。

但正如成语“饮鸩止渴”，即使是这杯“鸩酒”却也能让企业不得不考虑喝下去。因为H20“刀”的确实非常精妙。

HGX H20与H100都基于Hopper架构，其拥有96GB的HBM3存储器，以及高达4.0 TB/s的记忆体频宽，甚至高于3.6 TB/s的H100。另外，其NVLink频宽也高达到900 GB/s，比起英伟达根据BIS上一版规定搞出的上代阉割版A800的400GB/s，毕竟是要高出一倍多。

基于上述状况，有分析师根据理论数据和部分实测数据推论，尽管H100的运算速度远超过H20，但挤掉无法实际利用的水分后，在多卡互联用于深度神经网络训练的环境下，H20在性能上仍可接近甚至达到H100的一半左右。

此外，在目前日趋流行的大语言模型（LLM）方面，由于H20使用了和最新的H200相似的技术，所以在推理能力上其较之H100有了显著提升，目前部分测试结果认为相对要快20%以上。

这么看起来，H20似乎也不算那么差，甚至在目前炙手可热的LLM赛道上，还具有一定的优势？但问题在于，BIS实际上在算力与能耗方面，也作出了硬性限制。

在上一轮限制中，BIS的将主要注意力放在了AI计算卡的传输速率上，试图以此限制中国企业将其用于集群网络领域，以避免这些计算卡继续为这边的国家总算力提升继续添砖加瓦。

在上述思路下，NVLink链路以及互联带宽成为了上一轮管制的核心内容，也就有了H800和A800这两款“特供”计算卡的诞生。

A800相较于A100，NVLink链路从12条被砍到8条，互联带宽从600GB/s被削减到了400GB/s。H800较之H100，NVLink链路被从18条砍到了8条，互联带宽从900GB/s削减到了400GB/s。

当时的思路，就是以削减计算卡之间数据传输效率，来降低其集群运作的能力，从而限制中国企业乃至国家在总体算力上的增长。而具体到单卡算力上，中国特供版中只有H800在双精度（FP64）算力上有明显限制。

但美方很快就发现了问题。因为通过聚合技术，企业可以通过稍微降低芯片的双向带宽来规避管制。实际应用于人工智能任务时，上一代特供计算卡较之于性能不打折扣的原版，下降幅度几乎可以忽略。

正因为如此，时隔一年BIS在充分吸取教训后，直接换了一个思路，新设了计算卡的“性能密度”。根据新规开发的新一代“特供”计算卡H20，若是以能耗比来论，在INT8指标上，其能耗算力比仅为1.1。相比之下H100则达到了8.65。

中国企业固然可以通过堆更多的计算卡，来获得同等的算力，但代价就是更大的成本以及更高的能耗。而这两者相互叠加将会产生深远的战略性影响——即我国国家总体算力的提升，将在能源消耗方面比美国付出更高乃至于成倍的代价。

02、临时的应对方案

美国商务部的歹毒限制，以及美国资本家对于踩红线的精妙控制，我们上文大致已经大致说清楚了。而且这里还需要强调一句的是，既然是BIS拟定的管制规则，那就绝不只限于英伟达一家。

无论牙膏厂的Gaudi2、Gaudi3，苏妈家的MI250X、MI300，等等这些产自美国企业，或者使用了美国技术的AI计算卡，所有超出规则线的全都要禁。而若结合去年下半年出台的，限制使用美国技术的晶圆工厂为中国企业代工半导体器件的严格限制，则国内主攻AI计算卡的无晶圆工厂，暂时只能以现阶段能够基本实现自主的7nm制程工艺挖潜。

既然形势如此严峻，国内企业会选择英伟达新一代“特供”产品H20/L20么？结合今年初以来的市场状况，答案是：不会。

毕竟，事情都已经发展到了这个份上了，中国企业若是继续做着“在商言商”的美梦，拓展业务时单以产品性能以及配套生态考虑，也就无异于为了暂时缓解饥渴去饮下那杯精心调配的“鸩酒”。

自从去年末今年初BIS新限制的出台以后，对国内长期惨遭英伟达压制的AI计算卡提供商，实际已经被转变成了一波重大利好。

现阶段，国内这方面大的供应商包括华为海思的昇腾系列、寒武纪的思元系列、海光信息的神算一号、燧原科技的T20/21以及i20等等。而结合半年来市场的反响，昇腾910B应该是现阶段吃到最多市场份额的型号。

不过，正如上文所言，这只是目前的应对方案。但昇腾910B也远算不上完美。其主要问题如下——

首先便是其对当前热度最高的大模型，并不足够友好。当然这一点也是难免的，因为昇腾910B的原型昇腾910A发布于2019年，反推其设计则不可能早于2018年初，所以也就必然错过了发布于2018年下的Transformer模型的热潮（大语言模型搭建的主流框架）。

其次，在这个英伟达横扫85%的市场，把包括AMD、微软、英特尔在内的一票企业统统扫入市占比饼图里“other”的这个时代，昇腾系列产品也必然存在生态匮乏的问题。

当然在性能方面，昇腾910B在具有这些不足的情况下，依然能做到性能基本能与同代英伟达A100（基于上一代的Ampere架构）相提并论的程度，根据实测，其在400w功率下其综合性能达到了A100大约70~80%的程度。

根据目前消息，昇腾910C的测试颇为顺利，如无意外将于今年9月上市。考虑到现阶段国内高端自主半导体代工仍需在7nm制程内打转，且短期内不太可能立即突破HBM工艺（High Bandwidth Memory，高带宽存储器，可以理解为一种先进封装工艺），但起码能够在transformer算子亲和性，乃至于更好地解决多卡互联方面取得突破，从而根本上终结对美国企业AI计算卡的单一依赖。

但正如上文所介绍的那样，我们暂时还只能在有和无的问题上努力，而针对BIS最大的阳谋——限制性能密度，从而实现中长期在战略上拖慢中国国家总算力增长速度这方面，无论昇腾910B还是几个月后将会发售的昇腾910C、未来的昇腾920，乃至于国内在技术上排名前列的企业，暂时都是无法破局的。

归根到底，晶圆加工能力的瓶颈就卡在那里，需要我们自己去突破。而如果有必要的话，那些正在西部沙漠与戈壁滩上铺开的光伏与风力电站，也能为我们争取更多的时间。

一年多前，某著名国际车企巨头曾经针对汽车的AI辅助设计，进行了一次专项调研，并最终确认了通过引入更高效的AI辅助技术，对于车型的更新换代，将有着巨大的帮助。

具体到数据化的表述就是，在上世纪90年代，一款车型从产品规划、方案确定，到设计以及工程样车制造，最后一直到完成测试图纸冻结，至少需要超过50个月。

然而在充分引入AI技术辅助之后，这个周期极限情况下，可以被压缩到20个月以内。

各位可以比一下，近年来国内车企在各种卷天卷地的状况下，推出新车以及老车型换代所需的周期，则AI技术的效能和前景，可见一斑。

至于在智能驾驶的领域，大语言模型所具备的卓越推理能力，也正在被越来越多的企业广泛地认识到。

上月末，有行业内人士称，英伟达的H20在国内市场的“供给相当充裕”，如有明确需求可以随时供货。该人士同时还列举了今年四月，国内某科技巨头一次下单超过三万张计算卡的大单，并在很短的时间内就拿齐货的案例。

然而笔者以为，这确实不算什么“坏”消息，因为供应充足的另一面，也代表着市场需求的疲软。毕竟在2022年上半年，想要采购A100，那是需要排队的。

实际就英伟达而言，其对于H20这样的产品也是非常不满的。因为其约10万元人民币的单卡售价，只能达到H100的一半左右。然而却在生产成本上，明显要高上许多。

有别于H20的疲软，其竞品昇腾910B，呈现的是另一幅光景。不仅单卡售价比H20高上一些，大约在12万元上下。而且企业想要拿到货，是需要排队的。

之所以会有这副光景，理由也是明摆着的——起码昇腾不会断供。

就现阶段来说，无论中国AI行业亦或是整个半导体产业，问题距离彻底解决还非常地遥远，甚至考虑到敏感话题对公众号的危险性，本文揭示的也仅仅是系列问题中一个很小的视角。

好在，至少在2024年即将过半的时间节点上，某种恶性循环已经被彻底终结。

而全新的，良性的循环正在形成之中，其最终也将引导所有问题，走上真正的解决之道。

作者丨林登万

责编丨查攸吟

编辑丨马悦

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
AT91SAM9G20B-CU	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FAST, ARM9 CPU, 400MHz, CMOS, PBGA217, 15 X 15 MM, 0.80 MM PITCH, GREEN, MO-205, LFBGA-217	ECAD模型下载ECAD模型	$11.13	查看
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$20.39	查看
STM32F429IET6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	$23.92	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

AT91SAM9G20B-CU

Atmel Corporation

RISC Microcontroller, 32-Bit, FAST, ARM9 CPU, 400MHz, CMOS, PBGA217, 15 X 15 MM, 0.80 MM PITCH, GREEN, MO-205, LFBGA-217

$11.13

查看

STM32F407VGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

$20.39

查看

STM32F429IET6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT

$23.92

查看

英伟达“特供”AI芯片背后的阳谋

01、精心炮制的“鸩酒”

02、临时的应对方案

推荐器件

相关推荐