其中,英伟达新发布的H200芯片,堪称“地表最强”AI芯片,性能相较前一代的H100提升约60%到90%。
时间再往前推移,在9月的2023英特尔On技术创新峰会上,英特尔首次公开了三代AI芯片路线图,按照规划,明年将推出采用5nm制程的Gaudi 3。
AMD的苏妈则在6月重磅发布了最新AI芯片GPU MI300X,其更大的内存和带宽直接叫板英伟达的H100。
半导体行业冷风直吹,AI赛道芯片巨头却打得火热。随着生成式人工智能成为最明确的前进方向,AI芯片市场早已成为芯片巨头的必争之地。
01、开抢
11月13日晚,英伟达在全球超算大会(SC2023)上推出新一代GPU,也是H100的升级版——NVIDIA HGX H200。
这个时间点,AMD最新一代AI芯片GPU MI300X正量产。原本MI300有望成为AMD销售额最快破10亿美元的产品。如今,H200的突然发布有可能打乱这一节奏。英伟达称H200将在2024年第二季度开始交付,这意味着留给AMD抢占市场的时间并不多。股市上也给出了直接的反应:在H200发布会结束后,AMD收盘股价下跌1.52%。
在性能上,英伟达这次不卷频率,而是卷起了内存。过往GPU升级,英伟达都主要在架构上下功夫,但此次H200依旧采用了Hopper架构。在同架构之下,H200的浮点运算速率基本上和H100相同。升级点主要在内存容量和带宽上,H200拥有141GB的HBM3e内存,相较H100提升了80%;内存带宽为4.8TB/s,提升了40%。
这升级幅度,可以说英伟达是在“挤牙膏”,但同时又不得不佩服老黄的“精准刀法”。要知道,AMD在6月对标H100发布的最新一代AI芯片GPU MI300X,其最大亮点就是更大的内存和内存带宽。而H200此次的升级刚好就是在内存和内存带宽上做文章。
MI300X拥有192GB的HBM3内存,是H100的2.4倍;内存带宽为5.2TB/s,是H100的1.6倍。更大的内存容量,令MI300X在运行生成式人工智能上独具优势,相较H100,MI300X可以直接在内存中运行更大的模型。此外,更大的内存带宽,意味着MI300X能实现更快的数据传输。
诚如苏妈反复强调那般,这确实是一款具有重要战略意义的芯片。因为这几乎是全球范围内,第一款能够直接对标英伟达H100的产品。虽然MI300X尚不能取代H100在大模型训练芯片领域的霸主地位,但在H100产能紧张的情况下,抢收部分的算力市场,MI300X还是游刃有余的。
这个抢收的窗口期有多长呢?原本至少有6个月。根据英伟达的规划,下一代升级框架的GPU芯片B100最早将于明年Q2发布。而MI300X定于今年第三季度开始向客户提供样品,第四季度进行批量生产。
如今,H200的突然发布有可能打乱MI300X的市场抢收节奏。毕竟,升级了内存和带宽之后的H200,在大模型推理表现上提升极其明显。H200在700亿参数的Llama2大模型上的推理速度比H100快了一倍,且能耗降低一半,是当之无愧的“地表最强”AI芯片,截胡了AMD的MI300X。
这厢英伟达和AMD正打得火热,那厢老牌芯片巨头英特尔,也不想将如此庞大的市场“拱手于人”。根据Precedence Research数据,2022年全球AI芯片市场规模为168.6亿美元,2032年有望增长至2274.8亿美元,年均复合增速约29.72%。
9月,在美国圣何塞举办的英特尔On技术创新大会上,英特尔首次亮出三代AI芯片路线图。其CEO基辛格宣布采用5nm制程的AI 芯片Gaudi 3将于明年推出,其算力将会是前一代Gaudi 2的两倍,网络带宽、HBM容量则会是Gaudi 2的1.5倍。
“我们正在获得动力,市场开始意识到,AI 芯片行业领导者中还有另一个机会。”基辛格表示。言语间无不彰显英特尔在AI芯片领域的雄心。
02、无法割舍的中国市场
作为“史上最强”AI芯片,H200很大程度与中国客户无缘。11月14日,英伟达在邮件中向钛媒体App确认:如果没有获得出口许可证,H200将无法在中国市场销售。同样据钛媒体App报道,英伟达将推出三款针对中国市场的AI芯片,以应对美国最新的芯片出口管制。
根据10月17日美国最新的芯片出口管制条款,只要芯片总算力大于或等于4800TOPS,或者芯片总算力低于4800 TOPS但性能密度达到一定阈值,都将受到管制。此前英伟达针对中国市场推出的A800和H800皆落在管制范围之内。
不过,尽管新一轮芯片限制措施出现,英伟达并没有放弃中国AI芯片市场的打算。黄仁勋曾在多个不同场合强调过中国市场的重要性。
据TrendForce发布的数据,2022年全球AI芯片市场规模为300亿美元,其中,中国市场规模超过100亿美元,是全球最大的AI芯片市场之一。
单从体量上来看,中国超过百亿美元的巨大市场是芯片巨头们不愿错过的。更深一层的原因则是,芯片巨头们担心此刻一旦错过了中国市场,可能就永远错过了中国市场。“如果(中国)不能从美国购买,他们就会自己制造。美国必须小心,中国是非常重要的技术产业市场。”黄仁勋曾指出。
规格文件中显示,英伟达即将向中国客户推出三款新产品HGX H20、L20 PCle、L2 PCle。其中HGX H20就是“缩水版”的H100。再一次,老黄施展了他的“精准刀法”。
参数上,H20依旧拥有96GB的HBM3内存,但是计算密度被大幅削弱以符合出口新规。据悉,H20整体算力比英伟达H100 GPU芯片下降80%左右【1】。
不过,H20配置了4.0TB/s的内存带宽,比H100还高,卡间、服务器间带宽NVlink速度与H100持平,为900GB/s。老黄的算盘打得精巧,这意味着中国客户可以通过多买几张H20,堆叠起来以弥补单卡算力不足的问题。据粗略计算,2.5张H20约等效于一张A100【2】。
如果H20售价合理,算力堆叠再加上坚不可摧的CUDA生态,对于国内云厂商们来说,H20依旧会是诱人的选择项。对此,已有国内第三方云计算服务商表示,会考虑采购英伟达改良版AI芯片,待厂商提供芯片后,根据适配效果来考量。
据悉,英伟达针对中国市场推出的这三款新品最快将于11月16日公布,产品送样时间在今年11月至12月,量产时间为今年12月至明年1月。
针对中国市场推出特供版的产品,早已成为芯片巨头们在地缘政治和商业利益之间取得平衡的重要举措。
今年7月11日,英特尔就针对中国市场推出了定制版的AI训练处理器Gaudi2,可以在合规的同时,为中国用户提供加速AI训练及推理的新选择。
今年8月,AMD在财报会议中透露,正考虑效仿英伟达的做法,调整其相关AI芯片的参数规格,以在“合规”的情况下向中国市场出货。“我们相信,我们有机会为正在寻找人工智能解决方案的中国客户开发产品,我们将继续朝着这个方向努力。”苏妈表示。
目前来看,10月17日发布的新出口管制规定,可能会打乱英特尔和AMD原先的计划。但是,可以肯定的是,英特尔和AMD绝不甘心缺席中国的AI芯片市场。
03、写在最后
再一次,英伟达刷新了“地表最强”AI芯片的参数。过去十年,英伟达将单个GPU的AI推理性能提高了1000倍,这一规律也被称为“黄氏定律”。未来,为了匹配大语言模型的飞速发展,英伟达必定会致力于“黄氏定律”的延续。对于中国的AI芯片企业来说,如果不奋力追赶,与最先进技术的差距将可能被进一步拉大。
美国芯片新规出台后,不少业内人士将此看做倒逼国内AI芯片企业发展的契机。但同时需要正视的是,在中国市场,国内企业依旧会面临海外巨头激烈的正面竞争。以英伟达的H20为例,即便性能大幅缩水,不过由于易用性,还是会成为众多国内云服务商的重要选择甚至首选。因此,接下来国内AI芯片企业,仍将面临一场市场恶战。
对国内云服务器厂商而言,短期来看,特供版产品可以解一时之渴;长期来看,特供版产品令产业发展始终受制于人。
发展自主可控的AI芯片产业链才能在未来掌握主动权。除了提供政策和资金支持之外,促进AI产业上下游建立培养国产AI芯的共识,也相当重要。
参考资料:
【1】英伟达阻击国产AI芯片,“中国特供版”已成“缩水版”,
【2】最强AI芯片H200?黄仁勋又在挤牙膏了