“履霜,坚冰至;履霜坚冰,阴始凝也”。驯致其道,至坚冰也。最初A100和H100被禁,有了A800和H800,然后A800和H800也被禁止了,再之后消费级的RTX4090也被禁止了。虽然RTX8090显卡仍可以销售,但RTX4090的芯片被禁止了,换句话说以后RTX4090只有进口的了,几年前如果有人说RTX4090芯片会被禁止,肯定会被嗤之以鼻,不可能,但现在确实发生了。
北京时间2023年10月17日晚间,美国政府公布了《临时最终规则》,对于高性能计算芯片对华出口限制规则进行了升级,该规则将于11月17日生效。10月18日,英伟达(NVIDIA)依照上市公司规则提交了“8-K文件”,对于与其相关的限制政策及影响进行了说明。
美国商务部工业与安全局(BIS)最新公布的《临时最终规则》修订了ECCN 3A090和4A090,并对向中国和国家组D1、D4、D4和D5(包括但不限于沙特阿拉伯、阿拉伯联合酋长国和越南,但不包括以色列)的出口,规定了额外的许可证要求。原始文件有295页,相信大部分人都没仔细看一遍。
根据修订后的ECCN 3A090、4A090新规,对高性能计算芯片做了限制:
增加了“性能密度阈值”的判定,与之相关的是改用“总体处理性能”(TPP,Total ProcessingPerformance)以代替此前传统的算力单位TOPS。在现有新规下,算力大于一定阈值,或算力与性能密度同时分别达到某一阈值,都将触发出口管制。
“总处理性能”TPP的计算方式为2דMacTOPS”ד操作的位长度”,“性能密度”为“总处理性能”除以“适用的芯片单元(die)面积”。对于美国现有规定而言,“适用的芯片单元面积”以平方毫米为单位。其中,die(晶片)指的是包含一个或多个集成电路(IC)的单块半导体材料。它是在制造过程中从更大的晶圆中切割出来的单个片段。然后通常会将这个晶片封装到芯片载体中。
如果相关芯片设计及销售不用于数据中心,其限制阈值是“总体处理性能”大于等于4800,或总处理性能大于等于1600且“性能密度”达到5.92;如果相关芯片用于数据中心,其“总体处理性能”介于2400至4800之间,且“性能密度”介于1.6至5.92之间,或“总体处理性能”高于1600,且“性能密度”介于3.2至5.92之间,均会触发出口管制。
这里的性能密度PD(Performance Density)指的是TPP指标除以芯片面积(单位:mm²),这里所指的芯片面积包括逻辑运算芯片所占的所有面积,也包括使用非平面晶体管架构工艺节点制造的逻辑芯片。
美国还表示,将制定一份新的“灰名单”,要求某些不太先进芯片的制造商在向中国、伊朗或其他受到美国武器禁运的国家(D:5国家组)出售芯片时通知政府。
INTRODUCING ORIN
图片来源:英伟达
而Orin最高是275TOPS@INT8,即2*275*8=4400,Orin有多个版本,国内版本一般Orin是254TOPS。
图片来源:英伟达
这是国内最常见的,型号可能是Orin T239,其TPP为2*254*8=4064。最关键的就是Orin的die size了,英伟达未公开过,但英伟达公布过Orin的制造工艺和晶体管数量,从中可以大致推算出其die size。此外,https://twitter.com/SkyJuice60/status/1539489608047955969里说Orin的die size是445平方毫米,4064/445=9.13,显然高于5.92了。不过BIS文件里写明是原始计算模式,像英伟达Orin的GPU,其原始计算模式是FP32,算力仅为5.2TOPS,INT8模式下才167TOPS。所以TPP应该是2*87*8+2*5.2*32=1724.8,那么密度为1724.8/445=3.36,似乎是过关了。不过Orin的die size到底是多大?
Orin采用三星的8纳米LPP工艺,三星在2018年的VLSI大会上对8纳米LPP工艺做了说明,https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/,为了降低成本,三星的8纳米LPP没有采用EUV光刻机。
图片来源:三星
三星没有明确指出8纳米LPP的晶体管密度是多少,不过给出了UHD的密度是61.18百万晶体管/平方毫米,文章里有一句话“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是说8纳米LPP就是UHD,Orin是170亿晶体管,如果密度是65.18百万晶体管/平方毫米,那么其die size就是17000/65.18=260.8平方毫米,1724.8/260.8=6.61,显然超过了5.92的上限。不过这个密度只是理论值,实际会有打折,大致会有10-20%的折扣,如果是10%的折扣那么性能密度值就是5.95。
英伟达下一代车载SoC即Thor肯定满足第一项。
Thor最大算力是2000TOPS@INT8,即2*2000*8=16000,远超TPP规定的4800的阈值。但Thor的细节还不为人知,应该接近英伟达的H100,应该还是近似Orin的配置,一半算力由CUDA核提供,一半由TENSOR提供,无论如何也会超过4000,更何况其是台积电5nm或4nm工艺,晶体管密度至少是1.24亿个/平方毫米,肯定会超过5.92上限。
高通的SA8650据说是100TOPS@INT8算力,TPP就是1600,且SA8650是台积电4nm工艺,4LPE晶体管密度是1.36亿个/平方毫米,远超三星的8纳米。肯定会超过5.92上限,不过这很好解决,将AI频率略微降低一点就可以低于1600。
短期内,Orin应该没有问题,或者处在灰色地带;Thor也可以更改设计,降低算力或采用比较落后的制造工艺,后者可能导致成本大涨,甚至无法实现,单一芯片光刻面积一般无法超过880平方毫米。
如果Thor被禁止,如何取得1000TOPS以上算力,很多人会提起多个Orin级联。
不过没那么简单,4个Orin级联就是4倍算力,实际远远做不到。
图片来源:英伟达
这是英伟达的DGX-H100拓扑,连接了8张H100卡。
要想8张H100就算力翻倍,需要复杂的网络拓扑,包括英伟达的独门武器NVLink,还需要PCIe交换机。NVLink是显卡之间点对点连接,连接CPU还需要PCIe交换机。
PCIe与NVLINK的对比
来源:公开资料整理
PCIe与NVLINK实际两者是一样的技术,NVLINK的物理层与PCIe一致,但NVLINK无需考虑各个厂家之间的互联互通,所以不断增加lane数量。所以x18的NVLink 3.0,数据速率25 Gbit/s,双工50Gbit/s,总带宽就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是单通道两对差分线,一对发送一对接收。PCIe 5.0信号速率32GT/s,128/130b,x16单向带宽就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理论上,对于实现全双工的PCIe设备,可以提供126GB/s的双向带宽。单单从信号线路数量来说,x16的PCIe和x2的NVLink是相同的,都是32对差分线。x2的NVLink 3.0双向带宽是100 GB/s,比PCIe 5.0 x16的126 GB/s要低。NVLink牺牲了功耗换来了高带宽。
除非Orin能用上NVLink,否则做不到4个级联就增加4倍算力。不过,Orin自然是不支持NVLink,只能退而求其次用PCIe,Orin有4代PCIe接口,16 lane,也就是最高32GB/s带宽,和NVLink高达900GB/s的带宽比差距巨大。然而,即使是PCIe交换机也有一个麻烦,那就是PCIe交换机价格很高,64lane的PCIe交换机大约350美元。这样4个Orin通过PCIe级联,大概能有2-2.5倍的算力。当然也可以用便宜的以太网交换机,不过带宽通常只有1.25GB/s,用这样的以太网交换机连接4个Orin,实际效果估计算力增加很少,因为AI计算极度消耗带宽。
要解决问题,还是得靠自己,不能把命运放在别人手中。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。