深度分析英伟达Thor，2000 TOPS是真的吗？

英伟达Thor不仅是自动驾驶SoC，在英伟达的设想中，Thor将座舱、自动泊车和自动驾驶都收入囊中，也就是真正意义上的中央计算中心或者中央服务器，也是Zonal架构的核心。这是英伟达最具野心的芯片，不仅是自动驾驶，高通的大本营——座舱也要拿下。吉利旗下的极氪已经确定采用。

英伟达Thor中央计算平台

图片来源：NVIDIA

Thor的公开资料很少，据英伟达的介绍，Thor就是英伟达Grace CPU和HopperGPU的结合，英伟达称之为Grace Hopper架构，这两者的公开资料还是不少的，本文依据的资料主要来自英伟达GraceHopper 架构白皮书。

Grace Hopper超级芯片的内部框架图

Hopper实际就是英伟达的H100 GPU。图片来源：NVIDIA

来一张H100的高清大图，H100分两种，一种是SXM，另一种是PCIe。H100SXM5的INT8算力峰值可达4000TOPS，PCIe是3200TOPS。最近还有一种FH H100，性能略高于SXM。注意H100主芯片旁边的6个紧贴着的芯片，那就是昂贵的HBM3，由韩国SK Hynix提供，目前全球只有SK Hynix能够量产HBM3，也只有英伟达一个用户。这种芯片不太严格地说也能算Chiplet晶粒，那6个芯片实际应该叫die，由于价格非常昂贵，即使英伟达也要节约着用，每个die是16GB，不过有一个是空的，H100的HBM3是80GB，之所以加一个空的，主要是考虑到热效应，少一个die，热量分布不均匀。这也是台积电CoWoS不如英特尔EMIB的地方，英特尔可以不加空die。

图片来源：NVIDIA

上表为H100算力参数升级后的数据，离英伟达第一次宣传的算力几乎没有差别，峰值INT8达到近4000TOPS，这是自动驾驶最常用的格式。特斯拉自己研制的数据中心芯片Dojo D1被英伟达H100秒杀，Dojo D1的FP32算力仅为22 TFLOPS，不及英伟达H100的1/3。BF16精度算力为362TFLOPS，而H100是1979TFLOPS。二者差距明显。这些算力都是稀疏模型下取得的，稠密模型下减半。

英伟达H100的SM（流多处理器）内部图

图片来源：NVIDIA

H100SXM5每个GPU包含132个SM，H100PCIe每个GPU包含114个SM。每个SM包含128个FP32 CUDA核心，128个FP64
CUDA核心，来应对FP32/FP64格式。H100SXM5第四代Tensor核心数量是528个，H100PCIe是456个。FP32核心会占用很大面积的die，Thor不做数据中心训练用就可以不要FP32核，或者只需要很少，2-4个就够。Tensor核心只需要H100的一半，也就是264个，Thor似乎就能做到2000TOPS了。

实际H100关键的地方不在GPU核心，而是存储，这才是H100高算力的关键。H100的成本估计在1万美元左右，售价约3万美元，而存储占的成本估计有一半，甚至会超过一半。

来源：公开信息整理

对于深度学习或者说人工智能运算，瓶颈就在存储器，最简单的解决办法就是用HBM3内存，HBM就是高宽带。

图片来源：SK Hynix

高性能AI芯片必用HBM，HBM有三个缺点，一是价格昂贵，每GB成本大约20-40美元，至少8GB起售；二是必须使用2.5D封装，成本进一步增加；三是功耗增加不少。H100 PCIe的功耗仅H100 SXM5的一半。除了数据中心用得起HBM，消费类电子和汽车是不可能的。仅此一项就占了H100 SXM5大约2500美元的成本。

HBM的成本还不是最高的，最高的成本是SRAM，也就是L2缓存，H100用的是台积电N4也就是4纳米工艺，不过这种工艺如果做SRAM并不会提高密度，N4工艺下每MB的SRAM成本大约40-50美元，也有人估计是近100美元。FH H100用的是60MB的SRAM，成本更高。这50MB的SRAM会占用大约2000美元的成本。

Thor的价格不会高于500美元，超过500美元，车厂就无力承受了，也就不可能用HBM，也不可能用高容量的SRAM，Thor顶多会用LPDDR5，SRAM容量估计2-3MB。能不能达到2000TOPS的算力，相信大家都已经很清楚了。

看完GPU再来看CPU。

图片来源：NVIDIA

英伟达的Grace超级芯片实际是两片芯片合起来的，每颗芯片有72个核心。这个核心就是Arm 的Neoverse
V2。

ARM 服务器CPU架构路线图

图片来源：ARM

V系列是高性能系列。

图片来源：ARM

与Orin的A78不同，Thor的Neoverse V2就是针对服务器设计的，一般来说最少都有24核心。Grace超级芯片每个核心有64 KB I-cache 和64 KB D-cache，L2级缓存也就是SRAM可以选1或2MB，英伟达节约成本，选择的是1MB，毕竟SRAM太贵了。L3缓存是234MB，每核心是1.625MB。英伟达为Grace超级芯片配备的板载DRAM是LPDDR5，容量高达960GB，每颗芯片有480GB。

Grace超级芯片的功耗为500瓦，Thor在CPU部分功耗估计不超过20瓦，估计是24核心，甚至是16核心，对应的LPDDR5估计不超过64GB，否则就成本太高了。

英伟达希望靠算力军备竞赛把对手拖下泥潭，一味追求算力或者说数字，都可能被英伟达吊打，功耗和价格是英伟达的缺点，高通未来有能力抗衡英伟达。