英伟达下一代自动驾驶芯片Thor深度分析

英伟达Orin后继者Thor大约在2021年底开始确定设计范围，2022年9月首次亮相，2023年4季度Thor推出工程样片，预计2024年3季度量产。目前已知Thor有三个版本，一个是Thor-X，估计价格在600-800美元之间，另一个是Thor-X-Super，估计价格在1000-1300美元之间，最后一个是Thor-Jetson，用于机器人和工业领域，没有太多资料透露，只知道算力是800TOPS，以太网接口带宽在100Gb，估计价格在400-500美元之间。不排除还有其他版本的Thor存在。

基本上Thor-X-Super就是Thor-X的两片合二为一，可能使用了MCM，类似Chiplet的工艺。就像苹果的Duo系列，不过苹果还有更强的Ultra。

据悉Thor配备了NVLink C2C接口，最高可达720Gbps即90GB/s，尽管这个速率还没超过第一代NVLink 160GB/s（目前NVLink已演进至第五代，速率1800GB/s，NVLink是英伟达核心技术，作用远在CUDA之上），但是加入NVLink，意味着可以用8张或更多Thor建设数据中心了，跟用阉割版英伟达A100搭建数据中心没有本质区别了，尽管速率只有第五代NVLink 4.0的1/20，美国商务部也极大概率会禁止此项技术出售给中国。

应该是Thor-X-Super芯片内部用NVLink C2C将两片Thor-X连接起来。这种接口的带宽速率远超汽车行业常用的以太网交换机接口两百倍，是真正的两片性能叠加，那些用以太网交换机的，两片Orin级联，性能提升应该不会超过10%，换句话说两片Orin级联，算力提升不到30TOPS。

Thor还添加了一些座舱领域的需求，特别是显示输出方面，显然，Thor是考虑舱驾一体的。

英伟达的GPU-CPU Superchip可以看做是Thor的放大版。

先来看CPU，CPU采用了ARM的服务器系列Neoverse的V2架构，同样采用此架构的还有英伟达的Grace，不过Grace是高达144核心，存储带宽高达1TB/s，远在Thor之上。

Neoverse专为AI数据中心设计，特别支持BF16这种比较新的数据格式，有些不适合GPU的AI运算则由CPU负责，不依赖外接GPU，单单Grace 也能达到57TOPS@FP8的算力。GH200中的CPU减少一半，即72核心，其余性能也都减半。V2的L1缓存是128KB，L2缓存每个核心是2MB，不过英伟达的Grace考虑成本，降低到了1MB。高通新一代的Oryon CPU 的L1缓存是192KB，L2缓存则是3MB，远比英伟达要高。

V2的解码位宽是6位，A78是4位，提升约50%，而高通新一代Oryon是8位。对于CPU，关键的参数主要有两个，一个是IPC解码宽度，另一个就是缓存，ARM是挤牙膏式的，每年做一次小升级，让利润最大化。苹果则一步到位，性能最大化，以至于苹果连续数年都无法升级性能，安卓手机受困于ARM的挤牙膏，性能始终无法和苹果看齐，这也是高通抛弃ARM的主要原因。即便是AI数据中心领域，ARM也是挤牙膏，V1的解码位宽是5位，V2是6位，V3估计是8位。

ARM架构的性能对比表

整理：佐思汽研

GPU采用了最新的Blackwell架构，不过Blackwell主要优化有两点，一是支持更低精度即FP4或INT4，另一个就是更好地支持MoE即混合专家模式。

作为一种基于 Transformer 架构的模型，混合专家模型主要由两个关键部分组成:

稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络 (FFN)，但它们也可以是更复杂的网络结构，甚至可以是 MoE 层本身，从而形成层级式的 MoE 结构。

门控网络或路由: 这个部分用于决定哪些token 被发送到哪个专家。例如，在下图中，“More”这个令牌可能被发送到第二个专家，而“Parameters”这个token被发送到第一个专家。有时，一个token甚至可以被发送到多个专家。token的路由方式是 MoE 使用中的一个关键点，因为路由器由学习的参数组成，并且与网络的其他部分一同进行预训练。

总结

在混合专家模型 (MoE) 中，将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。

MoE的出现主要是为了应对超大规模LLM训练，例如万亿级参数规模的训练，能够大大提高LLM大模型训练效率，减小计算时间，但对存储要求更高。这与车载领域没有任何关系，车载领域连单独的显存都没有，需要和CPU共用显存，且规模非常有限，一般不超过32GB，且大多是带宽很低的LPDDR5，最高支持模型参数不超过100亿，万亿级参数的大模型训练至少需要数万美元的HBM显存支持，推理也需要近万美元的HBM显存支持，这在车载领域完全无法想象。

存储带宽决定了推理计算速度的上限，假设一个大模型参数为70亿，按照车载的INT8精度，它所占的存储是7GB，如果是英伟达的RTX4090，它的显存带宽是1008GB/s，也就是每7毫秒生成一个token，这个就是RTX4090的理论速度上限。如果是特斯拉第一代FSD芯片的存储带宽是63.5GB/s，也就是每110毫秒生成一个token，帧率不到10Hz，自动驾驶领域一般图像帧率是30Hz，英伟达的Orin存储带宽是204.5GB/s，也就是每34毫秒生成一个token，勉强可以达到30Hz，注意这只是计算的数据搬运所需要的时间，数据计算的时间都完全忽略了，实际速度要低于这个数据。

再有就是英伟达Orin的GPU运算部分和CPU是共享LPDDR5存储带宽的，而AI数据中心或显卡领域，GPU是独享显存的，CPU则是使用另外的DDR存储。

Orin的存储带宽还要分一部分给CPU部分，因为CPU任何时候都需要数据载入和写入，这方面从未有人做过深入研究，很难估计Orin给GPU的带宽是多少，大概有50-70%。按70%计算的话，那么英伟达Orin最高支持大模型规模是50亿参数，考虑到计算时间和CPU的任务安排推送，50亿参数还要打折扣，估计是40亿参数，当然如果降低帧率，只应对低速场合，最高可支持到100亿参数左右。而特斯拉第一代FSD最高支持大模型规模大约15亿参数。

如果限定帧率30Hz，那么Thor-X支持大模型参数上限大约为70亿，这也是入门级端到端模型的整体参数规模，性能恰好够，不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存储，带宽可轻松超过Thor-X-Super，下一代AI5即HW5.0估计支持GDDR7，带宽估计超过1TB/s，是Thor-X的5倍，最高支持350亿参数大模型没有问题。对英伟达来说，GDDR6/7驾轻就熟，早就用在其显卡芯片上了，然而车载领域芯片还是得考虑成本，最终还是妥协，只用了LPDDR5X。

自动驾驶芯片厂家都有自己的市场定位，实际各厂家之间技术能力差距可以忽略，关键是市场定位，英伟达主要就是中国的新兴造车和奔驰，定位最高端市场，主打高性能高价。高通就是定位全球范围内的传统车厂，主打中高端市场，主打高性价比，高通大概率不会推出对标Thor的产品。Mobileye则定位中低端市场，主打就是低价。

对英伟达而言，最大的威胁不是国内芯片企业，而是美国商务部，按照美国商务部之前的标准总处理性能TPP不超过4800的规定，Thor-X是1000*8*2=16000，远超4800，只要美国商务部高兴，它随时可以禁止英伟达销售Thor，对英伟达来说车载业务占其总收入不到2%，英伟达也不会费尽心思再出一个阉割版的Thor。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MC9S12XEP100MAG	1	Freescale Semiconductor	16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144	ECAD模型下载ECAD模型	$29.4	查看
ATXMEGA192D3-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$5.62	查看
AT89C51CC03CA-RLTUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44VQFP		$10.78	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MC9S12XEP100MAG

Freescale Semiconductor

16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144