英伟达Orin后继者Thor大约在2021年底开始确定设计范围,2022年9月首次亮相,2023年4季度Thor推出工程样片,预计2024年3季度量产。目前已知Thor有三个版本,一个是Thor-X,估计价格在600-800美元之间,另一个是Thor-X-Super,估计价格在1000-1300美元之间,最后一个是Thor-Jetson,用于机器人和工业领域,没有太多资料透露,只知道算力是800TOPS,以太网接口带宽在100Gb, 估计价格在400-500美元之间。不排除还有其他版本的Thor存在。
基本上Thor-X-Super就是Thor-X的两片合二为一,可能使用了MCM,类似Chiplet的工艺。就像苹果的Duo系列,不过苹果还有更强的Ultra。
据悉Thor配备了NVLink C2C接口,最高可达720Gbps即90GB/s,尽管这个速率还没超过第一代NVLink 160GB/s(目前NVLink已演进至第五代,速率1800GB/s,NVLink是英伟达核心技术,作用远在CUDA之上),但是加入NVLink,意味着可以用8张或更多Thor建设数据中心了,跟用阉割版英伟达A100搭建数据中心没有本质区别了,尽管速率只有第五代NVLink 4.0的1/20,美国商务部也极大概率会禁止此项技术出售给中国。
应该是Thor-X-Super芯片内部用NVLink C2C将两片Thor-X连接起来。这种接口的带宽速率远超汽车行业常用的以太网交换机接口两百倍,是真正的两片性能叠加,那些用以太网交换机的,两片Orin级联,性能提升应该不会超过10%,换句话说两片Orin级联,算力提升不到30TOPS。
Thor还添加了一些座舱领域的需求,特别是显示输出方面,显然,Thor是考虑舱驾一体的。
英伟达的GPU-CPU Superchip可以看做是Thor的放大版。
先来看CPU,CPU采用了ARM的服务器系列Neoverse的V2架构,同样采用此架构的还有英伟达的Grace,不过Grace是高达144核心,存储带宽高达1TB/s,远在Thor之上。
Neoverse专为AI数据中心设计,特别支持BF16这种比较新的数据格式,有些不适合GPU的AI运算则由CPU负责,不依赖外接GPU,单单Grace 也能达到57TOPS@FP8的算力。GH200中的CPU减少一半,即72核心,其余性能也都减半。V2的L1缓存是128KB,L2缓存每个核心是2MB,不过英伟达的Grace考虑成本,降低到了1MB。高通新一代的Oryon CPU 的L1缓存是192KB,L2缓存则是3MB,远比英伟达要高。
V2的解码位宽是6位,A78是4位,提升约50%,而高通新一代Oryon是8位。对于CPU,关键的参数主要有两个,一个是IPC解码宽度,另一个就是缓存,ARM是挤牙膏式的,每年做一次小升级,让利润最大化。苹果则一步到位,性能最大化,以至于苹果连续数年都无法升级性能,安卓手机受困于ARM的挤牙膏,性能始终无法和苹果看齐,这也是高通抛弃ARM的主要原因。即便是AI数据中心领域,ARM也是挤牙膏,V1的解码位宽是5位,V2是6位,V3估计是8位。
ARM架构的性能对比表
整理:佐思汽研
GPU采用了最新的Blackwell架构,不过Blackwell主要优化有两点,一是支持更低精度即FP4或INT4,另一个就是更好地支持MoE即混合专家模式。
作为一种基于 Transformer 架构的模型,混合专家模型主要由两个关键部分组成:
稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络 (FFN),但它们也可以是更复杂的网络结构,甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构。
门控网络或路由: 这个部分用于决定哪些token 被发送到哪个专家。例如,在下图中,“More”这个令牌可能被发送到第二个专家,而“Parameters”这个token被发送到第一个专家。有时,一个token甚至可以被发送到多个专家。token的路由方式是 MoE 使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。
总结
在混合专家模型 (MoE) 中,将传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。
MoE的出现主要是为了应对超大规模LLM训练,例如万亿级参数规模的训练,能够大大提高LLM大模型训练效率,减小计算时间,但对存储要求更高。这与车载领域没有任何关系,车载领域连单独的显存都没有,需要和CPU共用显存,且规模非常有限,一般不超过32GB,且大多是带宽很低的LPDDR5,最高支持模型参数不超过100亿,万亿级参数的大模型训练至少需要数万美元的HBM显存支持,推理也需要近万美元的HBM显存支持,这在车载领域完全无法想象。
存储带宽决定了推理计算速度的上限,假设一个大模型参数为70亿,按照车载的INT8精度,它所占的存储是7GB,如果是英伟达的RTX4090,它的显存带宽是1008GB/s,也就是每7毫秒生成一个token,这个就是RTX4090的理论速度上限。如果是特斯拉第一代FSD芯片的存储带宽是63.5GB/s,也就是每110毫秒生成一个token,帧率不到10Hz,自动驾驶领域一般图像帧率是30Hz,英伟达的Orin存储带宽是204.5GB/s,也就是每34毫秒生成一个token,勉强可以达到30Hz,注意这只是计算的数据搬运所需要的时间,数据计算的时间都完全忽略了,实际速度要低于这个数据。
再有就是英伟达Orin的GPU运算部分和CPU是共享LPDDR5存储带宽的,而AI数据中心或显卡领域,GPU是独享显存的,CPU则是使用另外的DDR存储。
Orin的存储带宽还要分一部分给CPU部分,因为CPU任何时候都需要数据载入和写入,这方面从未有人做过深入研究,很难估计Orin给GPU的带宽是多少,大概有50-70%。按70%计算的话,那么英伟达Orin最高支持大模型规模是50亿参数,考虑到计算时间和CPU的任务安排推送,50亿参数还要打折扣,估计是40亿参数,当然如果降低帧率,只应对低速场合,最高可支持到100亿参数左右。而特斯拉第一代FSD最高支持大模型规模大约15亿参数。
如果限定帧率30Hz,那么Thor-X支持大模型参数上限大约为70亿,这也是入门级端到端模型的整体参数规模,性能恰好够,不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存储,带宽可轻松超过Thor-X-Super,下一代AI5即HW5.0估计支持GDDR7,带宽估计超过1TB/s,是Thor-X的5倍,最高支持350亿参数大模型没有问题。对英伟达来说,GDDR6/7驾轻就熟,早就用在其显卡芯片上了,然而车载领域芯片还是得考虑成本,最终还是妥协,只用了LPDDR5X。
自动驾驶芯片厂家都有自己的市场定位,实际各厂家之间技术能力差距可以忽略,关键是市场定位,英伟达主要就是中国的新兴造车和奔驰,定位最高端市场,主打高性能高价。高通就是定位全球范围内的传统车厂,主打中高端市场,主打高性价比,高通大概率不会推出对标Thor的产品。Mobileye则定位中低端市场,主打就是低价。
对英伟达而言,最大的威胁不是国内芯片企业,而是美国商务部,按照美国商务部之前的标准总处理性能TPP不超过4800的规定,Thor-X是1000*8*2=16000,远超4800,只要美国商务部高兴,它随时可以禁止英伟达销售Thor,对英伟达来说车载业务占其总收入不到2%,英伟达也不会费尽心思再出一个阉割版的Thor。