2024年8月8日下午,英特尔在深圳召开“英特尔AI座舱暨车载独立显卡发布会”,重磅发布了旗下首款锐炫™车载独立显卡——Arc A760-A。英特尔之所以选择在深圳发布车载独立显卡,再次彰显中国汽车电子的先进程度,也只有在中国,车载独立显卡才可能有市场,即便特斯拉也只是出货量低到可以忽略的Model S Plaid使用过AMD的独立显卡,而且主力车型还是AMD的嵌入式平台,没有独立显卡。中国汽车市场尤其注重座舱体验,并以此为卖点和差异化,车企都不惜成本来打造先进的座舱。
要流畅运行AI大模型主要依赖三个条件:① 存储带宽,② 存储容量,③算力。这里的“流畅”,对大模型推理来说,首个token产生要低于1秒,后续token产生要低于2秒。
目前AI大模型都是针对因果建模目标进行预训练的,本质上是作为下一个词预测器。这些 LLM 将一系列tokens作为输入,并自回归生成后续tokens,直到满足停止条件(例如,生成tokens数量的限制或遇到停止词)或直到生成特殊的标记生成结束的tokens。该过程涉及两个阶段:预填充阶段和解码阶段。
在预填充阶段,LLM处理输入token以计算中间状态(keys和value),用于生成“第一个”token。每个新的token都依赖于所有先前的token,但由于输入的全部已知,因此在运算上,都是高度并行化矩阵运算,可以有效地使用GPU。也就是说首个token的延迟取决于算力。
在解码阶段,LLM一次自回归生成一个输出token,直到满足停止条件。每个输出tokens都需要直到之前迭代的所有输出状态(keys和values)。这与预填充输入处理相比,就像矩阵向量运算未充分利用GPU计算能力。数据(weights, keys, values, activations) 从内存传输到GPU的速度决定了延迟,而不是计算实际时间消耗。即,这是一个内存限制操作。解码阶段,或者说后续token生成阶段推理延迟时间是由大模型参数与存储带宽的之比决定。
首先来看存储容量,在GPU做推理时,一般把存储直接写成显存,但车载领域除非是独立显卡或者苹果那样的统一内存UMA(Unified Memory Architecture),都是AI加速器(GPU)和CPU共享内存,实际用于AI大模型的存储容量会远低于共享内存的容量。高端车机的DRAM内存容量在8-22GB之间,绝大多数基于高通SA8155的DRAM内存容量是8GB,基于高通SA8295的DRAM内存容量一般是12GB或16GB。
目前LLM大模型参数量一般有四档,最低一档是针对嵌入式,参数在60-80亿之间,第二档是130-450亿,第三档是700-800亿,第四档是1500亿以上。座舱的AI大模型有可能同时运行两个大模型,最高参数上限大约是140亿参数,车载领域最低的INT8精度,140亿参数就是14GB的容量。车机那种共享存储的方式,车机操作系统、中间层、虚拟机等等所占存储巨大,为保证车机流畅,分给AI大模型的容量不会超过50%。也就是说要支持140亿参数,那么车机的DRAM至少要28GB,这是大模型的最低下限。对于真正的大模型,参数一般是700亿,需要140GB的DRAM,这在车载领域完全不可想象,体积巨大,成本高昂。对于有独立显存的独立显卡只需要14GB就足够,英特尔的独立显卡的显存容量正是16GB。
如果DRAM容量低于大模型存储容量,那么与电脑一样,会转入硬盘,对车机来说就是UFS,UFS目前高端的3.1版本,连续读取速度很低,只有2.1GB/s,而英伟达Orin的带宽是204.8,相差近百倍,延迟估计超过1分钟,完全无法接受。
对大模型来说,存储容量是最重要的,算力远不及存储容量,这也是为何算力不到300TOPS的Mac Studio with an M2 Ultra顶配可以运行高达3140亿参数的超级大模型,Mac Studio with an M2 Ultra顶配统一内存容量高达192GB,价格近9000美元。
存储带宽决定了推理计算速度的上限,假设一个大模型参数为70亿,按照车载的INT8精度,它所占的存储是7GB,如果是英伟达的RTX4090,它的显存带宽是1008GB/s,也就是每7毫秒生成一个token,这个就是RTX4090的理论速度上限。特斯拉第一代FSD芯片的存储带宽是63.5GB/s,也就是每110毫秒生成一个token,帧率不到10Hz,自动驾驶领域一般图像帧率是30Hz,英伟达的Orin存储带宽是204.5GB/s,即每34毫秒生成一个token,勉强可以达到30Hz,注意这只是计算的数据搬运所需要的时间,数据计算的时间都完全忽略了,实际速度要远低于这个数据。并且一个token也不够用,至少需要两个token,端到端的最终输出结果用语言描述就是一段轨迹,比如直行,直行需要有个限制条件,至少有个速度的限制条件,多的可能需要5个以上token,简单计算即可得出存储带宽需要1TB/s以上。
座舱领域不需要那么高的帧率,但座舱领域的模型更大,存储带宽最好在500GB/s以上。
汽车SoC芯片存储带宽一览
来源:佐思汽研整理
YE180FC3T4MFG就是目前特斯拉车机用的主芯片。Snapdragon X-lite是高通第四代芯片,还没有与之对应的车载版本。而最常见的SA8155P其存储带宽是很低的。
最后是AI算力,这个只关系首个token的生成,重要程度很低,当然算力越高越好。
英特尔这次推出的独立显卡ARC A760-A基本上就是其2022年产品ARC A750的车载版。
来源:佐思汽研整理
不过在面向汽车时,Arc A760-A自然有一些特有技能。符合车规要求,包括宽温、严苛环境的高等级可靠性、稳定性特性是基本属性。再有就是对OS和虚拟机的支持,ACRN是英特尔主导的开源虚拟机平台,奇瑞和红旗都曾经用过,Yocto可以看做是嵌入式的Linux。
A750与A760-A最大的区别是存储容量不同,A760-A增加到了16GB,其余硬件特性基本相同。我们可以大致推测出A760-A的一些硬件特性,采用台积电的6纳米N6工艺制造,217亿晶体管,die size为406平方毫米。
矢量引擎改进了ALU单元,提供专用的FP浮点执行接口,共享的INT/EM整数执行接口,每个时钟周期可以执行16个FP32操作、32个FP16操作、64个INT8操作。
由于AI算法核心几乎完全围绕矩阵乘法、累加算法,所以Xe核心里加入了单独的矩阵引擎,专门用于执行XMX指令。它具备独立的执行端口,每个时钟周期可以执行128个FP16/BF16操作、256个INT8操作,512个INT4/INT2操作。MAC作为图形渲染中的基本SIMD矢量指令,也是Xe矢量引擎的核心,可以执行8次并行乘法,然后执行8次并行加法,每个时钟周期就是16个操作。
DP4a指令是针对不需要32位精度的AI计算所做的优化,工作原理是将所有32位输入分成8位块,然后独立执行,总共32次并行乘法(紫色方块),每个时钟周期就是64个操作,相比标准SIMD MAC提高了4倍。XMX指令也是每个操作分成4个块,然后独立相乘、累加,共有64个操作,每个时钟周期4个阶段就是256个操作,由此带来16倍的算力提升。
根据存储16GB的信息来看,英特尔肯定不会单独出售芯片,出售的方式应该是板卡或者干脆就是A750那样的整机。由于独立显卡的供电也是汽车领域常用的12伏,所以A760-A的供电完全可以照搬A750的供电设计。
A750显卡的正面PCB
上图是A750显卡的正面PCB,GPU供电是六相设计,电源管理是MPS的MPS2134,DrMOS是MPS的MP86956,可以对应高达70A的电流,存储的电源管理也是MPS的MPS2134。DrMOS是MPS的MP86950,对应50A的电流,DP转HDMI是Realtek的RTD2173。MP86956值得一提,它输入电压介于3-16伏之间,输出电流稳定在70A,最高瞬间125A,最高运行温度高达125度,junction温度高达150度。
根据英特尔介绍,A760-A支持6路摄像头输入,显卡一般只有PCIe接口,摄像头一般是MIPI CSI-2格式,英特尔应该是加了转换卡,将MIPI CSI-2转换为PCIe或以太网格式。如果是以太网,那就是采用Marvell的88QB5224,将MIPI CSI-2信号转换为符合802.3ch标准的车载以太网信号,可以使用非屏蔽的单对双绞线,最高传输速率10Gbps,最高可以支持800万像素的摄像头,也可以支持多个摄像头,只需要增加以太网交换机即可。
88QB5224的框架如上图,后端可以输出也可以直接给PC系统的万兆网卡接口,万兆网卡再通过PCIe输入到CPU。
基于FPGA的MIPI CSI-2转PCIe框架图
第二种是PCIe,采用LATTICE的FPGA,将MIPI CSI-2输出信号即原始的RAW信号首先放进一个ISP中,将RAW信号转换成RGB信号再转换YUV422信号,然后通过直接存储接入即DMA引擎,根据输出端的视频帧率调整缓冲帧。FPGA内的Transaction Layer Packet即TLP对YUV422信号进行解码,再生成PCIe格式数据,最高传输速率为3.1Gbps。
PCIe的成本要高很多,还需要更贵的PCIe交换机,推测还是以太网的可能性大,不过这令人十分困惑,显卡不需要单独外接摄像头信号,直接接收摄像头信号的是CPU,显卡再通过PCIe与CPU连接。
英特尔A750独立显卡性能大概是英伟达的RTX3060。A750价格约为1800-2000元人民币左右,RTX3060价格基本上是翻倍的3600-4000元人民币,A760-A加了一倍内存,还可能加了MIPI CSI-2转接卡,价格估计要高1000-1500元人民币。不过最难的应该是功耗,TDP功耗高达225瓦,这是一个不容忽视的耗电源。散热和可靠性也要考虑,最好是水冷散热,否则要在机舱内给显卡留出足够的空间空气对流。
最麻烦的还是独立显卡是外设,它不能独立工作,它需要CPU配合,配合最好的自然是英特尔自家的CPU,英特尔独立显卡的DeepLink技术正是基于此开发,别的CPU用起来效率应该是不如英特尔自己的CPU。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。