英特尔推出车载独立显卡ARC A760-A，会不会重蹈覆辙？

2024年8月8日下午，英特尔在深圳召开“英特尔AI座舱暨车载独立显卡发布会”，重磅发布了旗下首款锐炫™车载独立显卡——Arc A760-A。英特尔之所以选择在深圳发布车载独立显卡，再次彰显中国汽车电子的先进程度，也只有在中国，车载独立显卡才可能有市场，即便特斯拉也只是出货量低到可以忽略的Model S Plaid使用过AMD的独立显卡，而且主力车型还是AMD的嵌入式平台，没有独立显卡。中国汽车市场尤其注重座舱体验，并以此为卖点和差异化，车企都不惜成本来打造先进的座舱。

要流畅运行AI大模型主要依赖三个条件：① 存储带宽，② 存储容量，③算力。这里的“流畅”，对大模型推理来说，首个token产生要低于1秒，后续token产生要低于2秒。

目前AI大模型都是针对因果建模目标进行预训练的，本质上是作为下一个词预测器。这些 LLM 将一系列tokens作为输入，并自回归生成后续tokens，直到满足停止条件（例如，生成tokens数量的限制或遇到停止词）或直到生成特殊的标记生成结束的tokens。该过程涉及两个阶段：预填充阶段和解码阶段。

在预填充阶段，LLM处理输入token以计算中间状态（keys和value），用于生成“第一个”token。每个新的token都依赖于所有先前的token，但由于输入的全部已知，因此在运算上，都是高度并行化矩阵运算，可以有效地使用GPU。也就是说首个token的延迟取决于算力。

在解码阶段，LLM一次自回归生成一个输出token，直到满足停止条件。每个输出tokens都需要直到之前迭代的所有输出状态（keys和values）。这与预填充输入处理相比，就像矩阵向量运算未充分利用GPU计算能力。数据（weights, keys, values, activations）从内存传输到GPU的速度决定了延迟，而不是计算实际时间消耗。即，这是一个内存限制操作。解码阶段，或者说后续token生成阶段推理延迟时间是由大模型参数与存储带宽的之比决定。

首先来看存储容量，在GPU做推理时，一般把存储直接写成显存，但车载领域除非是独立显卡或者苹果那样的统一内存UMA（Unified Memory Architecture），都是AI加速器（GPU）和CPU共享内存，实际用于AI大模型的存储容量会远低于共享内存的容量。高端车机的DRAM内存容量在8-22GB之间，绝大多数基于高通SA8155的DRAM内存容量是8GB，基于高通SA8295的DRAM内存容量一般是12GB或16GB。

目前LLM大模型参数量一般有四档，最低一档是针对嵌入式，参数在60-80亿之间，第二档是130-450亿，第三档是700-800亿，第四档是1500亿以上。座舱的AI大模型有可能同时运行两个大模型，最高参数上限大约是140亿参数，车载领域最低的INT8精度，140亿参数就是14GB的容量。车机那种共享存储的方式，车机操作系统、中间层、虚拟机等等所占存储巨大，为保证车机流畅，分给AI大模型的容量不会超过50%。也就是说要支持140亿参数，那么车机的DRAM至少要28GB，这是大模型的最低下限。对于真正的大模型，参数一般是700亿，需要140GB的DRAM，这在车载领域完全不可想象，体积巨大，成本高昂。对于有独立显存的独立显卡只需要14GB就足够，英特尔的独立显卡的显存容量正是16GB。

如果DRAM容量低于大模型存储容量，那么与电脑一样，会转入硬盘，对车机来说就是UFS，UFS目前高端的3.1版本，连续读取速度很低，只有2.1GB/s，而英伟达Orin的带宽是204.8，相差近百倍，延迟估计超过1分钟，完全无法接受。

对大模型来说，存储容量是最重要的，算力远不及存储容量，这也是为何算力不到300TOPS的Mac Studio with an M2 Ultra顶配可以运行高达3140亿参数的超级大模型，Mac Studio with an M2 Ultra顶配统一内存容量高达192GB，价格近9000美元。

存储带宽决定了推理计算速度的上限，假设一个大模型参数为70亿，按照车载的INT8精度，它所占的存储是7GB，如果是英伟达的RTX4090，它的显存带宽是1008GB/s，也就是每7毫秒生成一个token，这个就是RTX4090的理论速度上限。特斯拉第一代FSD芯片的存储带宽是63.5GB/s，也就是每110毫秒生成一个token，帧率不到10Hz，自动驾驶领域一般图像帧率是30Hz，英伟达的Orin存储带宽是204.5GB/s，即每34毫秒生成一个token，勉强可以达到30Hz，注意这只是计算的数据搬运所需要的时间，数据计算的时间都完全忽略了，实际速度要远低于这个数据。并且一个token也不够用，至少需要两个token，端到端的最终输出结果用语言描述就是一段轨迹，比如直行，直行需要有个限制条件，至少有个速度的限制条件，多的可能需要5个以上token，简单计算即可得出存储带宽需要1TB/s以上。

座舱领域不需要那么高的帧率，但座舱领域的模型更大，存储带宽最好在500GB/s以上。

汽车SoC芯片存储带宽一览

来源：佐思汽研整理

YE180FC3T4MFG就是目前特斯拉车机用的主芯片。Snapdragon X-lite是高通第四代芯片，还没有与之对应的车载版本。而最常见的SA8155P其存储带宽是很低的。

最后是AI算力，这个只关系首个token的生成，重要程度很低，当然算力越高越好。

英特尔这次推出的独立显卡ARC A760-A基本上就是其2022年产品ARC A750的车载版。

来源：佐思汽研整理

不过在面向汽车时，Arc A760-A自然有一些特有技能。符合车规要求，包括宽温、严苛环境的高等级可靠性、稳定性特性是基本属性。再有就是对OS和虚拟机的支持，ACRN是英特尔主导的开源虚拟机平台，奇瑞和红旗都曾经用过，Yocto可以看做是嵌入式的Linux。

A750与A760-A最大的区别是存储容量不同，A760-A增加到了16GB，其余硬件特性基本相同。我们可以大致推测出A760-A的一些硬件特性，采用台积电的6纳米N6工艺制造，217亿晶体管，die size为406平方毫米。

矢量引擎改进了ALU单元，提供专用的FP浮点执行接口，共享的INT/EM整数执行接口，每个时钟周期可以执行16个FP32操作、32个FP16操作、64个INT8操作。

由于AI算法核心几乎完全围绕矩阵乘法、累加算法，所以Xe核心里加入了单独的矩阵引擎，专门用于执行XMX指令。它具备独立的执行端口，每个时钟周期可以执行128个FP16/BF16操作、256个INT8操作，512个INT4/INT2操作。MAC作为图形渲染中的基本SIMD矢量指令，也是Xe矢量引擎的核心，可以执行8次并行乘法，然后执行8次并行加法，每个时钟周期就是16个操作。

DP4a指令是针对不需要32位精度的AI计算所做的优化，工作原理是将所有32位输入分成8位块，然后独立执行，总共32次并行乘法(紫色方块)，每个时钟周期就是64个操作，相比标准SIMD MAC提高了4倍。XMX指令也是每个操作分成4个块，然后独立相乘、累加，共有64个操作，每个时钟周期4个阶段就是256个操作，由此带来16倍的算力提升。

根据存储16GB的信息来看，英特尔肯定不会单独出售芯片，出售的方式应该是板卡或者干脆就是A750那样的整机。由于独立显卡的供电也是汽车领域常用的12伏，所以A760-A的供电完全可以照搬A750的供电设计。

A750显卡的正面PCB

上图是A750显卡的正面PCB，GPU供电是六相设计，电源管理是MPS的MPS2134，DrMOS是MPS的MP86956，可以对应高达70A的电流，存储的电源管理也是MPS的MPS2134。DrMOS是MPS的MP86950，对应50A的电流，DP转HDMI是Realtek的RTD2173。MP86956值得一提，它输入电压介于3-16伏之间，输出电流稳定在70A，最高瞬间125A，最高运行温度高达125度，junction温度高达150度。

根据英特尔介绍，A760-A支持6路摄像头输入，显卡一般只有PCIe接口，摄像头一般是MIPI CSI-2格式，英特尔应该是加了转换卡，将MIPI CSI-2转换为PCIe或以太网格式。如果是以太网，那就是采用Marvell的88QB5224，将MIPI CSI-2信号转换为符合802.3ch标准的车载以太网信号，可以使用非屏蔽的单对双绞线，最高传输速率10Gbps，最高可以支持800万像素的摄像头，也可以支持多个摄像头，只需要增加以太网交换机即可。

88QB5224的框架如上图，后端可以输出也可以直接给PC系统的万兆网卡接口，万兆网卡再通过PCIe输入到CPU。

基于FPGA的MIPI CSI-2转PCIe框架图

第二种是PCIe，采用LATTICE的FPGA，将MIPI CSI-2输出信号即原始的RAW信号首先放进一个ISP中，将RAW信号转换成RGB信号再转换YUV422信号，然后通过直接存储接入即DMA引擎，根据输出端的视频帧率调整缓冲帧。FPGA内的Transaction Layer Packet即TLP对YUV422信号进行解码，再生成PCIe格式数据，最高传输速率为3.1Gbps。

PCIe的成本要高很多，还需要更贵的PCIe交换机，推测还是以太网的可能性大，不过这令人十分困惑，显卡不需要单独外接摄像头信号，直接接收摄像头信号的是CPU，显卡再通过PCIe与CPU连接。

英特尔A750独立显卡性能大概是英伟达的RTX3060。A750价格约为1800-2000元人民币左右，RTX3060价格基本上是翻倍的3600-4000元人民币，A760-A加了一倍内存，还可能加了MIPI CSI-2转接卡，价格估计要高1000-1500元人民币。不过最难的应该是功耗，TDP功耗高达225瓦，这是一个不容忽视的耗电源。散热和可靠性也要考虑，最好是水冷散热，否则要在机舱内给显卡留出足够的空间空气对流。

最麻烦的还是独立显卡是外设，它不能独立工作，它需要CPU配合，配合最好的自然是英特尔自家的CPU，英特尔独立显卡的DeepLink技术正是基于此开发，别的CPU用起来效率应该是不如英特尔自己的CPU。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
A3966SLBTR-T	1	Allegro MicroSystems LLC	Stepper Motor Controller, 0.75A, BIPolar, PDSO16, LEAD FREE, PLASTIC, MS-013AA, SOIC-16	ECAD模型下载ECAD模型	$3.39	查看
NC7SB3157P6X	1	Fairchild Semiconductor Corporation	SPDT, 1 Func, 1 Channel, CMOS, PDSO6, 1.25 MM, EIAJ SC-88, SC-70, 6 PIN		$0.32	查看
LTC6995IS6-2#TRPBF	1	Analog Devices Inc	LTC6995IS6-2#TRPBF		暂无数据	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

A3966SLBTR-T

Allegro MicroSystems LLC

Stepper Motor Controller, 0.75A, BIPolar, PDSO16, LEAD FREE, PLASTIC, MS-013AA, SOIC-16