加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

小鹏的自动驾驶芯片即将上车

03/18 11:30
3672
阅读需 9 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

蔚来、小鹏、理想都有自研自动驾驶芯片,其中蔚来速度最快,小鹏紧随其后并于2023年底已经拿到样片,2025年就能上车,理想也在紧锣密鼓展开。

小鹏大约在2021年一度想让英伟达定制芯片,据说是因为英伟达Orin的继任者Thor价格昂贵,可能近千美元,小鹏认为2000TOPS没有必要,750TOPS就足够。但汽车业务占整个英伟达收入不足5%,且在持续下降,可谓微不足道,英伟达主要精力都在数据中心领域,自然不可能为小鹏定制芯片。

这个说法可能有误,因为如果量很低的话,即便是750TOPS的定制芯片肯定比通用芯片Thor价格还要高很多。碰壁英伟达后,小鹏转向Marvell和索喜,Marvell是存储和宽带通信系统大厂,汽车以太网物理层交换机全球第一,但自动驾驶芯片或者说SoC不是其专长。小鹏主要仰赖对象是索喜。

SOCIONEXT(索喜)成立于2015年,是富士通半导体与松下半导体影像成像及光网络部门合并而成,预计2024财年收入达2170亿日元,营业利润率大约14.5%。索喜收入主要有两类,一类是传统的产品销售收入,另一类就是non-recurring engineering简称NRE,即一次性项目开发收费,也叫一次性工程费用,也就是为小鹏这样的公司提供芯片开发服务的收入,NRE收入大约占索喜总收入的1/6-1/5。索喜的客户应该也包括Waymo和Cruise。

索喜最近11季度收入业务分布与营业利润

图片来源:索喜

索喜最近7季度NRE收入下游分布比例(汽车业务飞速增加) 

图片来源:索喜

索喜最近7季度NRE收入客户地域分布

图片来源:索喜

上图中,中国客户占其收入的1/5左右,美国客户所占比例最高。

索喜7季度NRE收入制造工艺分布

注:制造工艺都非常先进,至少是7纳米,图片来源:索喜

索喜目前在手订单额分布

图片来源:索喜

目前汽车领域在手订单大约3000亿日元,主要是自动驾驶和HPC还有激光雷达毫米波雷达摄像头(应该是ISP传感器芯片。

索喜定制SoC流程

图片来源:索喜

索喜定制汽车自动驾驶SoC框架图

图片来源:索喜

目前,小鹏自动驾驶芯片没有任何公开信息,我们只能做一番推测。首先,制造工艺至少是5纳米或4纳米,3纳米则不大可能,一个是不够成熟,另一个是成本太高。CPU方面应该还是常见的ARM Cortex-A78AE,12核心或16核心,略微超过英伟达Orin。

图片来源:索喜

小鹏定制芯片应该近似于舱驾一体芯片,因为纯智能驾驶和座舱应用的界限非常模糊,所以GPU肯定有。GPU应该还是ARM,最大可能是MALI G77,11核心的G77,FP32算力是1130GFLOPs,也就是1.13TFLOPs,做8位整数AI运算时算力是4.52TFLOPS。ISP方面索喜自己就有足够的IP,相信不逊于蔚来的ISP。

接口方面,有汽车以太网霸主Marvell的参与,那以太网带宽应该达到10Gbps,PCIe至少是四代或5代,最高至少是32GB/s,会全面支持汽车以太网,包括SDV时代的10Base-T1。存储接口方面,最低应该也是LPDDR5X,也有可能是和特斯拉一样先进的GDDR6,索喜的合作伙伴CADENCE能够提供GDDR6的物理层和控制器IP。

HBM不大可能,虽然性能优秀,但价格太高了。存储带宽最低应该也与英伟达Orin的204GB/s看齐。

大家最关注的自然是AI部分,这部分小鹏可以自研,也可以直接购买第三者的IP。AI算力就是个文字游戏,统计口径差别巨大,没有统一的测试标准,基本上完全取决于厂家的宣传,因为无法证伪。

Transformer时代,AI算力数字意义不大,汽车领域的算力通常是整数8位精度下的算力,这种算力也只是针对传统CNN当中计算量最大的卷积运算,这种算力的取得不需要任何技术门槛,简单堆砌MAC(乘积累加)阵列即可获得,第三方IP都不需要。不计成本的话,任何厂家都可以取得数千TOPS的算力,但每个厂家有自己的市场定位,有成本考量, 自然就有了算力的高低。

AI芯片严格地说AI加速器和GPU都是针对并行计算设计的,在CNN时代非常合适,但在后CNN时代,出现了很多串行计算,对AI加速器非常不友好,对CPU和DSP非常友好,例如非极大值抑制(NMS)。Transformer就是如此,它不仅需要串行计算算力,还需要足够的存储带宽支持,单纯的AI算力数值在Transformer面前毫无意义。实际不仅Transformer,很多CNN的变种亦是如此,如目前主流的YOLOV4、YOLOV5、RESNET50。

我们把AI算子分为串行型和并行型,其中串行型通常都是逐点元素型element-wise,矢量与矩阵之间的运算,它有两个特点,一是通常是串行运算,二是有大量的存储数据动作,非常消耗存储带宽。它们对AI算力需求很低,但对存储速度和CPU算力要求很高,最适合此类运算的是DSP,因为DSP是哈佛架构,数据和指令总线分开,效率高。但DSP编译器非常难搞,只能用在汽车这种封闭体系内。针对并行计算的GPU和AI芯片不适合此类逐点运算,遇到此类计算,通常都是退回到CPU中运算,这也是为何英伟达和微软都要费尽心机自研CPU的主要原因。

Transformer的计算过程

在这个计算过程中,矩阵乘法是典型的计算密集型算子,也叫GEMM,即通用矩阵乘法。存储密集型算子分两种:一种是矢量或张量的神经激活,多非线性运算,也叫GEMV,即通用矩阵矢量乘法;另一种是上面说的逐点元素型element-wise。

推测小鹏自动驾驶芯片的AI部分架构如上图,当然FP16的阵列可以去掉,这种设计既有标量运算单元,也有矢量运算单元,保证了足够的灵活性,能够适应算法的大幅度变化。SRAM的容量可能只有1MiB,8MiB的成本太高。INT8阵列16384个MAC,算力大约800TOPS,频率高点可以做到近1000TOPS。

自己开发芯片因为量比较低,成本肯定远高于英伟达的Orin,而独立开发芯片主要是为了整个自动驾驶闭环,完全掌控自动驾驶灵魂,提高科技含量,推高市值,加快产品迭代。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
HEF4051BT,653 1 Nexperia HEF4051B - 8-channel analog multiplexer/demultiplexer@en-us SOP 16-Pin

ECAD模型

下载ECAD模型
$0.51 查看
ADG1419BRMZ 1 Rochester Electronics LLC 1-CHANNEL, SGL POLE DOUBLE THROW SWITCH, PDSO8, ROHS COMPLIANT, MO-187AA, MSOP-8
$4.65 查看
AD8361ARMZ-REEL7 1 Analog Devices Inc LF to 2.5 GHz TruPwr™ Detector

ECAD模型

下载ECAD模型
$9.9 查看
小鹏汽车

小鹏汽车

小鹏汽车成立于2014年,是一家专注未来出行的科技公司。我们一直坚持饱和式研发投入,构建全栈自研的核心能力,今天小鹏汽车已经成为中国领先的智能电动汽车公司之一。小鹏汽车的使命是,用科技为人类创造更便捷愉悦的出行生活。

小鹏汽车成立于2014年,是一家专注未来出行的科技公司。我们一直坚持饱和式研发投入,构建全栈自研的核心能力,今天小鹏汽车已经成为中国领先的智能电动汽车公司之一。小鹏汽车的使命是,用科技为人类创造更便捷愉悦的出行生活。收起

查看更多

相关推荐

电子产业图谱