高通新一代Ride大杀四方，将与英伟达平分秋色

高通第一代Ride SoC是SA8540P，这颗芯片与座舱领域的SA8295P以及笔记本电脑领域的SC8280XP非常近似，其中SC8280XP又叫8CX gen3，是三颗芯片中最早推出的，大概是2021年初就有了。第一代Ride有点急急赶工的感觉，复用了座舱和笔记本电脑芯片的设计，高通的第二代Ride以SA8650为代表，这是完全针对自动驾驶的设计，在高通其他产品线找不到与其类似的产品，足以证明高通对自动驾驶的重视。

国内企业大多在2022年初拿到SA8650的开发板，目前进展最快的是高通、中科创达和立讯精密合资的畅行智驾，预计2024年即可量产上车，高通产品软件兼容，基于SA8540的软件开发成果基本可以无缝转移到SA8650上。高通的中央计算平台芯片Ride Flex第一个产品是SA8775，国内多称其为舱驾一体，已有不少企业在开发中，预计2024年底量产上车，比英伟达的Thor进展快半年到一年。

2023年CES展上，基于SA8650的设计第一次公开问世，上图左边为德国大陆汽车的单SA8650设计，右边是博世的双SA8650设计。

法雷奥近年来在ADAS领域进展神速，2022年ADAS领域收入达25亿欧元，拿下宝马和通用汽车的订单，宝马下一代ADAS平台IPNEXT全面导入SA8650，预计2025年量产。Veoneer则是奔驰主要供应商，Veoneer的软件部门卖给了高通。

法雷奥为宝马开发的自动驾驶控制器，应该是行泊一体的设计，法雷奥是全球最大的泊车控制器厂家，市场占有率近1/4，做自动泊车是法雷奥的强项。
第一代Ride响应者不多，第二代Ride得到了不少欧美车企的认同，包括宝马、奔驰、奥迪、保时捷、Stellantis，也得到了不少主流Tier1的认可，包括法雷奥、德国大陆汽车、博世和Veoneer。国内Tier1中，德赛西威、均胜电子、映驰科技、豪末智行、百度都已经基于SA8650开发了近1年时间；航盛电子、纵目科技、车联天下、MEGA、博泰、福瑞泰克正在导入，所有新兴造车对SA8650都很感兴趣，要不然也不会有如此多Tier1开发基于SA8650的自动驾驶系统。

SA8650基于最先进的4纳米设计，也是高通第一颗车载4纳米芯片。

图片来源：高通

SA8650可能有两个版本，低版本的AI算力是50TOPS@INT8，高算力是100TOPS@INT8。此外还有一个更低的SA8620，SA8620可能也是4纳米芯片，主要挑战英伟达的Xavier。CPU算力为230kDMIPs，与Orin顶配相当，Orin有多个版本，只有顶配的CPU算力是230kDMIPs。推测SA8650是4个Cortex-X3大核心加4个A55小核心，国内芯片受限于成本，在CPU方面都比较节约，最多是8个A55，算力一般是26kDMIPs。CPU远比AI更消耗成本，同时CPU对先进制程的需求是必须的，X3这种级别必须对应4纳米，Orin使用了12个A78AE，全部是大核心，才与SA8650旗鼓相当。

图片来源：WikiChip Fuse

X3比X1有本质提升，X1比A77有本质提升，X2是鸡肋，提升不多，且功耗高。X3是ARM目前最强的架构，X4对应的是3纳米，X5可能对应2纳米，3纳米或2纳米提升不多，但成本增加不少。

SA8650有100TOPS的AI算力，从图上看可能去除了GPU，不过SA8650的图形输出能力很强，最高支持4个屏幕。SA8650可以对应12个摄像头，即8个800万像素，4个400万像素。SA8650功耗大概25-40瓦，超过25瓦就最好采用水冷设计，目前SA8650的设计方案都是水冷。

众所周知，L3/L4很有可能10年内都无法做到，且目前瓶颈不在AI计算，而在存储带宽。举个例子，若自动驾驶运行真正的大模型，假设模型的参数是1750亿，通常用INT8格式来存储LLM权重，以便进行更低延迟的推理、更高的吞吐量和更低的内存需求（比用float16格式来存储要少两倍的内存）。每个INT8参数需要1个字节进行存储。经简单计算可知，模型需要175GB的存储空间，实际会需要180-190GB左右。假设特斯拉用了这么大的模型，特斯拉最新的自动驾驶大脑FSD，不惜血本用上了美光的GDDR6，代号D9ZPR；以特斯拉的16颗GDDR6为例，带宽是56*16=896GB/s，896/175=5.12，即每秒加载5.12次权重模型，即便你的算力是100000TOPs，每秒运算次数也不会超过6次。

所以没必要追求100TOPS以上的算力，至少10年内如此。当然了，高通也有外接的AI加速器，最高可扩展到2000TOPS，这可能需要非常昂贵的HBM3存储，每GB的价格超过20美元，一般需要100GB以上。所有真正高算力AI芯片都使用了HBM存储，HBM存储不仅昂贵，还只能依靠台积电的CoWoS工艺，成本高昂。

高通从第四代起就不单独提供芯片，都以模组形式销售，模组包含一颗SoC，4颗电源管理，2-4颗LPDDR DRAM。根据前文的图片推测，高通的SA8650模组包括一颗SA8650，4颗PMM850U电源管理，2片美光的LPDDR5，1片美光的UFS。美光LPDDR5型号为MT62F3G32D8DV-026 AAT:B，代号D8DHD，8die封装，每片是12GB，速度为7500Mb/s。一片UFS容量可能是256GB，也有可能是三片LPDDR5。还有一片芯片，可能是PCIe接口或温度保护芯片。

图片来源：高通

目前的设计方案中，基本都考虑到了行泊一体，也考虑到了两片模组级联或附加加速器，还可以与座舱SoC联合，打造中央计算平台，中央计算可以是一片SA8775，也可以是一片SA8650加一片SA8295。因此都用了非常强大的以太网交换机，畅行智驾的方案用了MARVELL的88Q5192，均联智行采用博通的BCM89568，德赛西威采用MARCVELL的88Q6113。这些以太网交换机的价格估计至少也在80美元以上，相当昂贵。

图片来源：高通

高通Ride提供完整的软件系统、中间件、工具链、开发环境和各种算子库。你可以用，也可以单独开发。

图片来源：高通

高通视觉算法合作伙伴之一：韩国的StradVision，一样可以提供特斯拉那样的Occupancy Network。

图片来源：高通

高通中央计算平台或者说舱驾泊一体SoC框架图，第一代型号为SA8775，未来有SA8797和SA8799，估计明年就能有样片，并且很可能抛弃ARM架构，改用NUVIA的架构。SA8775的CPU算力超强，达到300kDMIPs，因为汽车软件系统非常复杂，对CPU算力要求很高。

图片来源：大陆汽车

一个典型的基于HPC（中央计算平台，高性能计算）的汽车软件架构，软件层数非常多，驱动，根目录，虚拟机（通常都是在微内核OS之上的）、Linux、AutoSAR、RTOS，每一层软件都要消耗CPU算力。对中央计算平台来说，最需要的是CPU算力，AI算力不需要太高，一般的L2系统，20-50TOPS就足够，L3/L4则在10年内没有希望，这个我在以前的文章里有详细说明。

高通的数字底盘