高通第一代Ride SoC是SA8540P,这颗芯片与座舱领域的SA8295P以及笔记本电脑领域的SC8280XP非常近似,其中SC8280XP又叫8CX gen3,是三颗芯片中最早推出的,大概是2021年初就有了。第一代Ride有点急急赶工的感觉,复用了座舱和笔记本电脑芯片的设计,高通的第二代Ride以SA8650为代表,这是完全针对自动驾驶的设计,在高通其他产品线找不到与其类似的产品,足以证明高通对自动驾驶的重视。
国内企业大多在2022年初拿到SA8650的开发板,目前进展最快的是高通、中科创达和立讯精密合资的畅行智驾,预计2024年即可量产上车,高通产品软件兼容,基于SA8540的软件开发成果基本可以无缝转移到SA8650上。高通的中央计算平台芯片Ride Flex第一个产品是SA8775,国内多称其为舱驾一体,已有不少企业在开发中,预计2024年底量产上车,比英伟达的Thor进展快半年到一年。
2023年CES展上,基于SA8650的设计第一次公开问世,上图左边为德国大陆汽车的单SA8650设计,右边是博世的双SA8650设计。
法雷奥近年来在ADAS领域进展神速,2022年ADAS领域收入达25亿欧元,拿下宝马和通用汽车的订单,宝马下一代ADAS平台IPNEXT全面导入SA8650,预计2025年量产。Veoneer则是奔驰主要供应商,Veoneer的软件部门卖给了高通。
法雷奥为宝马开发的自动驾驶控制器,应该是行泊一体的设计,法雷奥是全球最大的泊车控制器厂家,市场占有率近1/4,做自动泊车是法雷奥的强项。
第一代Ride响应者不多,第二代Ride得到了不少欧美车企的认同,包括宝马、奔驰、奥迪、保时捷、Stellantis,也得到了不少主流Tier1的认可,包括法雷奥、德国大陆汽车、博世和Veoneer。国内Tier1中,德赛西威、均胜电子、映驰科技、豪末智行、百度都已经基于SA8650开发了近1年时间;航盛电子、纵目科技、车联天下、MEGA、博泰、福瑞泰克正在导入,所有新兴造车对SA8650都很感兴趣,要不然也不会有如此多Tier1开发基于SA8650的自动驾驶系统。
SA8650基于最先进的4纳米设计,也是高通第一颗车载4纳米芯片。
图片来源:高通
SA8650可能有两个版本,低版本的AI算力是50TOPS@INT8,高算力是100TOPS@INT8。此外还有一个更低的SA8620,SA8620可能也是4纳米芯片,主要挑战英伟达的Xavier。CPU算力为230kDMIPs,与Orin顶配相当,Orin有多个版本,只有顶配的CPU算力是230kDMIPs。推测SA8650是4个Cortex-X3大核心加4个A55小核心,国内芯片受限于成本,在CPU方面都比较节约,最多是8个A55,算力一般是26kDMIPs。CPU远比AI更消耗成本,同时CPU对先进制程的需求是必须的,X3这种级别必须对应4纳米,Orin使用了12个A78AE,全部是大核心,才与SA8650旗鼓相当。
图片来源:WikiChip Fuse
X3比X1有本质提升,X1比A77有本质提升,X2是鸡肋,提升不多,且功耗高。X3是ARM目前最强的架构,X4对应的是3纳米,X5可能对应2纳米,3纳米或2纳米提升不多,但成本增加不少。
SA8650有100TOPS的AI算力,从图上看可能去除了GPU,不过SA8650的图形输出能力很强,最高支持4个屏幕。SA8650可以对应12个摄像头,即8个800万像素,4个400万像素。SA8650功耗大概25-40瓦,超过25瓦就最好采用水冷设计,目前SA8650的设计方案都是水冷。
众所周知,L3/L4很有可能10年内都无法做到,且目前瓶颈不在AI计算,而在存储带宽。举个例子,若自动驾驶运行真正的大模型,假设模型的参数是1750亿,通常用INT8格式来存储LLM权重,以便进行更低延迟的推理、更高的吞吐量和更低的内存需求(比用float16格式来存储要少两倍的内存)。每个INT8参数需要1个字节进行存储。经简单计算可知,模型需要175GB的存储空间,实际会需要180-190GB左右。假设特斯拉用了这么大的模型,特斯拉最新的自动驾驶大脑FSD,不惜血本用上了美光的GDDR6,代号D9ZPR;以特斯拉的16颗GDDR6为例,带宽是56*16=896GB/s,896/175=5.12,即每秒加载5.12次权重模型,即便你的算力是100000TOPs,每秒运算次数也不会超过6次。
所以没必要追求100TOPS以上的算力,至少10年内如此。当然了,高通也有外接的AI加速器,最高可扩展到2000TOPS,这可能需要非常昂贵的HBM3存储,每GB的价格超过20美元,一般需要100GB以上。所有真正高算力AI芯片都使用了HBM存储,HBM存储不仅昂贵,还只能依靠台积电的CoWoS工艺,成本高昂。
高通从第四代起就不单独提供芯片,都以模组形式销售,模组包含一颗SoC,4颗电源管理,2-4颗LPDDR DRAM。根据前文的图片推测,高通的SA8650模组包括一颗SA8650,4颗PMM850U电源管理,2片美光的LPDDR5,1片美光的UFS。美光LPDDR5型号为MT62F3G32D8DV-026 AAT:B,代号D8DHD,8die封装,每片是12GB,速度为7500Mb/s。一片UFS容量可能是256GB,也有可能是三片LPDDR5。还有一片芯片,可能是PCIe接口或温度保护芯片。
图片来源:高通
目前的设计方案中,基本都考虑到了行泊一体,也考虑到了两片模组级联或附加加速器,还可以与座舱SoC联合,打造中央计算平台,中央计算可以是一片SA8775,也可以是一片SA8650加一片SA8295。因此都用了非常强大的以太网交换机,畅行智驾的方案用了MARVELL的88Q5192,均联智行采用博通的BCM89568,德赛西威采用MARCVELL的88Q6113。这些以太网交换机的价格估计至少也在80美元以上,相当昂贵。
图片来源:高通
高通Ride提供完整的软件系统、中间件、工具链、开发环境和各种算子库。你可以用,也可以单独开发。
图片来源:高通
图片来源:高通
高通视觉算法合作伙伴之一:韩国的StradVision,一样可以提供特斯拉那样的Occupancy Network。
图片来源:高通
高通中央计算平台或者说舱驾泊一体SoC框架图,第一代型号为SA8775,未来有SA8797和SA8799,估计明年就能有样片,并且很可能抛弃ARM架构,改用NUVIA的架构。SA8775的CPU算力超强,达到300kDMIPs,因为汽车软件系统非常复杂,对CPU算力要求很高。
图片来源:大陆汽车
一个典型的基于HPC(中央计算平台,高性能计算)的汽车软件架构,软件层数非常多,驱动,根目录,虚拟机(通常都是在微内核OS之上的)、Linux、AutoSAR、RTOS,每一层软件都要消耗CPU算力。对中央计算平台来说,最需要的是CPU算力,AI算力不需要太高,一般的L2系统,20-50TOPS就足够,L3/L4则在10年内没有希望,这个我在以前的文章里有详细说明。
高通的数字底盘
图片来源:高通
高通数字底盘软件架构
图片来源:高通
L3/L4短期内无法实现已经是汽车行业内共识,存储瓶颈也限制了高算力AI芯片的发挥,加之电动车门槛低,玩家众多,价格战将是长期主旋律,厂家不得不重视成本控制。高性价比加上强大的生态系统以及座舱领域的霸主地位,都让高通在自动驾驶领域足以与英伟达平分秋色,乃至超过英伟达。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。