激光雷达会被纯视觉取代?那你就大错特错了,虽然纯视觉,端到端,大模型时下很狂热,但是业内人士都知道传统算法仍然是主流,并且在未来5年内还是主流,原因很简单,基于纯视觉大模型的全局端到端部署成本太高,真正的大模型参数量动辄数千亿,须要英伟达DGX-H100这样一套45万美元的服务器系统才能流畅运行,先不说功耗,这样的价格就注定永远无法用在车上。
Nano的参数只有18亿或32.5亿,和Pro这样的数千亿参数级别比,性能还是有明显差距的。包括特斯拉,未来五年内BEV+OCC的技术路线还是主流,而激光雷达提供更好的深度信息,BEV+OCC的性能比纯视觉要好不少,这一点在权威的自动驾驶算法测试排行榜nUscenes上有准确的数值可以对比,https://www.nuscenes.org/object-detection?externalData=no&mapData=no&modalities=Camera表现的很明显,纯视觉的最高得分是70.7,纯激光雷达得分是74.4,视觉和激光雷达融合后最高得分是77.1,激光雷达还是有助于提高智能驾驶安全性的传感器。
国外的激光雷达企业全部阵亡的原因就是成本太高,无法商业化,而无法商业化又导致其成本太高,但是国内激光雷达企业完全碾压了国外企业,这关键就是成本控制。
新一代的激光雷达多采用VCSEL做光源,和老式的LD相比,成本大幅度下降,激光雷达里成本最高的部分从LD变为了FPGA,也就是芯片最贵。
为什么要用ASIC(专用芯片)代替FPGA,主要就是为了性价比,还有一点也很重要,那就是供应链的安全性,FPGA全球范围内只有两家Xilinx(被AMD收购)和Altera(被英特尔收购),目前Altera奄奄一息,Xilinx基本上一家独大,而FPGA很多用于军工领域,以目前中美形势看,断供FPGA非常有可能。
为什么ASIC性价比会远高于FPGA,因为FPGA是为了可重构牺牲了成本、效率和功耗。
芯片的硬件成本是如何计算的,很简单就是die size大小,一片十二英寸晶圆面积大约70685平方毫米,英伟达Orin的die size是450平方毫米。
12英寸晶圆可以切割大约125片Orin,台积电7纳米晶圆每片大约10000美元,三星8纳米晶圆价格大约6000美元,每片Orin的晶圆成本大约48美元,封装与测试成本大约2美元,即50美元。Orin目前千颗售价大约500美元,毛利率大约90%,英伟达一向如此,毛利率基本就是90%。如果die size面积小,就可以切割出更多芯片,成本就会摊薄。
FPGA是“可重构逻辑”器件。先制造的芯片,再次设计时“重新配置”。ASIC 不需要“重新配置”。你先设计,把它交给代工厂,然后制造芯片。
FPGA的最小单元,逻辑块。LUT 充当组合逻辑。在DFF的帮助下,可以形成时序逻辑。它可以构建逻辑门、多路复用器、编码器、加法器;任何真值表都可以作为布尔表达式存储在 LUT 中。一个 LUT 可以保存有限数量的数据。逻辑单元的 LUT 也是有限的。具有许多项的布尔表达式需要更多的内存空间,工具在布局布线的时候会将剩余项放入另一个逻辑单元中。这就需要在两个逻辑单元之间有路由信号。
白线是从一个逻辑单元路由到另一个逻辑单元的信号。可以想象如果实现更大逻辑时候这个导线长度会增加多大。这增加了额外的延迟,降低了时钟频率,消耗了更多的面积和功耗。所以FPGA的频率一般都不超过700MHz,而ASIC可以轻易超过2GHz。所有这一切都只是为了“重构”。即使设计不需要其他单元或路由信号,它们仍然存在于FPGA芯片路由区域和静态功率中,从而降低了效率。
ASIC的布局,单个单元彼此紧密连接,形成更大的逻辑功能。位置也针对信号传播进行了优化。与FPGA相比,ASIC没有不必要的逻辑和路由开销。这样可以节省更少的面积和功率,还可以实现更快的时钟。换句话说就是ASIC比FPGA成本更低,功耗更低,效率更高。
FPGA一般是用于原型验证和通讯基站领域等出货量比较小的领域,为什么不用ASIC?因为虽然单一芯片对比,ASIC优势很大,但是前提是要有足够高的出货量来分摊芯片的一次性工程费用,也就是流片成本。
流片即tape-out,成本主要来自光罩的制作。依照不同的制程,光罩的数量也不一样多,下表是TSMC在不同制程的大致光罩数量,可以发现,越新的制程,光罩数量越多。(少数节点有光罩数持平的现象,是因为换FinFET或引进EUV mask。)
在新制程中,每一道光罩的成本也增加了,所以整套光罩成本是几何性地增加。根据估计,一套16nm光罩需要新台币1亿元,大约2千万人民币,已经是天价了,到了2nm,光罩居然要价新台币30亿元,大约6亿人民币。三星8纳米光罩成本大约900万美元,7纳米的光罩成本大约1200-1500万美元,5纳米大约4000-5000万美元。
这些流片成本还有芯片的研发成本都要分摊到每一颗芯片上,如果出货量太低,那么分摊到每一颗芯片上的成本比芯片本身的成本还要高,而FPGA是不需要流片成本的。
截至2024年9月30日,RoboSense速腾聚创激光雷达历史累计总销量超72万台,刷新行业交付记录,今年前三季度,其累计销量达到381,900台,同比增长259.6%,销量和增速位列行业第一。速腾聚创在财报中表示,已经和全球 28 家OEM & Tier1 达成紧密合作,其中包括7家全球车企品牌、3家中外合作品牌及4家海外主机厂,累计获得定点车型高达 92 款,在机器人领域合作伙伴有 2600家,并获得多家头部机器人公司定点,2025年机器人领域出货量有望突破六位数。
在佐思汽车研究院发布的2024年1-8月激光雷达供应商装机量排行中,RoboSense速腾聚创市场份额位居榜首。如此高的出货量和增长潜力,ASIC就有明显优势。
速腾聚创经过7年的深入研发,RoboSense速腾聚创不仅顺利推出处理芯片M-Core,在激光雷达的扫描、发射、接收等系统上也已完成芯片化布局,率先实现全栈芯片化。这一系列重大技术成果成功推动激光雷达全栈系统的重构,为RoboSense速腾聚创推出革命性的M平台和E平台产品,并领先行业率先实现大规模量产提供强大支持。
速腾聚创的芯片大幅度集成,包括了先进架构,性能强劲集成了四核64bit APU+双核MCU、主频1GHz、8MByte片内存储单元。最终比FPGA版本电路板面积减少50%,功耗降低40%,且成本大幅降低。
安森美的16通道激光雷达电路框架图,我们可以看到大部分设计是将存储、MCU和ADC外置,这样不仅成本增加,占用更多PCB板面积,还降低了可靠性。速腾聚创将其全部集成到一起。速腾聚创的M-Core彻底将整个后端电路单元功能,包括FPGA,MCU,SRAM,扫描驱动ADC,DAC等集成到16mm*16mm封装大小的一颗SoC芯片里面实现。
激光雷达数据处理的核心是TDC即时间数字转化器。
TDC通常由计数器和一个或多个比较器组成,用于测量和存储事件之间的时间差。皮秒分辨率意味着TDC能够测量和分辨出达到皮秒级别的时间间隔。皮秒是一秒的十亿分之一,代表了一种非常高精度的时间测量能力。一般来讲当光线遇到物体的时候会被反射回来。因此在这种情况下光将飞行两倍的被测距离。也就是说1纳秒是150毫米的精度,100皮秒是15毫米的精度,10皮秒是1.5毫米的精度。
速腾聚创的M-Core集成了点云专用时/空域抗干扰算法,lidar通用高级功能和固化各类后处理算法的ISP。运算处理能力非常强大。性能上,M-Core集成了多个阈值的TDC(时间数字转化器),对比M1 Plus,弱回波检测能力提升4倍,采样能力从ADC时代的1GHz,提升到等效32GHz;时间分辨能力从1纳秒提升至31.25皮秒,等效距离分辨能力从15cm提升至0.5cm,这是整整32倍的提升!这是业界集成度最高的SoC,没有之一,单独的TDC芯片,如业内最常见的德州仪器的TDC7200/7201的分辨率55皮秒。速腾聚创的M-CORE性能已经超过了德州仪器。
速腾聚创全自研SoC芯片M-Core获得AEC-Q100车规级可靠性认证,成为全球首款通过该认证的激光雷达专用SoC芯片。
AEC-Q100是由国际组织汽车电子委员会(Automotive Electronics Council)制定的车用电子元件可靠性测试标准,在全球汽车产业具备极高的权威性。该标准对车规级芯片提出从设计到生产的全方位要求,包括高可靠性、高安全性、零缺陷率、器件批次间品质一致性和长期供货等方面,以确保芯片在汽车环境下的稳定运行和长期可靠性。为预防可能发生的各种状况和潜在故障,AEC-Q100基于失效机理,对集成电路进行可靠性测试鉴定,关键测试包括加速环境压力测试、加速寿命仿真模拟测试、生产阶段的质量管控等类别。在超过3000颗芯片测试验证样本量的投入下,RoboSense速腾聚创全自研SOC芯片最终通过了汽车电子领域严苛的AEC-Q100认证,成为全球首款通过该认证的激光雷达专用SOC芯片。不仅达到了AEC-Q100的要求,也达到了ASIL-B功能安全等级。
毫无疑问,以速腾聚创为代表的中国激光雷达企业将继续引领全球激光雷达行业,也将为智能驾驶提供更高的安全性和舒适性,未来,不管是激光雷达还是智能驾驶,都是中国人的天下。