Ambarella推出了CV3系列AV域控制器,可同时处理多达20条图像数据流,这说明了自动驾驶汽车领域控制器的发展趋势。这个新的SoC系列基于Ambarella的第三代CVFlow AI引擎IP,专为L2-L4车辆的感知、多传感器融合和路径规划而定制。
随着车辆架构从每个功能的单一ECU转向zonal和更大的集中式域控制器,以及更多的车辆功能依赖于计算密集型AI处理,车辆处理器正在快速发展。Ambarella新的CV3系列旗舰SoC包括一个AI加速器,该公司将其评估为500 eTOPS(意味着性能相当于500TOPS的GPU)。还包括一个视觉处理器、16个ARM内核、一个GPU和其他硬件。
CV3可以连接和融合多个长距摄像头、多个环视短距摄像头和多个雷达,并还有剩余能力用于其他视觉处理任务(如DMS)。
Ambarella称其设计理念为“算法优先”。CTO Les Kohn表示,该公司在设计最新一代产品时研究了数百个开源网络、自己的内部网络和使用其早期平台的客户的算法。
Kohn说:“我们研究了数百个跨越所有不同类型架构的网络,通过这样做,我们确保架构有足够的灵活性来处理所有这些不同的网络,且仍然非常有效地运行。当然,挑战在于你如何权衡灵活性和效率,但我认为关键是要真正详细研究这些网络的工作方式。”
他说,总的来说,客户的算法足够相似,可以用同一个引擎进行加速。
Ambarella的CV3-High SoC有一个ISP,能够在具有挑战性的照明和驾驶条件下运行。还包括一个用于处理立体摄像头的立体和密集光流加速器,16个Arm A78AE内核,包括一个安全岛,以及视频编解码器。最后,一个GPU主要用于渲染用于停车辅助的传感器输出的视觉表示。
第三代CVFlow加速器引擎在该系列中首次实现。与前几代CVFlow引擎相比,它由两个区块组成:一个是处理AI工作负载的神经矢量处理器(NVP),一个是支持浮点的通用矢量处理器(GVP)。计算机视觉工作负载由NVP、浮点工作负载由Arm CPU来减轻。例如,雷达处理由GVP处理,然后由NVP进行感知。这两块都是基于内部IP。
在NVP和新的GVP之间拆分工作负载,使前者能够进一步优化卷积和矩阵处理。
Kohn说:“我们已经优化了内部存储系统和这些系统之间的互连,以消除瓶颈并提高效率。我们还重新优化了内部所有的数据路径。因此,与其说是架构上的根本变化,不如说是在细节上的重新设计,以消除瓶颈,优化核心网络处理。”
NVP版本还增加了先进网络中常见的操作,这些操作现在才开始用于实时应用,包括图形网络和transformer。
NVP还提供500 eTOPS 8位性能,或1000 eTOPS 4位性能(Kohn说,更现实的场景是不同网络层使用的混合精度)。这意味着与Ambarella的第二代SoC相比,性能提升了42倍。
该系列的未来器件将扩大CVFlow引擎、图像管道编码和混合外设的规模。软件将可在CV3系列中转移,用于入门级、中档和高档汽车。
总体而言,CV3-High的功耗约为50w,即每瓦性能是前几代的4倍。这些提升部分是通过向5nm工艺技术的过渡实现的。
Ambarella CV3系列的首批SoC预计将在2022年上半年出样。
[参考文章]
Ambarella Targets AV Domain Controllers with Next-Gen AI Engine — Sally Ward-Foxton