加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

萝卜快跑无人出租车核心芯片推测:低调的昆仑芯

07/29 16:35
6240
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

百度在2022年6月发布了萝卜快跑无人出租车RT6,随着近期在武汉大规模投放RT6,无人出租车让百度扬眉吐气,彻底压倒了Waymo,而特斯拉的Robotaxi据传推迟到10月,这也导致特斯拉股价大跌,再次彰显百度的强大。

RT6内部没有方向盘,也就是说它是L4级的,没考虑人工接手。  RT6在云端有一层保障,百度Apollo称之为“平行驾驶”,即在远程驾舱重建车辆行驶环境,让云端安全员也能像在实车上一样了解车辆的驾驶情况和环境状况,并在介入时将控车指令实时发送到车端,实现远程实时控车的能力。

根据http://www.evinchina.com/newsshow-2145.html的介绍,RT6的算力是1200TOPS,并且是双计算单元,那么会用的是什么计算芯片呢?百度没有公布,我们可以大胆猜测。很有可能是百度自己的芯片,即昆仑芯2。

百度的昆仑芯在2021年正式分拆,同时在2021年8月正式量产昆仑芯二代。顺便说一句,比亚迪也投资了昆仑芯公司。

昆仑芯2的内部框架图

昆仑芯2的内部框架图,这是一个非常奇怪的设计,实际就是一个CPU加NPU的设计,这里面的SDNN就是软件定义的神经网络引擎,是自研核心张量计算单元,加速卷积和矩阵乘法的计算即NPU。Cluster主要负责除了卷积和矩阵乘法之外的通用计算部分,应该是标量计算部分,即CPU。XPU-R主要包含有8个Cluster单元和6个SDNN单元。Cluster单元主要承担通用计算任务,支持SIMD指令,提供通用和灵活的编程能力。SDNN主要承担MAC类计算和EW类计算,提供 128 TFLOPS@ FP16的算力。昆仑芯2代是国内首款应用GDDR6的AI芯片。跟主机的接口这块,集成了PCIe4.0协议。同时也具备片间互联能力,多个芯片之间能够互联通信去支持训练和大规模推理的应用场景,也就是K-LINK,近似于英伟达的NV-LINK,片间互联带宽是200GB/s,英伟达在2017年的NV-LINK就做到300GB/s了。

根据https://baidu-kunlun-public.su.bcebos.com/paddle_lite/R200%20%E4%BA%A7%E5%93%81%E6%89%8B%E5%86%8C%E5%A4%96%E9%83%A8%E7%89%88_0923.pdf,也就是百度的官方介绍。

INT8算力是256TOPS,如果是双运算平台,那么至少需6片,这样就是1500TOPS。

也就是说需要6片昆仑芯2,百度有R480-X8 UBB被动基板,可以连接8片昆仑芯2。此外还需要一个强大的CPU做主机,至少英特尔9代以上的i7做CPU。

如果是昆仑芯2代的话,百度采购的价格肯定可以压得很低,再加上CPU主机,估计价格在2-3万人民币左右。6张加速卡有1500TOPS算力,百度谦虚地只写了1200TOPS。一张昆仑芯2的加速卡功耗是150瓦,6张是900瓦,加上主机,功耗至少是1100瓦。

除了昆仑芯2,大家可能还有其他猜测,首先会不会是英伟达的Orin?国内用的基本都是Orin-X,稀疏算力254TOPS@INT8,存储带宽是204.8GB/s,昆仑芯2是512GB/s,Orin性能与昆仑芯2比有明显差距。如果是双系统,还要超过1200TOPS,同样需要6颗。但Orin不具备片间连接能力,只能靠带宽很低的以太网或PCIe,即便6颗,实际算力也不会超过400TOPS,并且每片Orin价格大约3000-3500人民币,6片价格近2万元,Orin也不具备多片并联基板,还需要再开发嵌入式计算平台,开发周期和成本远超昆仑芯2,用Orin的概率为零。

其次会不会是英伟达的A100?A100单片算力就有1248TOPS@INT8,体积和功耗比6片昆仑芯2要小很多,但A100价格要3万美元,国内还不好买到,显然不会用A100。

百度宣称的1200TOPS算力并未标明是INT8还是INT4,如果是INT4,那么英伟达2021年初发表的A40倒是很合适。

A40参数

A40的INT4算力是1197TOPS,基本就是1200TOPS,采用了48GB的GDDR6,没有用价格高昂的HBM,这就保证其价格不会太高,带宽有696GB/s。功耗只有300瓦,还有3个DP显示接口。目前A40价格大概4万人民币,比较容易买的到。

还有RTX4090也比较合适,单片INT8算力有1321TOPS,存储是24GB的GDDR6,带宽1008GB/s,价格只要1.2万人民币左右,性价比极高。

还有明年即将量产的英伟达的Thor-Super-X也很合适,算力高达2000TOPS@INT8。

当然昆仑芯在2024年下半年即将量产第三代昆仑芯芯片,目前参数还不得而知,大概率算力达到1000TOPS@INT8以上,应该还是三星代工,5纳米工艺。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ADG1613BRUZ 1 Analog Devices Inc 1 Ω Typical On Resistance, ±5 V, +12 V, +5 V, and +3.3 V Quad SPST Switches

ECAD模型

下载ECAD模型
$5.82 查看
ACPL-C870-500E 1 Broadcom Limited Analog Circuit, 1 Func, PDSO8, SSO-8

ECAD模型

下载ECAD模型
$7 查看
AD5700BCPZ-R5 1 Analog Devices Inc Low Power HART Modem

ECAD模型

下载ECAD模型
$9.82 查看

相关推荐

电子产业图谱