AMD具备压倒性绝对优势,不过MI250已对中国禁运。台积电是最大受益者,高端AI芯片被台积电垄断,市场占有率至少在95%以上。英伟达的A100推出比较早,是在2020年初推出的,其余都是2021年推出的。AMD的MI250最晚推出,其时间在2021年11月。
今年特斯拉推出了简化版Dojo,只包含两个芯片,称之为V1 Dojo Interface Processor(下简称V1 Dojo),似乎有意对外销售。
上面的两个大芯片就是V1 Dojo,这个类似英伟达DPU的概念。
与2021年的Tile构成完整的系统。
具体系统搭配示例
这个V1 Dojo从外观就可以看出使用了HBM,此外推测V1 Dojo芯片也是三星代工的。
V1 Dojo应该可以做推理用,但估计特斯拉的第二代FSD即HW4.0的芯片还不会用HBM,太贵了。
接下来我们回头看D1的微架构,D1的微架构参考了很早以前IBM的cell SPE.
2005年推出的IBM Cell 处理器具有八个“协同处理元件”(Synergistic Processing Elements)或 SPE,由一个功能齐全的CPU内核(“电源处理元件”或 PPE:Power Processing Element)控制。Dojo与SPE有很多相似之处。Dojo和SPE都针对矢量处理进行了优化,并且依赖于单独的主机处理器进行工作分配。在Dojo或SPE上运行的代码不能直接访问系统内存。相反,应用程序预计主要在一小部分本地SRAM中工作。此本地SRAM由软件管理,不能用作缓存。如果需要来自主存储器的数据,则必须使用DMA操作将其引入。不过IBM Cell的目标市场是游戏机,有点和GPU竞争的意味,2017年IBM推出TrueNorth真北,当时还有意进军智能汽车领域,不过真北也很快被英伟达的GPU所淹没。
Dojo是一个8路解码,4路超线程SMT,因为散热不佳,运行在保守的2 GHz。它有点像GPU,有354核心,但更像CPU,因为其拥有具有CPU风格的pipeline,使其比GPU更能容忍不同的算法和分支代码。Dojo的指令集在标量方面类似于RISC-V,但Tesla的工程师添加了一组自定义向量指令,专注于加速机器学习。
8路解码是目前CPU的天花板,这是决定CPU性能的最关键之处。ARM每年挤牙膏式升级就是如此,2012年的A53是2路,同年的高性能版A57是3路,2015年的A72还是3路,2018年的A76是4路,2020年A78还是4路,同年的X1是5路,而服务器版的ARM如英伟达下一代自动驾驶用的Atlan用的ARM波塞冬架构,最高已经有8路。当然扩展解码路数也不是那么简单,整体设计会因此复杂度大幅度增加,面积增加,进而导致成本增加,解决办法就是更先进的制造工艺,这也是ARM的每一代都需要搭配更先进的制造工艺才能行,否则成本大增。
特斯拉在这里用词含糊不清,8路解码来达到每周期两线程,让人怀疑实际上是4路解码,另外一个线程是虚拟出来的。
每个核心直接使用1.25MB的SRAM,而不是CPU用的那么复杂的多级缓存设置和多种缓存设置。
特斯拉采用传统的2D mesh网络做NOC。NOC即片上网络。片上网络有很多种,有星形(Star)连接、环形(Ring)连接和网格(Mesh)连接,2D mesh是成本最低的一种,也是比较早的一种,特斯拉可能是模仿了IBM的真北TrueNorth,真北也是2D mesh,连接了4096核心。国内大多是采用Arteris的NOC,黑芝麻、杰发科技、地平线、芯擎、瑞芯微、国民技术、华为、全志、炬力、展讯都是如此。Arteris曾经是高通的子公司,后独立上市。英特尔在2019年收购了Netspeed,Facebook在2019年收购了Sonics,这两家的NoC使用面远不及高通的Arteris。
354个核心通过2D mesh连接。
特斯拉增加了三条指令集,特别针对矢量做了处理。
特斯拉自己打造训练数据中心,推测其主要还是为了将特斯拉打造成科技巅峰公司的形象,让特斯拉的科技粉丝越来越多,最终的结果是特斯拉品牌溢价率极高,再普通的产品,加上特斯拉的品牌都是无价之宝。这比花几十亿做广告的效果要好得多。