特斯拉Dojo计算平台有哪些值得关注的？

在特斯拉 AI Day发布会，Dojo这个特斯拉自己定制超级计算平台，它的出现是从头开始构建，用于自动驾驶视频数据进行视频训练。主要两个目的：其一是比市售云计算更便宜；其二是比市售云计算更强大——从某种意义上，特斯拉和Jeff Bezos 是不对付的，所以特斯拉是希望与亚马逊 AWS 相提并论，使用在线提供的服务，可以用更少的钱、更快地训练模型。

特斯拉已有是基于 NVIDIA GPU 的大型超级计算机，新的 Dojo 定制计算机，是在设计层面做有效的突破。

▲图1. Dojo的计算效果

Dojo Exapod规格：1.1 EFLOP、1.3 TB SRAM 和 13 TB 高带宽 DRAM。

从设计之初，硬件层面要为深度的神经网络训练做考虑，从芯片到机组再到机房的传输带宽都是非常扩展，将Occupancy网络应用于Dojo系统之中，实现了AI硬件与AI软件的更佳匹配，最后在降低延迟和性能损失上取得的效果十分惊人。

▲图2. 特斯拉的ExaPOD效果图

Dojo超级计算机系统的未来路线图如下：

▲图3. Dojo的整体Roadmap

Part 1、电源和带宽设计

1）电源供给

在技术部分，好的计算模块需要非常特制的电源设计，在这里电压调节模块可以传输1000A电流，具有超高密度，利用多层垂直电源管理材料过渡。这个设计具有高性能、高密度（0.86A/mm²）、复杂集成性，未来的目标是减少54%的CTE，提升3倍性能。在这里提高功率密度是提升系统性能的核心和基石，有趣的是特斯拉在24个月内设计更新了14个版本。

在这个电源设计中，充分考虑了电容、时钟和振动特性。

● 软端子连接电容来减少振动

● MEMS时钟可以有10倍更低的Q-Factor

● 下一步优化开关频率

▲图4. 配套的电源模块

▲图5. Training Tile的结构

2）可扩展的系统

系统集合，包含了功率、结构和散热三部分，这个最小单元System Tray参数：75mm高度、54 PFLOPS（BF16/CFP8）、13.4 TB/S（对分带宽）、100+ KW Power

Standard Interface Processor参数：32GB（高带宽动态随机存取存储器）、900 TB/S（TTP带宽）、50 GB/S（以太网带宽）、32GB/S（第四代PCI带宽）

High Interface Processor参数：640GB（高带宽动态随机存取存储器）、1TB/S（以太网带宽）、18 TB/S（Aggregate Bandwidth To Tiles）

▲图6. System Tray

▲图7. Dojo Host 接口

对应32GB高传输频宽存储、每秒900TB资料传输量，以及每秒可对应50GB资料传输量的网路传输频宽的Dojo接口处理器

▲图8. Dojo的接口处理器

下图是Dojo的时间进度表。

▲图9. Dojo 的时间进度

Part 2、Dojo的软件系统

Dojo系统建立目标：解决很难形成规模的约束模型。

▲图10. 软件的优化目标

单一的加速器到前向和后向通道、优化器、多个加速器上运行多个副本的流程。更大激活度的模型想运行前向通道时会遇到适合单个加速器的批量大小往往小于批量规范面的问题；多个加速器上设置同步批量规范模式。

高密度集成是为了加速模型的计算约束和延迟约束部分；Dojo网格的一个片断可以被分割出来运行模型（只要分片足够大）；统一的低延迟中的细粒度同步原语加速跨集成边界的并行性；Tensors是以RAM的形式存储Chardon，并在各层执行时及时复制；张量复制的另一个数据传输与计算重叠，编译器也可重新计算层。