腾讯盯上了AI训练芯片

大家都知道，在中美脱钩的背景下，中国希望建立一个丰富的、本土的、多样化的半导体生态系统来满足国内最大的计算消费者群体，这已经不算是什么新闻了。可以说，从超级计算系统，到为本土最大的在线社交和零售平台提供芯片驱动的系统，美国的芯片制造商们都应该密切关注它们的进展，同时也必将面临着严苛的考验。

中国的顶级超级计算机——包括神威太湖之光或强大的天河 2A——充满了从芯片到互连在内的各种本土技术。其社交媒体巨头，包括阿里巴巴和百度，也已经在使用自己设计的芯片进行大规模的人工智能训练和推理。

在BAT三巨头中，同样是中国计算领域的超大规模企业-腾讯尚未推出自己的芯片。但值得注意的是，腾讯对总部位于上海的燧原科技进行了大量投资，该公司将很快发布自 2018 年以来一直在进行开发的第一代人工智能训练设备 DTU 1.0。在过去的三年中，燧原科技已经筹集了近 5亿美元的资金，其中的牵头投资者便是腾讯。

这颗DTU 1.0 器件的有趣之处在于它根本没有什么特别有趣的地方。换句话说，它并没有试图做任何古怪的事情。当然，这并不能表明它就是一个比较简单的芯片，因为它有一些独特的功能，但燧原科技并没有采取冒险主义的路线，比如叠加多得令人难以置信的核心数量、采取一个非主流精度或模型类型，又或者在封装技术上进行冒险。

对于我们来说，我们所关心的问题是这个器件可以用来做什么，众所周知， GPU 不适合用于大规模的训练。所以，上面这个问题的答案可能很简单，腾讯作为燧原科技最为热情的支持者，它正在建立自己的中国本土技术——显然，腾讯希望并需要通过构建（或购买）本土人工智能硬件来追赶上同属中国超大规模数据计算领域的兄弟公司们。

DTU 1.0一直以来都是犹抱琵琶半遮面，就在本周，我们终于在 Hot Chips 上看到了燧原科技基于 12纳米 FinFET工艺的训练SOC。下面这个图显示了 32 个“AI 计算核心”，分为四个集群。同时，还有另外四十个主机处理模块沿着燧原科技自己的四个互连信道推送数据。每个设备有两个 HBM2 模块，带宽为 512GB/秒。

可以看出，燧原科技SoC的AI部分与我们最先从英伟达看到的 TensorCore 概念有很多共同之处，现在它正在被部署添加到其他几个 CPU 的设计中。燧原科技表示，它们的器件可以在 FP32 下达到 20 teraflops。该器件还支持 FP16 和 Bfloat（均达到 80 teraflops 的峰值），并且可以支持具有 Int-32、18 和 8 位数据类型的混合精度工作负载。其中每一个都基于一个 256 张量的计算内核。

下面是张量单位的详细介绍：

这款芯片的设计考虑了 GEMM 操作和 CNN，这正是腾讯业务之中的重点，因为它主要由视觉媒体（视频、照片、电子商务）驱动。

这家初创公司提供了一款名为云隧CloudBlazer的 PCIe Gen4 加速卡，根据配置的不同，功耗在 225W 到 300W 之间，其中功耗最大的是基于开放计算项目的 OAM（开放加速模型）设计的 CloudBlazer T21。除了仅限 PCIe 的设备外，燧原科技还对系统进行了封装打包，从单个节点到机架，再到具有 2D 环面互连的“pod”。

燧原科技分享了各种配置的扩展结果，显示单卡在扩展到 160 张卡时达到 81.6%，在打包到一个节点时达到 87.8%。这与我们在 GPU 可扩展性方面所看到的大致相当，尽管它不是一个条件对等的比较。

这家初创公司有机会为中国的超大规模企业提供人工智能训练业务加速，但它并非土生土长在中国，事实上它在美国也有一些根基。该公司的首席执行官兼联合创始人赵立东在旧金山湾区工作了 20 年，一直从事 GPU 的研发和产品工作，不过他并不在英伟达工作。在帮助 AMD 在中国建立研发中心之前，他有七年的时间在 AMD 为其 CPU/APU 部门研发产品。在此之前，他负责开发网络安全设备，还曾在 S3 Inc. 从事 GPU 开发工作。

另一位联合创始人、同时也是燧原科技的首席运营官张亚林曾是赵立东在 AMD 工作时的老同事，他担任高级芯片经理和全球器件研发技术经理，同时也从事 AMD 早期 GPU 的工作。

“人工智能是未来数字经济基础设施的核心，也是硬技术的战场，”燧原科技创始人兼首席执行官赵立东说。

“作为一家技术驱动型的公司，我们已经规划并正在全面实施未来三年的产品技术路线图，以软硬件系统联合开发为核心进行产品迭代，建立燧原科技技术在市场上的竞争优势。同时，我们也会加大对人工智能领域前沿技术的探索，让未来的创新赋能更大的商业价值。”

作者：Nicole Hemsoth

编译：与非网