Jim Keller规划AI策略，旨在绕过Nvidia

在一个由Nvidia完全主导的AI市场中，要颠覆这个GPU巨头对任何人来说都是极大的挑战，即便是传奇的CPU架构师也不例外。然而，Jim Keller的秘密武器并不是他的声望，而是他坚信开源策略能加速创新。

Jim Keller是一位传奇的CPU架构师，他的名字与一系列商业上成功的处理器紧密相连。在三十多年的职业生涯中，Keller在几家组织中带领团队或参与工作，开发了从Digital Equipment Corporation的Alpha，到AMD的K8、K12和Zen，再到Apple的A4、A5等AP，以及特斯拉的FSD芯片等各种架构。

Keller是一位非常具有才华的工程师。然而，他是否能让Tenstorrent（一家AI硬件初创公司，Keller从早期投资人晋升为今日的CEO）在不断演变的AI竞争中胜出，仍有待观察。

谁都无法打包票Tenstorrent一定会成功，其不确定的未来恰恰反映了AI技术和商业模式快速变化的状态。

AI用户（数据中心、云计算、消费类电子和汽车）一直在制定自己的AI策略。一种新兴趋势是，许多人选择通过购买AI或CPU的chiplet IP来构建AI解决方案。大量购买新的AI处理器并不在他们的计划中。

前不久，Keller在东京的RISC-V Day Tokyo活动上发表了主题演讲。

谈到Tenstorrent计划如何颠覆由Nvidia主导的AI市场。Keller直截了当地说：“我们并不试图打败Nvidia。”他表示，对于一家初创公司来说，挑战年收入超过250亿美元的巨人并不是一个好计划。

然而，在AI世界中，AI模型的数学和操作规模总是在不断变化。没有什么是永恒不变的。Keller找出了一些机会，可能让客户选择在Tenstorrent的芯片上对他们的AI模型进行编程，而不是在Nvidia的GPU上。

Keller分享了两个可能预示Tenstorrent生存的基本理念。一个是编程的“开源”。另一个是让那些需要的人可以得到使用AI/CPU IP的授权。

开源API

今年夏天，Tenstorrent计划为其AI硬件引入一个开源的硬件堆栈。Keller解释说，BudaM是基于纯C++并带有API的Tenstorrent内核，它允许直接写入硬件。与CUDA相比，BudaM的优势在于，程序员可以完全控制Tenstorrent提供的每一个RISC-V内核，包括RISC-V处理器、NoC（Network on Chip）、矩阵和向量引擎以及SRAM。

Keller说：“有很多客户告诉我，他们用PyTorch编写测试程序，但在低级别的CUDA中编写实际模型。”他了解到他们真正想要的是“一种在硬件上编程的方法”。

Keller说，例如，一些生物科学公司正在编写大量迷你程序来分析数据。“对于这个，他们希望能写入硬件。”他补充说，一个AI编译器公司也想使用BudaM。

Tesla的FSD芯片与Tenstorrent的AI芯片在Tesla开发FSD芯片时，Keller的任务是构建一个非常高效的推理引擎。Keller说：“足够好到能驾驶一辆汽车。”通过设计一个双AI引擎，他的团队“使FSD计算机有冗余，且足够便宜，可以安装在每辆车上”。

在那期间，Keller遇到了20到30家公司，包括向Tesla推销他们的AI硬件的Tenstorrent。Keller将Tenstorrent视为“一个非常通用的AI处理器”，位于光谱的另一端。Keller预见到，当未来出现不运行在Tesla的FSD计算机上的AI模型时，“我们会在Tesla使用Tenstorrent”。

路线图

当时，Tenstorrent已经拥有了比竞争对手更强大、更灵活、可编程性更强的AI硬件。这种架构适用于推理和训练。Tenstorrent的AI硬件涵盖了CNN、LLM和NLP。

为了实现其产品路线图，Tenstorrent首先提出了一个简单的、嵌入式的用于AI的RISC-V处理器。接着，它提出了一个集成了16个通用目的RISC-V内核的标准ML计算机。Tenstorrent的信念是，AI需要RISC-V内核和AI加速器，紧密地集成在同一块芯片上。在路线图的最远端，Tenstorrent的目标是异构高性能ML计算机。

Chiplet授权

那款高度集成的异构CPU/AI芯片仍在Tenstorrent的路线图上。但Keller和他的团队已经看到，潜在的客户正在走向一条不同的道路。他们更喜欢更模块化的AI解决方案，以满足他们的需求。

有些人对Keller说，“忘掉AI。我们只想要CPU授权。”

还有一些人回到Keller那里说，“嘿，我们喜欢你的CPU。让我们谈谈AI。但我们可以获得授权吗？”

Keller说，“这有点让我们吃惊，因为我原以为到那时，市场上会有一些好的AI IP。”事实却是没有一个可以授权的。Keller的客户已经对Tenstorrent的AI引擎进行了测试，“他们发现它相当好，他们喜欢我们的编译器。”

所以，就有了与LG达成的授权Tenstorrent chiplet的协议。

Keller说，“他们有一堆想法，他们想试试看。由于Tenstorrent能够使用编译器交付其硬件，LG在上面运行了他们的模型，他们喜欢它。然后我们授权给他们IP。”两家公司的联合新闻发布稿称，他们已经合作，“打造新一代的RISC-V、AI和视频编码chiplet，可能为LG的高端电视和未来的汽车产品，以及Tenstorrent的数据中心产品提供动力。”

Tenstorrent的chiplet授权交易并非仅限于LG。Keller说还有几个也在pipeline中。

阻碍

尽管Tenstorrent在行业内被认为是一家AI芯片公司，但Keller正在将其定位为一家设计公司。“我们设计基于RISC-V的AI计算机，我们设计RISC-V处理器。我们愿意以你想要的方式销售。”与潜在客户的频繁沟通促使Tenstorrent进行了转变。

Keller说，新的玩家急于利用开源、可授权的技术来推出他们自己的解决方案，他们认为传统的芯片公司阻碍了他们的道路。

凯勒亲身体验过这一点。他说：“作为一名CPU架构师，我想在CPU中添加适合AI的数据类型。但Intel或AMD当然不会这样做，因为他们不会向任何人授权。”凯勒找到了Arm，他说，“他们靠授权处理器为生。但也说不行。”

“我认识Arm那边的人。我告诉他们这里有一些数据类型……如果你们能加入就太好了。我不会收费。” Arm仍然拒绝了。

于是，Keller转向了RISC-V。他首先找到了SiFve，SiFve同意与Tenstorrent合作。不幸的是，SiFive并没有与初创公司想要的兼容的路线图。Keller说：“我认为他们正在努力使之变得更好……但在那个时候，我告诉我的投资者，我可以雇佣世界上最好的CPU团队，我们可以打造一个非常有竞争力的RISC-V处理器。”于是就有了Ascalon，Tenstorrent可授权的RISC-V处理器。

GPU效果出奇的好

在Keller看来，“GPU实际上效果出奇的好”，原因有两个。一是Nvidia在软件上投入了大量的资金。另一个是渗透效应。“一旦Nvidia取得了领先，开发者倾向于构建在GPU上运行的模型。他们不会构建一些在例如Tenstorrent硬件上可能会运行更好的模型，因为硬件与他们所熟悉的不同。”

话虽如此，Keller说，有一些人“真正想要的东西与Nvidia提供的不同”。

在某种程度上，GPU的评价并不高，Keller说：“因为它非常昂贵，且功耗很高。编程GPU需要大量的程序员。成千上万的程序员正在用CUDA编写库。”

Keller解释说，当AI程序员在CUDA中编写代码并且出现问题时，他们会要求Nvidia进行编译并返回一个可运行的二进制文件。这种关系（AI程序员和Nvidia之间的关系）形成了一个反馈循环。

但是这个循环并不能保证AI程序员能立即从Nvidia那里得到解决方案。

Keller说，“我在Tesla时使用过Nvidia的AI计算机。当出现问题时，我们无法弄清楚问题所在。”或者，“当它崩溃时，我们最后发现了Nvidia的一个bug。我们告诉他们，但有时从他们那里得到反馈需要几周时间。”

这就是为什么Keller在推动开源。“如果软件是开源的，即使它出现问题，专家级的软件人员可以进去阅读代码并找出问题所在。”

他总结说：“当多人纷纷进行改变时，会发生令人振奋的事。当它是开源的，他们就必须发布它。本质上，这加速了创新。”

Tenstorrent不太可能在短时间内在AI市场上取代Nvidia。然而，Keller的重点是去满足那些从Nvidia那里无法得到真正所需的客户。Tenstorrent有可能扭转乾坤或赶超Nvidia的关键是，开源技术的发展趋势，以及客户对通过chiplet进行AI和CPU IP授权的无尽需求。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$20.39	查看
PIC32MX795F512LT-80I/PF	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$12.72	查看
ATMEGA328PB-AUR	1	Atmel Corporation	RISC Microcontroller, CMOS,	ECAD模型下载ECAD模型	$2.65	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F407VGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC