成功的一种方式是在正确的时间出现在正确的地点(假设你足够聪明可以识别到这个机会)。预见市场的发展是另一种方式,而创造市场则是成功的另一条路径。Nvidia在AI领域做到了这一切,甚至更多。
在大型语言模型(LLM)、Transformer和生成式AI大行其道之前,Nvidia就已经开始了当时所谓的“加速计算”或GPU计算,并使用其CUDA C++类似的编程语言作为催化剂和通道,来利用GPU的并行处理能力。GPU是复杂的设备,让多个数据线程正确且同步地运行是一个棘手的过程。CUDA减轻了很多这方面的工作,而且回报非常好,以至于大型组织中的数百名开发者利用它建立了一个庞大的专有和开放程序库,这些程序运行在Nvidia的GPU上。
当生成式AI出现时,已经有了大量的CUDA程序员。这部分归功于Nvidia在2000年代末的远见,在全球大多数主要大学设立CUDA编程课,并由Nvidia承担费用。这是一个大胆的投资,而且得到了丰厚的回报,这也是创造市场概念的一部分。
Nvidia还雇佣了许多AI领域的超级明星,尽管当时他们在AI业务上并没有很多,但公司投资于未来。这是预见市场的一部分。
Nvidia已铺垫好一切,而生成式AI就这样飘然而至。此后每次都是如此。市场就在计算机社区前面发展,几乎在其他人识别到这个巨大机会之前,Nvidia就拥有了它,在正确的时间出现在正确的地点。
Nvidia拥有90%或更多的AI训练市场以及基于云的推理市场,通过基于云的LLM支持。他们拥有大量的工具和示例库,以及26,000名员工和该领域的科学领军人物。有人能赶超Nvidia,并向其发出挑战吗?
要追赶Nvidia,仅仅开发独特的AI处理器是不够的。那么为自己的处理器开发一个类似于CUDA的东西,并将其提供给开发者,会是超越的诀窍吗?可能是,而像OpenCL这样的东西确实存在。
任何专用设备都无法与Nvidia的规模经济竞争。Nvidia将GPU销售给游戏玩家、汽车客户、工程师、超算中心、电影制片厂以及AI研究人员和开发者。Nvidia提供每FLOP的最低成本,并且提供多种封装和系统。是的,专用的特定应用处理器总是会超过通用处理器的性能。但是,特定应用处理器在价格上无法竞争,无法与通用处理器的发展速度相匹配,尤其是像GPU这样的处理器。
简单算一下,Nvidia拥有26,000多人。一个初创公司有多少人?可能100人,最多也许500人?Nvidia已经从事GPU业务超过23年,他们拥有无数的经验、人脉、资源和资金。Nvidia还拥有某些需要时间,甚至多年时间才能获得的东西,即软件、软件工具、库,以及成百上千的客户用GPU做出了Nvidia和其他人没预料到的案例,但这一切都回到了Nvidia。
Nvidia已经这样做了十多年。他们的游戏AI软件,称为DLSS(Deep Learning Super Sampling),已经彻底改变了游戏行业,并迫使AMD和Intel处于追赶模式。目前已有500多款游戏在使用它。这至少带来了两个结果:一个是庞大的用户体验,可用于调优和开发改进版本和功能;另一个是客户忠诚度。AI领域也是如此。
如何说服开发者支持自己?
那么,什么因素能激励潜在客户或现有用户为一款未知的AI处理器开发库呢?
客户关怀、对应用的专业知识,以及为特定应用精细调整的处理器。Nvidia拥有众多垂直市场的专家和领域专家,例如模拟、渲染、LLM、HPC、可视化等,但他们不可能为每个应用都配备专家,尤其是那些四五年才购买一次处理器的应用。因此,你会看到初创公司吹嘘他们在非常深奥的应用领域取得了设计胜利。这是没问题的。从Nvidia的角度来看,这反而消除了低容量、购买频次低的干扰。
Nvidia现在无疑是华尔街的宠儿。Nvidia面临的挑战将是找到新的AI应用。医疗领域可能是AI的主要市场,那里沉淀着几十年的研究和病人监测数据。其他大型应用包括重新审查从卫星到地震的地球物理数据。物流也为AI提供了巨大的投资回报机会,这与数字孪生和机器人技术紧密相关。因此,Nvidia的可用市场总量(TAM)相当大,他们面临的问题将是决定追求哪些领域。但他们有许多聪明人在思考这个问题。
AI处理器初创公司应该做些什么来获得一些支持?尽可能远离Nvidia。找到Nvidia尚未渗透的细分市场,这是对初创公司AI意识的真正考验。如果他们找不到这些细分市场,说明他们对市场的了解并不充分,不应该浪费投资者的资金,因为他们不知道客户是谁,这些硬件永远不会被购买。
对于初创公司来说,局势本来就不利。首先,大公司喜欢与大公司打交道。他们希望有一个财力雄厚的供应商,一旦出了问题,至少他们可以起诉供应商。他们还希望能够一直为他们提供支持。对于大公司和有长远眼光的政府机构来说,初创公司风险很大。
AMD和Intel
那么,如果初创公司无法真正与Nvidia竞争,谁能呢?另一家大公司,比如AMD,或许还有Intel。
AMD刚刚宣布了一系列从上到下的AI产品,直接面对Nvidia,并在许多测试案例中超越Nvidia。该公司表示,新款MI300X GPU超过了Nvidia H100的速度,具有2.6 petaFLOPS的FP8性能。不仅如此,AMD还与Nvidia的所有合作伙伴建立了稳固的合作关系,因此它们是久经考验的实体。
Intel也潜伏在暗处,准备推出自己的AI处理器、软件和服务。Intel已经建造了超级计算机GPU计算加速器,并且还有更多在开发中。Intel还拥有一些像Gaudi2这样的ASP AI加速器,用于深度学习,以及开放的软件和工具。Intel知道并且被计算机行业中的每个人所熟知。
市场已经成熟。Dell亚太及日本区总裁Peter Marrs最近评论说,买家不会容忍Nvidia交付GPU的漫长周期,这使得新玩家有机会进入市场。
AMD的Lisa Su表示,买家不必等待,我们已经准备好了。她在最近的一次演讲中说,“AI绝对是AMD的首要任务”。
像Amazon、Google和Microsoft这样的公司已经构建并正在构建自己的ASP AI加速器。它们按分钟出售处理器时间,并将为自己的处理器提供更优惠的费率,同时仍然提供AMD和Nvidia的G(PU)aaS GAI GPU。
那么,当所有大公司聚集在一起,满足当前对GAI加速器无法满足的需求时,初创公司的机会何在?
生产晶圆级WSE-2芯片的初创公司Cerebras有了一个良好的开端,它获得了一个价值1亿美元的超级计算机集群“Condor Galaxy”的建设协议。Cerebras希望为总部位于阿联酋的G42(Group 42)建造九个设施,总成本为9亿美元。
另一家备受瞩目的生成式AI加速器初创公司Tenstorrent透露,Samsung将代工生产Tenstorrent基于RISC-V的处理器。如果Tenstorrent提供完全开放的RISC-V ISA,那么他们将带来通用AI处理器,而不是像Cerebras、Google或Intel那样的特定应用处理器。这将使他们直接面对Nvidia和AMD的竞争。
还有其他AI处理器初创公司,包括Hailo,它为边缘AI应用提供神经学习处理器,以及Axelera AI,后者提供基于硬件和软件的平台,加速边缘AI推理。大约有十家公司提供某种类型的ASP AI处理器。
在AMD创立之初,IBM、Amdahl和Intel是当时王者,挑战他们看起来是非常愚蠢的。当Nvidia刚开始时,市场中已经存在着包括IBM在内的十几家图形处理器公司,挑战他们也被认为是愚蠢的。Intel是在强大的Fairchild之下起步的,同样也被认为是愚蠢的。
那么,初创公司挑战Nvidia的机会是什么?没有,因为这是非常愚蠢的,直到它变得不再愚蠢。