Groq芯片的创新意义

前一阵子，Groq芯片刷屏了，据说Groq芯片计算速度远远超过英伟达GPU，经网友测试，Groq每秒生成速度接近500 tok/s，碾压GPT-4的40 tok/s。

Groq是一家成立于2016年的AI创企，据其官网介绍，LPU是一种专为AI推理所设计的芯片。LPU的工作原理与GPU截然不同。它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据。

当然，Groq也受到了广泛的质疑，主要的点在于，Groq LPU芯片相当于是去掉了HBM，而只是依靠SRAM来计算，Groq极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100同样吞吐量，你就需要更多的卡，因此其实际成本并不低。

媒体热炒的话题，所谓Groq取代英伟达GPU的可能性，这个主题很吸引眼球，但其实是故弄玄虚，两者是不同类型的产品，不存在谁取代谁的问题。

正如Groq创始人Jonathan Ross强调的，Groq面向的是大模型推理场景，它只是一款推理用ASIC加速芯片，只能适用特定的模型，而且性价比也不高。

英伟达的GPU产品是通用的，而Groq的产品形态是ASIC，它不是通用产品，而是一个定制产品。简单点来说，任何一个人工智能算法都可以使用英伟达的H200，但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品，还需要先确定需求和指定规格，再进行功能验证，最后生产出来的产品才能使用。

人工智能算力的主要两个应用场景：训练和推理。训练市场显然英伟达GPU已经没有对手，但推理市场的竞争才刚刚开始。今年早些时候，瑞银分析师估计 90% 的芯片需求来自训练，而这一推论到明年只会推动 20% 的市场份额。推理增长的速度可能比之前预期的要快。

尽管Groq的LPU在速度和成本上具有明显优势，但它目前主要针对的是推理任务，而不是模型训练。在AI领域，模型训练和推理是两个截然不同的过程，前者需要大量的计算资源和时间，而后者则更注重速度和响应时间。目前，英伟达的GPU在模型训练方面仍然占据主导地位，而Groq的LPU在这方面的表现尚不得而知。

Groq的创新点：

1、LPU 推理引擎，这是Groq创建的一种新型的端到端处理单元系统，可为具有顺序组件的计算密集型应用程序提供最快的推理，例如 AI 语言应用程序 (LLM) ）。它的核心技术其实是一个名叫TSP的微架构设计，全称叫做张量流处理器，Tensor Streaming Processor，TSP。

2、可扩展计算架构，比传统的GPU，GroqChip™ 1具有更简化的编程模型，更高的响应速度以及更可靠的执行。该芯片拥有多个特色组件，包括高速网络、数据交换器、指令控制、SRAM内存以及Groq TruePoint™矩阵，使其具备了强大的计算能力和灵活性。

3、编译器创新，公司开发了一种将LLM处理得像编写软件程序一样的方法，并设计构建了能在其上运行编译后LLM代码的芯片级硬件，编译器可以对程序执行进行精确控制，从而提高了执行效率，实现了“软件定义硬件”的机会。

Groq是否比英伟达GPU先进？是否能取代英伟达？是否能取得商业成功？

大部分看客可能只关心这些问题的结果，但我觉得这些其实并不是关键，关键在于，在英伟达如日中天的时候，有一家小公司八年磨一剑，敢于对业界霸主亮剑，敢于对英伟达说不，让大家看到说：“哦，原来英伟达并不一定是唯一的正确答案。”

也有资本愿意为其创新买单，支持其从应用需求的本源出发进行创新。至于Groq是不是能挑战成功，那要看天时地利人和，但AI芯片领域波涛汹涌，随着Groq的冒头，必然还会涌现出更多大量创新级别的产品。

反观国内的一波明星GPU，也是百花齐放红极一时，每家融资几十亿规模，似乎绝大部分只是在跟随英伟达、模仿英伟达、想成为英伟达，或者说想成为英伟达在国内的替代品，大量的资本也鼓励这么做，并在二级市场上热炒那些其实一点不相关的概念，至于我们这些公司，是否有意愿有能力在这个领域敢于投入真正的创新？哪怕是在架构或生态上有一点自己的想法？

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA32A4U-AU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 44TQFP	ECAD模型下载ECAD模型	$3.78	查看
MKL02Z32CAF4R	1	Freescale Semiconductor	Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20	ECAD模型下载ECAD模型	$2.7	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下载ECAD模型	$29.61	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA32A4U-AU

Microchip Technology Inc

IC MCU 8BIT 32KB FLASH 44TQFP