前一阵子,Groq芯片刷屏了,据说Groq芯片计算速度远远超过英伟达GPU,经网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。
Groq是一家成立于2016年的AI创企,据其官网介绍,LPU是一种专为AI推理所设计的芯片。LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。
当然,Groq也受到了广泛的质疑,主要的点在于,Groq LPU芯片相当于是去掉了HBM,而只是依靠SRAM来计算,Groq极高的速度是建立在很有限的单卡吞吐能力上的。要保证和 H100同样吞吐量,你就需要更多的卡,因此其实际成本并不低。
媒体热炒的话题,所谓Groq取代英伟达GPU的可能性,这个主题很吸引眼球,但其实是故弄玄虚,两者是不同类型的产品,不存在谁取代谁的问题。
正如Groq创始人Jonathan Ross强调的,Groq面向的是大模型推理场景,它只是一款推理用ASIC加速芯片,只能适用特定的模型,而且性价比也不高。
英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama 2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。
人工智能算力的主要两个应用场景:训练和推理。训练市场显然英伟达GPU已经没有对手,但推理市场的竞争才刚刚开始。今年早些时候,瑞银分析师估计 90% 的芯片需求来自训练,而这一推论到明年只会推动 20% 的市场份额。推理增长的速度可能比之前预期的要快。
尽管Groq的LPU在速度和成本上具有明显优势,但它目前主要针对的是推理任务,而不是模型训练。在AI领域,模型训练和推理是两个截然不同的过程,前者需要大量的计算资源和时间,而后者则更注重速度和响应时间。目前,英伟达的GPU在模型训练方面仍然占据主导地位,而Groq的LPU在这方面的表现尚不得而知。
Groq的创新点:
1、LPU 推理引擎,这是Groq创建的一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序提供最快的推理,例如 AI 语言应用程序 (LLM) )。它的核心技术其实是一个名叫TSP的微架构设计,全称叫做张量流处理器,Tensor Streaming Processor,TSP。
2、可扩展计算架构,比传统的GPU,GroqChip™ 1具有更简化的编程模型,更高的响应速度以及更可靠的执行。该芯片拥有多个特色组件,包括高速网络、数据交换器、指令控制、SRAM内存以及Groq TruePoint™矩阵,使其具备了强大的计算能力和灵活性。
3、编译器创新,公司开发了一种将LLM处理得像编写软件程序一样的方法,并设计构建了能在其上运行编译后LLM代码的芯片级硬件,编译器可以对程序执行进行精确控制,从而提高了执行效率,实现了“软件定义硬件”的机会。
Groq是否比英伟达GPU先进?是否能取代英伟达?是否能取得商业成功?
大部分看客可能只关心这些问题的结果,但我觉得这些其实并不是关键,关键在于,在英伟达如日中天的时候,有一家小公司八年磨一剑,敢于对业界霸主亮剑,敢于对英伟达说不,让大家看到说:“哦,原来英伟达并不一定是唯一的正确答案。”
也有资本愿意为其创新买单,支持其从应用需求的本源出发进行创新。至于Groq是不是能挑战成功,那要看天时地利人和,但AI芯片领域波涛汹涌,随着Groq的冒头,必然还会涌现出更多大量创新级别的产品。
反观国内的一波明星GPU,也是百花齐放红极一时,每家融资几十亿规模,似乎绝大部分只是在跟随英伟达、模仿英伟达、想成为英伟达,或者说想成为英伟达在国内的替代品,大量的资本也鼓励这么做,并在二级市场上热炒那些其实一点不相关的概念,至于我们这些公司,是否有意愿有能力在这个领域敢于投入真正的创新?哪怕是在架构或生态上有一点自己的想法?