作者|Jimmy&浅土&大蓝
当地时间6月13日,CPU和GPU领域的“千年老二”AMD举行了新品发布会,推出最新强悍GPU,叫板GPU老大英伟达。
沉寂已久的服务器领域近乎开了场春晚,之所以这么引人关注,还是因为今年大火的ChatGPT将人工智能再度推上风口浪尖,英伟达GPU变成AI玩家们争夺算力的抢手金砖,A100价格从去年12月一路上涨,5个月价格累计涨幅达到37.5%,同期其阉割版的A800价格累计涨幅达20.0%。
最大赢家英伟达前不久股价破万亿美元,而在这场发布会的前几天,AMD股价涨近10%,给AMD追赶英伟达多了几分气氛的烘托。
作为人工智能领域的王者,英伟达站在巅峰多时。这次AMD专为生成式AI 打造的GPU会对原有市场造成影响吗?AI大火的时候,为什么很少见到AMD的身影?
01、1530亿晶体管!MI300对标H100
此次发布会上,AMD带来了Instinct MI300系列的产品更多细节和更新、第四代的Epyc产品的更新,以及预告了之后将推出全新DPU芯片。不过,最瞩目的还是当属用于训练大模型的最先进GPU Instinct MI300。
近期,AI热度不减,英伟达凭借最新的超算以及以H100为首的高性能GPU,成功夺下AI王冠。排名第二的AMD的CEO苏姿丰此前就曾放话表示,要从英伟达手中夺下AI王冠,此次所推出的MI300正是AMD抢夺AI市场的首轮攻势。
MI300系列是AMD为AI和高性能计算(HPC)打造的一系列最新APU加速卡,此次发布了该系列两款新芯片,MI300A是全球首款面向AI和HPC的APU,在设计上同时集成了CPU和GPU;MI300X是纯GPU版本,采用了8 个 GPU chiplet(基于CDNA 3架构)和另外 4 个 IO 内存chiplet的设计。简单来说,MI300A是“基础款”,MI300X则是硬件性能更高的“大模型优化款”。
MI300X是一款专门面向生成式AI推出的加速器,对标英伟达H100。这款加速器全部采用GPU,集成的晶体管数量达到了惊人的1530亿!并且,为了缓解AI大型语言模型 (LLM) 所面临的内存制约,AMD为这款芯片集成了192GB的HBM3,其存储带宽也高达5.2TB/s,可以处理的参数高达400亿。
和H100相比,MI300X的高带宽内存(HBM)密度,最高可达英伟达H100的2.4倍,高带宽内存带宽最高可达H100的1.6倍。也就是说,MI300X能运行比H100更大的AI模型。
苏姿丰现场展示了MI300X运行包括GPT-3、PaLM2等大模型的优势,并在单个MI300X GPU上运行拥有400亿个参数的Falcon-40B大型语言模型,让它写了一首关于旧金山的诗。这是全球首次在单个GPU上运行这么大的模型。大模型所需要的GPU越少,开发者的成本也越小。
另一款MI300A,号称全球首款针对AI和高性能计算(HPC)的加速处理器(APU)加速器,在13个小芯片中遍布1460亿个晶体管。它采用CDNA 3 GPU架构和24个Zen 4 CPU内核,配置128GB的HBM3内存。相比前代MI250,MI300的性能提高八倍,效率提高五倍。外媒seminalysis表示,“这是迄今为止市场上最好的HPC芯片,并将保持一段时间。”
AMD还发布了AMD Instinct 平台,它拥有八个MI300X,采用行业标准OCP设计,提供总计1.5TB的HBM3内存。
苏姿丰表示,MI300A已经出样,MI300X和八个GPU的Instinct 平台将在今年第三季度出样,第四季度正式推出。
02、大火的AI模型怎么不见AMD?
虽然AMD看起来并不像是慢半拍的样子,这几年动作也频频。去年推出了专为数据中心设计的MI200系列GPU,还拿下了Meta数据中心的订单。但今年ChatGPT大火后,被人热议的始终只有英伟达,连带着与英伟达GPU相关的服务器都在涨价,而英伟达也紧急向台积电追加订单,似乎它们也并未料到,这一波热度是如此来势汹汹。
所以AMD的存在感呢?
如果只从硬件方面看,AMD并没有比英伟达差多少,各种纸面参数对比,AMD也没有落下风。但从人工智能应用上看,或者说现在流行的大模型,硬件就只是基础。
我们常说人工智能的三要素:算力、算法、数据,芯片是算力的来源,算力的强与弱决定了你要耗费多少时间,或者你要耗费多少叠加算力的成本来完成训练模型,但很多时候软件层面的优化,会使效果事半功倍。
这就好比你玩游戏一样,硬件再好,优化很差,照样卡成PPT。
所以为了方便开发人员编程,英伟达和AMD都有自己的加速平台(CUDA和ROCm),而以此打造的生态,是它们之间差异的所在,也是这场大模型初期的博弈中,英伟达占据上风的关键。
CUDA是英伟达的一种通用并行计算平台和编程模型,它通过利用GPU的处理能力,可大幅提升计算性能。CUDA使英伟达的GPU能够执行使用C、C++、Fortran、OpenCL、DirectCompute和其他语言编写的程序。
在CUDA问世之前,对GPU编程必须要编写大量的底层语言代码,而CUDA可以让普通程序员可以利用C语言、C++等为CUDA架构编写程序在GPU平台上进行大规模并行计算,在全球GPGPU开发市场占比已超过80%。GPGPU与CUDA组成的软硬件底座,构成了英伟达引领AI计算及数据中心领域的根基。
AMD的ROCm是基于开源项目编写,其生态采取HIP编程模型,但HIP与 CUDA的编程语法极为相似,开发者可以模仿CUDA的编程方式为AMD的GPU产品编程,从而在源代码层面上兼容CUDA。所以从本质上来看,ROCm 生态只是借用了CUDA的技术,无法真正替代CUDA产生壁垒。
与ROCm的开源基础不同,CUDA的诞生就只是为了英伟达自家GPU服务,甚至它走在H100、A100等明星产品前,早在2007年英伟达就推出了CUDA,发展至今已经相当成熟,深受开发者的喜爱,目前主流的深度学习框架都使用CUDA,也就是说现在的AI大模型几乎都无法避开CUDA,所以训练大模型自然而然首先想到的是英伟达,而英伟达也基于此打了一套自家产品的组合拳,属于软件带领硬件发家致富。
但AMD没有机会了吗?并不是。
基于CDNA架构的AMD GPU是可以跑GPT大模型的,在这次发布会上,苏姿丰也展示了MI300系列跑GPT等大模型的效果,纸面参数也要高于H100。更重要的是,AMD在会上宣布了与Hugging Face建立合作关系。
Hugging Face是人工智能独角兽企业,在机器学习领域的开发者肯定不陌生。自从一家NLP公司转型成为一家即用型机器学习模型平台后,Hugging Face已经托管了10万个预训练模型和1万个数据集,有超1万家企业正在使用该平台构建机器学习技术。
AMD与它的合作无疑是在补齐生态上的短板,这也是AMD最难跨越英伟达的一道坎,毕竟英伟达已经苦心经营很久,AMD明显算是后来者,苦于没有应用案例,未来或许会有专门针对ROCm的大模型出现,只能说AMD终于在机器学习领域亮了剑。
03、GPU紧缺会缓解吗?会冲击英伟达的市场?
从长远来看,AMD会有一席之地,一方面整个通用GPU市场,除了英伟达就是AMD了,而机器学习只是个开始,未来人工智能和服务器及超算市场足够庞大,AMD有能力去争夺。另一方面,整个GPU及服务器市场已经出现供不应求的场面了,而下游应用企业不会坐以待毙,站在风口上,谁速度快,谁才有市场。
5月英伟达GPU的交期再次拉长,基本需要三个月或更长,部分新订单“可能要到12月才能交付”,就连特供中国的A800(A100阉割版)都在市场上被炒到10万一块,国内字节跳动等互联网大厂纷纷找英伟达下大单,争夺AI入场券。
在英伟达供应紧缺的情况下,自然会有人想用其他方式来实现,这不,微软已经找上AMD来合作开发人工智能芯片,目的就是为了寻找另一条路径,纵观整个通用GPU市场,大概只有AMD还有这样的潜力。
但短期来看,AMD不太会缓解现在GPU供应紧张的状态。
首先,MI300系列正式推出要等到下半年,甚至到第四季度,各种基准测试的结果都还没披露,实际性能到底如何还不知道。
其次,AMD使用的也是台积电的CoWoS先进封装。目前台积电的产能已经告急,英伟达和AMD合计占据了7-8成的产能,台积电预计到2024年底扩产到每月20000片产能,但光英伟达就要消耗预计一半的产能,AMD也在尝试为明年预订额外的产能,所以同样都面临着产能问题。
最后,训练一个大模型要耗费大量的时间和成本,业内分析,MI300的封装技术相当复杂,成本不见得比英伟达有优势,况且现在台积电产能紧缺,AMD供货能力有多少也并不清楚。要推出一个基于AMD架构的模型,并以此打开新的市场,需要一定的时间,还得有人愿意为ROCm生态贡献自己一份力。
发布会上,AMD并没有透露谁计划使用这些芯片,发布会结束后,AMD的股价不涨反跌,也反映了市场对AMD的情绪。
04、总结
目前英伟达拥有超过80%的市场份额,占据人工智能芯片市场的主导地位。国外主流媒体与分析师似乎不太看好AMD这次与英伟达的较量,他们认为,AMD不透露售价,也不透露客户,或许会让华尔街失望,虽然对于微软、亚马逊等急着用芯片的企业,AMD是不二的选择,但这并不意味着能抢走英伟达多少市场份额,
苏姿丰可能会回想起加入AMD后受到顾问质疑的时刻,就像此刻她面对整个华尔街质疑的时候一样。后来苏姿丰带领AMD走出低谷,从濒死到涅槃,她创造了一个神话。
在近期的福布斯采访中,苏姿丰说道:“如果你展望未来五年,你会看到AMD的每款产品都有AI的影子,它将成为最大的增长驱动因素。”
重生过后的AMD要翻越另一座大山,苏姿丰能再一次创造神话吗?