作者:丰宁
在AI领域,GPU的主要应用场景有两个,第一个是训练场景,即利用GPU加速AI算法的训练。第二个场景是推理场景,即利用GPU加速AI算法推理。目前,国内高端AI场景中的GPU应用基本上都由英伟达的A800覆盖。
A800被视为是A100的“阉割版”。去年由于美国政府收紧对华出口管制,英伟达迅速推出数据传输速度相对较慢的A800,用来代替A100向中国出口,与此类似的还有更高端的英伟达H100和H800。
由于中国暂时没有能力提供用于云端AI训练的高性能GPU,因此A800迎来中国互联网巨头的青睐。
01全球芯片巨头,囤积GPU
据报道,中国的互联网巨头百度、腾讯、阿里巴巴以及字节跳动公司今年向英伟达下达的交付订单金额达到10亿美元,总共采购约10万张A800芯片;明年交付的AI芯片价值更是达到40亿美元。
可见,中国大型科技公司对于GPU采购非常急迫。不止国内企业,国外大客户对英伟达的A100/H100芯片需求同样非常强烈。
近来,社区广为流传的一张图“我们需要多少张GPU”,引发了众多网友的讨论。
根据图中内容所示:GPT-4可能在大约10000—25000张A100上进行训练;Meta大约需要21000张A100;Tesla大约需要7000张A100;Stability AI大约需要5000张A100;Falcon-40B在384张A100上进行了训练;Inflection使用了3500张H100,来训练与GPT-3.5能力相当的模型。另外,根据马斯克的说法,GPT-5可能需要30000—50000张H100。
面对如此强大的需求,英伟达的GPU陷入极度短缺。据外媒报道,供应链消息显示,在生成式人工智能需求高涨以及国际形势变化等因素影响下,英伟达专供中国市场的A800和H800 GPU价格持续攀升。7月中旬,英伟达代理商反馈,英伟达的A800 GPU单价涨至12万元,H800和H100报价也都超过20万。目前英伟达订单能见度已至2024年,以现在的排产进度,就连A800/H800都要到今年底或明年才能交货。
02产量瓶颈在哪里?
据tomshardware报道,英伟达DGX系统副总裁兼总经理Charlie Boyle出面澄清了该公司GPU产量问题的具体所在。Charlie Boyle表示,问题并非来自英伟达错误计算需求,或其制造合作伙伴台积电的晶圆产量问题。相反,制造足够的GPU来满足消费者和专业工作负载(比如AI)的瓶颈在于随后的芯片封装步骤。
英伟达的H系列GPU采用台积电的2.5D CoWoS封装技术,这是一种多步骤、高精度的工程流程,其复杂性降低了在给定时间内可以组装的GPU数量,这可能会不成比例地影响供应。马斯克也表示“GPU超级难得”。
因此,当人们使用“GPU短缺”这个词时,他们实际上是在谈论主板上某些组件的短缺或积压,而不是GPU本身。
在芯片成为可用的GPU之前,需要执行从芯片设计到制造的多个步骤。芯片设计阶段的问题可能会因设计疏忽而造成制造瓶颈,从而降低设计的良率。稀土金属或其他材料(例如最近受到限制的镓)的缺乏将影响长物流链中的其他步骤;材料污染、能源中断和许多其他因素也会造成影响。
但CoWoS的瓶颈问题可能比预想的更严重。台积电也表示,预计需要一年半(以及完成额外晶圆厂和扩建现有设施)才能使封装订单积压恢复正常。这可能意味着英伟达将不得不决定将哪些封装能力分配给哪些产品,因为它没有足够的时间和能力来封装所有产品。
不仅如此,为限制中国AI产业的发展,美国总统拜登在今年8月正式签署行政命令,限制美国企业未来在敏感技术的对华投资,涵盖半导体、量子计算和人工智能三大领域,预计将于明年实施。
产量不足尚且可破,倘若切断供应,极有可能使这些正在进行云端AI训练的大厂陷入困局,也正因此,这些科技巨头开始竞相囤积 A800 芯片。仍需重视的是,倘若A800/H800当真受到美国禁令的影响,中国本土芯片公司以及那些正在自研芯片的科技大厂是否有能力担此重任?
03运行大模型,国产GPGPU有哪些可选标的?
如今,美国实施新的许可要求,限制中国利用高端GPU获取先进计算能力,由于被限制的是近两年商用领域最先进的GPU产品,暂时没有可以全面替代的选择。因此,美国政府认为,切断中国从美国公司获取这些芯片的直接渠道,可以为中国人工智能的发展制造障碍,迟滞中国人工智能的发展,希望中国人工智能领域由此一蹶不振。
然而事实呢?事实是禁令一出美国企业的股票遇冷下行,生产类似芯片的中国企业的股票却呈现相反的上行态势。这也意味着作为美国企业战略竞争者的中国企业或许能够获得更大的发展空间。
其实从2019年开始,应用于超算领域的高端GPU售至中国就受到严格管制,但当时只是AMD产品受限,英伟达的产品并未受到影响,因此企业和消费者在产品端的感知也并不强。而这一次范围扩大之后,其主要应用场景除了超算中心之外,还包括云计算服务器、数据中心、AI训练等场景,许多互联网大厂也就受到了影响。
正因为有了前车之鉴,随着国内云计算以及互联网企业在云端存储、数据处理等方面需要的数据量越来越多,各大互联网公司、云厂商也在AI芯片领域进行布局。
2019年阿里推出人工智能芯片“含光800”,“含光800”是一款面向数据中心AI应用的人工处理推理芯片,采用台积电12nm 制程,这是一颗为AI场景深度定制的芯片,进一步提升了AI场景计算的效率。阿里曾表示,“含光800”是当时全球最强的AI芯片,性能和能效比均为第一,1颗“含光800”的算力相当于10颗GPU。目前已应用在阿里云的云服务器中,它能够优化电商智能搜索、智能营销等场景。阿里“含光800”虽然不对外售卖,但阿里云智能总裁张建峰也提到“含光800”将通过阿里云对外输出 AI 算力,未来企业可以通过阿里云获取“含光800”的算力。
百度也在2020年量产了第一代AI芯片——昆仑。百度昆仑1采用三星14nm制程工艺,目前量产超过2万片,在百度搜索引擎和百度智能云生态伙伴等场景广泛部署。百度昆仑2于2021年下半年实现量产,采用7nm先进工艺,其性能比百度昆仑1再提升3倍。据悉,百度正在做第三款昆仑芯片,将于明年的年初上市。
稍微慢一点的腾讯也在2021年发布了视频处理芯片“沧海”和AI芯片“紫霄”。字节在“2022 火山引擎原动力大会”上也正式确认了其在自主造芯方面的布局。目前,字节的自研芯片已经涉足视频平台、信息和娱乐应用等。
目前为止,国内互联网大厂的芯片研发方向都集中在云计算、视频图像处理等方面的专用或者通用芯片上。除了互联网大厂,国内也已经有一些GPU厂商源源不断的发布一些性能优异的产品。
目前全球AI计算芯片主要分为GPGPU、ASIC、FPGA三种架构。而被限制的A800和H800芯片就属于GPGPU架构芯片。目前能运行大模型训练的也只有GPGPU架构。
当前国内AI芯片主要厂商包括华为、寒武纪、海光信息、遂原、壁仞、天数智芯等,此外龙芯也在布局。其中,发力GPGPU芯片的包括海光、壁仞科技、沐曦科技、龙芯等等。
海光的深算一号采用的就是GPGPU架构,是公司DCU 系列的主要在售产品。
国内的厂商中海光信息从实际量产的技术上来讲是第一梯队,其深算一号可以用来运行大模型,在2022 年度实现了在大数据处理、人工智能、商业计算等领域的商业化应用。不过其整体性能只相当于英伟达P100的水平,大约是英伟达2014年的技术水平。不过,其深算二号、三号也处于研发阶段,海光称其产品性能在国内处于领先地位。
壁仞科技在2022年发布了首款GPGPU芯片BR100系列,性能方面超越英伟达A100。BR100 系列通用 GPU 芯片支持云端训练和推理,目前已经到了收尾阶段,正准备流片。壁仞科技的第二款芯片也已经开始启动架构设计,之后壁仞科技还将逐步推出面向智算中心、云游戏、边缘计算的GPU芯片。至于未来量产应用情况暂时存疑。还需重视的是,对于国内初创GPGPU公司而言,软件生态更为重要。目前国内的初创公司虽然在细分领域上有一定的落地,而真正在大模型训练上能有实际应用的还非常欠缺。倘若未来BR100的实际应用效果还不错,那么在软件生态上还需加把劲。
沐曦也是国内GPGPU的选手之一。沐曦公司旗下主要有曦思和曦云两款AI芯片,其中曦云MXC系列是该公司研发的用于AI训练及通用计算的GPU芯片。MXC500是沐曦对标A100/A800的算力芯片,FP32浮点性能可达15TFlops,作为对比的是A100显卡FP32 性能19.5 TFLOPS。除了性能接近之外,MXC500的完整软件栈(MXMACA)还兼容CUDA,预计年底规模出货。
龙芯目前暂无产品发布,目前进展为已经完成相关IP的设计,正在验证优化过程中,第一个集成自研GPGPU核的SOC芯片计划于2024年Q1流片。从流片到量产,如果按最快6—12个月来算,龙芯的GPGPU产品至少也要在2024年Q3以后才能发布,量产估计需要在2025年了。
另外,华为昇腾也十分被看好。华为的昇腾910也能拿来当训练芯片,其算力强悍,超英伟达的Tesla V100一倍。但是由于昇腾910依赖华为自身软件生态、需要华为深度优化及代码移植,通用性相对要差一些,且其采用台积电的7nm制程,在制造上也受到限制,因此暂不做过多讨论。
04英伟达是最优选,但不能视为唯一选
如今GPU缺口还在加速扩大,倘若A800/H800也受到供应限制,那么中国的云服务器厂商一定要提前谋划一条自主的发展路径。
中国AI芯片厂商正从原来强调算力和独特技术的倾向逐渐向针对特定应用场景而优化的方向转变。虽然微软、谷歌以及百度现在将AI拿来聊天画画,但不代表他们的AI不能做其他事情。当下让AI落地在民用市场不但能使厂商利用AI获得更多的收入,特别是微软、谷歌和百度都有不小的广告业务,另一方面让用户更直观的体验到AI,在民用市场采集更多的数据进行训练亦能反哺云端场景的应用。这个过程可能会长一点,慢一点,但是这也是一定要做的事情。
同样,倘若无法与中国进行贸易,美国企业也要承受巨大损失。A800和H800这些GPU就是英伟达为了绕过美国对中国施行的出口禁令所开发,以此维持其在中国市场的地位。英伟达此前透露,下半年他们能够供应更多的GPU,但是没有提供任何定量的信息。英伟达首席财务官Colette Kress此前在2023年2月至4月的财报电话会议上透露:“我们正在处理本季度的供应,但我们也为下半年采购了大量生产材料。我们相信下半年的供应量将大大高于上半年。”
对于中国的市场现状来说,英伟达GPU确是最优选,但长久来看并不能将其视为唯一选。