作者:畅秋
11月6日,在创业三年,即将进入下一个三年之际,摩尔线程创始人兼CEO张建中给公司全体员工发了一封信。信中提到了很多关于过去三年研发工作的总结,以及未来发展规划的内容,不过,这封信的核心内容是:摩尔线程将进行一次岗位优化,也就是裁员。
对于这家中国本土新崛起的GPU芯片设计公司来说,最近几年的形势,使得摆在他面前的机遇和挑战都显得很凸出。
不仅摩尔线程,壁仞科技和沐曦集成电路也是近几年中国本土表现非常凸出的GPU芯片创业公司,再加上老牌的景嘉微,以及其它几家相关企业,把中国本土GPU技术和芯片产品市场热度推向了一个新高度,在主动与被动之间,取得了明显多于、快于2018年之前的成绩。
然而,在市场和美国政策的双重压力下,特别是近期美国政府将壁仞科技和摩尔线程列入了实体清单,使得它们设计出的芯片难以拿到先进制程产能,再加上市场寒冬,以及在生态系统方面与英伟达的巨大差距,生存和发展愈加艰难,裁员难以避免。
01GPU及生态系统建设
1999年10月,英伟达发布了GeForce 256,这是一款基于台积电220nm制程工艺、集成了2300万个晶体管的图形处理芯片。英伟达把Graphics Processing Unit的首字母“GPU“提炼出来,把GeForce 256冠以“世界上第一块GPU”称号,巧妙地定义了GPU这个新品类,并占据这个词的用户心智直到今天。凭借先发优势,不仅在芯片端,英伟达在GPU生态系统建设方面也是统治者,直到今天,也没有哪家厂商能够动摇它的根基。
GPU原本是为图像而生的,它把CPU从图像显示的苦力活中解放了出来,大量的流水线架构,使得GPU非常适合巨量、重复性的工作,自从GPU大规模应用以后,CPU就摆脱了这些原本由它负责的头疼工作,转而去做更擅长的指令判断和控制类的“大脑“型工作。
在发展的很长一段时间内,由GPU组成的显卡主要用于大型游戏、CAD制图和视频剪辑等图像处理工作,后来,随着应用和技术的发展,GPU又渗透到自动驾驶、医疗影像、金融模型、生物信息等多个领域。如今,GPU是人工智能(AI),特别是AI训练应用领域的明星,火遍全球。
发展了这么多年,GPU芯片赛道高度垄断,全球90%的市场被少数几家大企业占领,在集显市场,英特尔和AMD平分天下,在独显赛道,AMD、英伟达二八分成;在GPGPU(主要用于AI等高性能计算)市场,英伟达的市占率高达90%以上。
生态系统方面,2006年,英伟达推出了并行计算平台和编程模型CUDA,它让GPU拥有了解决复杂计算问题的能力,开发者们可以通过CUDA平台,更方便地调度底层的GPU算力。当前,CUDA拥有400多万开发者,大部分GPU和AI芯片创业公司的产品也都通过兼容CUDA来进入用户端。
为了追赶英伟达,英特尔于2022年发布了全新架构的第一款独立显卡,拥有超过一万名软件工程师的英特尔,在显卡发布后的一年里,其显卡驱动更新了21次,平均半年更新10版。
为了与CUDA竞争,AMD于2016年推出了开放的ROCm平台,不过,从目前的发展情况来看,ROCm的市场接受度和应用规模依然与CUDA有非常大的差距。
02中国GPU的发展近况
近些年,中国GPU取得了一些突破。
2019-2020年,中国本土出现了GPU、AI芯片创业热潮,壁仞科技、摩尔线程、燧原科技、沐曦集成电路、天数智芯等一批明星企业涌现出来,相关GPU芯片新品不断。
2022年3月,摩尔线程公布了首批显卡产品,包括面向电脑和工作站的MTT S60,以及面向服务器的MTT S2000。两张显卡都采用了第一代MUSA架构(Moore Threads Unified System Architecture,中文名为“苏堤”)。2022年11月,该公司公布了第二批产品,包括面向电脑和工作站的显卡MTT S80,以及面向服务器的MTT S3000,这两款产品采用了新一代MUSA架构“春晓”,并使用了PCIe Gen5插槽。
壁仞科技的高光时刻,是在2022年8月发布了首款GPGPU芯片BR100,并宣布该产品从800多个参选项目中脱颖而出,荣膺当年世界人工智能大会最高奖项SAIL奖。据悉,BR100峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录,还是国内率先采用Chiplet技术、率先采用PCIe 5.0、率先支持CXL互连协议的GPGPU芯片。
今年6月,沐曦集成电路宣布完成AI训练GPU MXC500的功能测算工作,同时,MXMACA 2.0计算平台基础测试完成。
据悉,MXC500是沐曦对标英伟达A100/A800的芯片,目标算力为FP32 15 TFLOPS(A100为FP32 19.5 TFLOPS),兼容CUDA,预计今年底规模出货。
以上这些厂商推出的产品,目标都是要夺取英伟达和AMD在中国本土的市场份额。然而,英伟达经历了30年的持续积累,才取得今天的成绩,中国本土GPU厂商不可能在5年左右的时间内研发出具有同样水平和市场影响力的产品。不过,如果中国GPU芯片能达到英伟达H100芯片性能的70%,也是很有意义的。接下来的重点工作就是本土GPU生态系统建设。
03中国GPU生态系统建设
比提升芯片性能更难的,是构建生态系统。英伟达不仅强在芯片硬件,更强在其软件生态CUDA,其GPU+CUDA,就像英特尔和微软构建的Wintel,后来者要想再创建一整套软硬件系统的成本非常高,而且非常难,不仅仅是钱的问题。假设投入和英伟达相当的人才和资源,以3倍的发展速度追赶,至少需要10年时间才能接近英伟达的水平。
以摩尔线程为例,理论上讲,无论是GPGPU,还是桌面级应用,该公司的产品性能已经达到了英伟达中端产品水准,但实际表现并非如此。以MTT S80为例,从游戏爱好者的测试结果来看,其早期实际性能接近GTX1050Ti,今年更新驱动后,性能可以媲美GTX1650,能流畅运行英雄联盟等网游,也可以跑4K游戏,但与RTX3060相比,依然有很大差距。
MTT S80强劲的硬件却难以发挥理论性能,关键问题就是软件适配,摩尔线程差的就是底层技术和驱动经验的积累。据悉,MUSA架构源于IMG的PowerVR,这也从一个侧面体现出该公司在GPU IP方面缺乏核心技术。
通过购买IP研发GPU是中国本土大多数厂商的选择,包括芯动、壁仞科技等企业都是如此。该模式能够以最小代价设计出商用产品,但是,芯片生产出来以后,软硬件打磨就要考验厂家的技术实力了,而这些软实力是没有地方购买的。
中国老牌GPU芯片企业景嘉微曾表示,做GPU,三分靠硬件,七分靠软件。英伟达在初期的产品性能也不好,还一度被ATI压制,后期的成功除了全新架构的助攻,驱动的打磨功不可没。
中国本土这些GPU芯片新星大多都想兼容英伟达的CUDA,但是,在驱动软件的适配上还差强人意,例如,早期的MTT S80只支持DX9游戏,虽然现在历经9次版本驱动更新后,能支持更高的DX11游戏,但是其性能表现远未达到硬件实际水平。
正是看到了差距,中国本土GPU厂商一直在生态系统建设方面增加投入。例如,今年,弘信电子与摩尔线程和燧原科技分别签署了《战略合作框架协议》,以打造人工智能软硬件基础设施。
目前,摩尔线程已经将大部分资源分配给软件,占比达到70%,重点关注元宇宙和AI。沐曦已与服务器OEM、大数据中心、互联网、运营商等行业客户建立了合作关系,并与众多知名高校和研究机构开展产学研合作,快速推进产业上下游生态系统建设。
04GPU的新动向
全球范围内,在已有基础上,GPU技术及其生态依然在向前发展,目前来看,有两点很值得关注:一是GPU与CPU的融合,二是RISC-V的融入。
GPU 比 CPU 简单得多;它可以更快地执行简单的指令,执行是并行进行的,这也是GPU与CPU的最大不同之处。然而,并非所有软件都可以轻松地并行化执行。CUDA生态系统旨在提供工具来构建可以利用GPU进行并行计算的软件应用程序,但是,大多数软件应用程序仍然需要CPU才能运行。
基于 CPU 的应用程序不仅更容易开发,而且大多已经构建完成。很难想象哪些公司会花费时间和精力将已经在 CPU 上运行的东西移植到GPU上。
目前,AMD、英特尔和英伟达都在CPU-GPU融合技术方面下重注。
2023上半年,AMD首席技术官Mark Papermaster表示,该公司将在2024年推出CPU-GPU 芯片,它将基于第4代Epyc架构的CPU内核与基于新一代CDNA 3架构的GPU结合在一起,也就是AMD近些年一直在宣传的APU概念。
英特尔的CPU-GPU芯片Falcon Shores具有x86 CPU内核和Xe GPU内核,成熟产品将在2025年量产。
下面看一下RISC-V与GPU的融合。
最近,Ventana Micro Systems与Imagination Technologies合作推出了基于RISC-V的CPU-GPU平台。
Ventana计划推出一个仿真模型,展示其基于RISV-C的CPU如何与Imagination开发的GPU协同工作。这次演示将结合Ventana的新CPU产品Veyron V2。据悉,V2将对RISC-V指令集架构进行增强,使其能与x86和Arm同台竞技。
目前来看,Imagination与Ventana的合作项目距离产品量产和规模化应用还有较大距离,但是,RISC-V CPU和GPU IP融合的可用性,可能会带来针对不同客户端应用的新一波RISC-V平台开发热潮。
从目前的市场和应用需求来看,RISC-V与GPU的结合是有基础的。
在一些垂直市场,例如5G/6G通信、AI推理和视频处理等,传统CPU已经无法满足这些应用的计算量需求,需要新计算方法的出现。对于图像处理来说,内存访问瓶颈问题已经非常凸出,需要新的解决方案,甚至是新的计算架构,看看市场上最近发布的一些人工智能和RISC-V产品,会发现一些公司发布的处理器里面有新的ISA,它们已经开始将RISC-V和GPU IP融合使用了。
通过指令扩展将GPU功能添加到RISC-V架构中很有创意,然而,二者融合这条路并不好走,最大的拦路虎就是架构融合,以及生态系统建设,需要的时间可能很长。要将RISC-V指令集改编成非常适合GPU任务的指令集,需要大量投资来定义ISA扩展,构建高度复杂的微架构,并对开源工具进行重大调整。如果将RISC-V指令集融入GPU架构,几乎所有RISC-V的固有优势都将被定制化稀释掉,另外,RISC-V核心ISA功能会限制GPU在特定领域的可用性。
虽然,有诸多挑战,但鉴于RISC-V迅猛的发展势头,以及其在高性能计算领域的渗透决心,与同样在高性能计算应用领域如鱼得水的GPU融合,前景还是很值得期待的。
不仅是国际巨头,中国本土GPU厂商,特别是更具前瞻性的几家创业公司,在发展GPU方面也需要研发更具竞争力的技术和产品,而在当下美国政府推出各种限制政策的大环境下,中国本土GPU芯片技术和生态系统建设可以拓展更多思路,将更多先进的技术和理念融入相关产品。在本土企业客户给出更多采用和试错空间的情况下,中国芯片企业或许可以加快追赶国际先进GPU的步伐。