作者:畅秋
最近,中国本土服务器芯片出现两大亮点:首先,RISC-V又进一步,特别是以山东大学部署的采用 RISC-V CPU的服务器为代表,十分引人关注;其次,基于自研架构的高性能芯片继续取得本土客户的认可,凸出代表就是华为和龙芯自研的CPU,特别是华为的服务器芯片,市场接受度进一步提升。
01中国RISC-V芯片和系统进展
RISC-V指令集架构是免费、开源的,提供了一种更快、更便宜的芯片设计方案,而且,RISC-V的结构使其非常适用于处理各种应用和复杂计算需求的云原生环境。近些年,RISC-V对英特尔和AMD使用的x86架构,以及亚马逊、苹果、三星和高通等公司使用的Arm架构的威胁越来越大,虽然短期内还无法实现替代,但长期发展前景非常好。也正是因为如此,国内外多家厂商和科研机构都在RISC-V技术和产品研发方面加大投入。
在中国大陆市场,还存在减少对西方芯片技术依赖的问题,在此情况下,RISC-V的优势就更凸出了。
10月,山东大学部署了一个采用 RISC-V CPU 的服务器集群,该系统共有3072个核,有48个64位RISC-V CPU节点。阿里巴巴生态系统总监陈大伟在加利福尼亚州圣克拉拉举行的 RISC-V 峰会上发表演讲时表示,这是 RISC-V 集群在云端的首次部署,目前,该系统主要用于山东大学的教学和科研项目,部分功能也可用于商用云计算。
据悉,山东大学的RISC-V系统采用了Sophgo的SG2042芯片,该芯片主频为2GHz,缓存为64MB。系统支持 PCIe Gen 4 接口。今年早些时候,Sophgo发布了RISC-V芯片,阿里巴巴与该公司合作将Linux操作系统引入该服务器集群。不过,目前的RISC-V软件生态系统还比较弱,需要时间去培育。
目前,中国已经实现流片的RISC-V芯片主要采用110nm和28nm制程工艺,但相关产品和系统仅用于科学研究,未完全达到商用水平。
今年,中国科技部资助了多个RISC-V芯片的研发工作,许多大学和科研院所都开始专注于RISC-V芯片开发。
中国科学院 (CAS) 正在与阿里巴巴、腾讯和中兴通讯等中国本土顶尖企业合作开发名为“香山-v3”的RISC-V 芯片,同时,相关的新型操作系统也在开发过程中。CAS希望该芯片的性能能与Arm于2021年发布的Neoverse-N2服务器 CPU相当。据悉,中国相关企业和科研机构正在开发专门用于RISC-V芯片设计的开源EDA工具。
经过这些年的推广和积累,中国相关企业和科研机构已经成为全球RISC-V芯片和解决方案的主要贡献者。2022年,全球生产了100亿颗RISC-V芯片,其中,一半在中国制造。
02国际厂商在RISC-V方面的进展
十年前,当RISC-V问世后,迅速获得了包括苹果公司在内的国际芯片大厂的支持,最近几年,英特尔也很看好RISC-V的发展前景,并加大了投入。
如前文所述,RISC-V的软件生态系统比较弱,针对于此,英特尔的Codeplay软件部门发布了OneAPI套件,其中包括供开发人员在x86 PC上的模拟RISC-V环境中测试代码的工具。该套件的标志性功能是支持SYCL,它允许编码人员在不同的硬件架构上编译应用程序。该套件包括对英特尔 DPC++/C++编译器的支持,允许重新编译C++代码,可以跨多个硬件架构使用。
如果没有硬件和软件协同设计的架构,编码人员就会习惯性地使用x86和Arm系统。对此,英特尔的做法是:在芯片发布之前就提供Linux驱动程序,以确保硬件与最新版本的操作系统兼容。
开发人员还可以在类似Raspberry Pi的开发板或Milk-V、StarFive等公司的系统上测试 RISC-V代码,这两家公司都提供支持Linux的64位RISC-V系统。
目前来看,一些RISC-V软件包(如 Pytorch、GCC、TensorFlow和OpenJDK)可以正常工作,但尚未完全得到支持,近些年,对LibreOffice和Firefox等开源应用程序的支持正在建立过程中。厂商方面,谷歌正在加速对RISC-V上的AOSP(Android开源项目)的支持,这将是下一个架构规范的重要组成部分。
RISC-V服务器芯片制造商Esperanto Technologies和Ventana Micro Systems已经推出了用于云计算的芯片,其中,Esperanto 已将 Meta 的 Open Pre-Trained Transformer 模型移植到其RISC-V服务器上。不过,总体来看,这两家公司涉及软件支持和编程模型的产品和服务并不多。
负责开发和推进RISC-V标准的 RISC-V International正在研发架构规范,试图通过建立RISC-V软件生态系统(称为RISE),为RISC-V系统创建底层软件工具和中间件,该项目的支持者包括谷歌、英特尔、英伟达、高通、三星和 Ventana 等公司。
在欧洲,英特尔正在与巴塞罗那超级计算中心(BSC)合作,为超级计算机制造RISC-V芯片。BSC希望高性能RISC-V处理器能尽早商用,他们希望利用Chiplet(小芯片)技术,将RISC-V内核整合到Chiplet架构中,这正是英特尔的强项,未来,英特尔将会制造越来越多的Chiplet架构芯片,以增加设计灵活性,因为它能将CPU、GPU、I/O、内存、电源管理和其它电路功能放入同一个封装中。如果能将RISC-V与内存通过Chiplet架构封装在一起,则可以降低眼下的内存带宽瓶颈,从而拓宽RISC-V在机器学习应用领域的发展道路。
最近,Meta也推出了一款基于RISC-V架构的AI推理芯片。
由于中国已经是全球RISC-V产业的重要组成部分,因此,国际产业界一直在呼吁加强与中国的合作。RISC-V International首席执行官Calista Redmond表示:“健康的合作和竞争可以推动最先进技术向前发展。我想强调一点,正确的全球标准支撑着我们在历史进程中所见过的最重要的技术,无论是USB还是以太网,以及HTTPS等网络协议。这些东西可以创造公平的竞争环境,让我们能够创新。”
业界普遍反对政府对RISC-V开发与合作的限制和干扰,美国业界人士表示:“任何限制都只会减少美国对一项重要新兴技术的参与,同时巩固Arm作为现有嵌入式CPU垄断供应商的地位。”
03RISC-V距离规模商用依然较远
目前来看,RISC-V处理器在高性能计算领域的应用和研究依然处于探索阶段。软件生态系统、芯片、电路板和系统的可靠性问题并没有解决。除了技术,商业问题也很凸出。
目前,RISC-V处理器仅能满足嵌入式应用场景,对于高性能服务器来说,还无法承担那样的性能负荷,不要说服务器,就目前而言,RISC-V还不能满足PC的应用要求。
就目前的发展阶段和性能来看,RISC-V并不适合做高性能CPU。RISC-V标准指令集非常精简,32位基础指令是47条,64位基础指令是15条,基础指令共62条,加上并入标准的扩展指令,总数在300条左右,而Arm的指令数超过2000条,x86则更多。由于RISC-V的功能比较简单,用RISC-V和龙芯实现同样的功能(GCC编译器),RISC-V会比龙芯多用20%的指令。
虽然RISC-V允许拓展指令集,但这并不能解决一切问题,因为软件生态系统支持不足的话,单靠拓展指令集是远远不够的,因为商家自己拓展的不是RISC-V标准指令集,很容易产生碎片化问题,缺乏统一性的话,软件生态系统建设就会缺乏锚点,很难让一套软件生态满足所有拓展出的RISC-V指令要求。
04中国本土CPU新势力崛起
除了RISC-V处理器,近期,中国本土其它架构高性能计算产品也在不断突破应用极限,华为、龙芯等都有好消息传出。
2022年底,英伟达的高性能GPU芯片H100(全球人工智能应用系统的首选处理器)被禁止销往中国大陆,那之后,中国本土企业只能购买降低了内存带宽的版本,也就是H800和A800,但是,近期,这些降速版本的GPU也被禁售了。
在这样的背景下,华为自研的昇腾910和昇腾310处理器,特别是性能更高的昇腾910,及其最新版本芯片得到了越来越多中国本土IT系统设备和互联网大厂的青睐,订单量持续提升。这两款芯片是华为在2018年发布的,同期还推出了神经网络计算架构、开发工具包和跨AI的云训练框架。
今年8月,中国人工智能公司科大讯飞董事长刘庆峰高度评价了华为开发的处理器,将它比作英伟达的A100。刘庆峰表示,科大讯飞正在与华为合作进行硬件开发。当然,不止科大讯飞一家,有几家中国本土头部IT和互联网大厂都在与华为合作,开发高性能计算系统。
英伟达在2020年和2022年分别推出了A100和H100芯片,凭借多年的技术积累,以及先发优势,英伟达占据了全球AI芯片市场的最大份额,而生成式AI的兴起进一步巩固了该公司的行业地位。在生态系统方面,华为要想与英伟达竞争,最大的劣势是人工智能软件生态,这方面,英伟达已经非常完善了,需要后来者付出几倍的努力才有赶超希望。
近些年,华为也在建设自己的人工智能生态系统,被称为CANN。不过,据专家介绍,与英伟达的生态系统相比,华为在训练AI模型方面存在局限性,需要补的课还很多。
除了华为,龙芯是另一大看点。
近期,龙芯确认,将在11月底正式推出处理器3A6000,测试数据显示,3A6000的SPEC性能达到了英特尔10代酷睿4核处理器的水准。
虽然龙芯一直受到质疑,但是,其每一代处理器的性能提升确是肉眼可见的。这次,3A6000依然基于该公司自研的LoongArch指令集架构,工艺制程依旧是12nm,内核升级为LA664,也就是64位。3A6000为4核处理器,所以拥有4个LA664核心,支持128位向量处理扩展指令(LSX)和256位高级向量处理扩展指令(LASX)。
另外,3A6000的一个非常大的变化是首次支持同步多线程技术,也就是超线程技术,所以,3A6000实际为4C8T。频率依旧是2.5GHz,L3为16MB,支持DDR4-3200内存。
龙芯还推出了服务器CPU芯片3C6000和3D6000,以及具有较高性价比的桌面级CPU芯片2K3000,可用于上网本、工控、迷你主机等。
龙芯也在GPU方面发力,近期推出了9A1000,对标AMD 的RX 550显卡,计划在2024年第三季度流片。9A1000支持科学计算加速和AI加速。
05结语
目前,PC和手机应用发展已经达到瓶颈期,未来几年,主要拼存量市场,对增量市场已经没有什么期待了。因此,在处于成长阶段的中国大陆半导体市场,特别是各个系统必需的CPU、GPU等处理器,必需要以有巨大增量市场为主要目标,而高性能计算和AI的发展前景非常广阔。
在这样的大背景下,中国本土相关企业和科研院所正在加大对拥有较大发展潜力的技术领域的投入,这其中就包括RISC-V,同时,也不能放下自主处理器架构的开发,只有两条腿走路,一条充分与国际接轨,另一条立足于自主,才能在未来的竞争中拥有更多筹码。
中国本土企业之间,以及与相关的科研院所,也需要进一步加强沟通与合作,这样可以提升芯片和系统研发效率。