作者 | 程茜,编辑 | Panken
龙芯3A6000实现主IP全自研,将开放CPU IP核授权,不收版税。
芯东西11月28日报道,今日,国产CPU企业龙芯中科自主研发的新一代CPU 3A6000发布,这也是我国国产CPU领域的最新里程碑成果。龙芯3A6000采用龙芯自主指令系统龙架构(LoongArch),是龙芯第四代64位高性能微架构LA664的首款产品,且主要IP核均自主研发,采用成熟工艺生产,主频达到2.5GHz,支持多线程技术,全芯片共8个逻辑内核。
该CPU采用全自研高性能DDR4接口,访存效率超过80%,动态频率电压调节能效提升,相比于上一代龙芯3A5000,相同频率下整数通用性能提升60%以上,多核性能翻番。龙芯中科技术股份有限公司董事长胡伟武称,3A6000的性能已经达到十代酷睿四核处理器水平。他谈道,龙芯中科要构建独立于x86和Arm的第三套新型信息技术体系和产业生态。
在第三季度业绩说明会上,胡伟武还提到:“我们正在努力提高每GHz性能接近或达到苹果CPU的水平。”他还透露,“3B6000将争取每GHz的性能再提高20%-30%,在此基础上用先进工艺提高主频。”
同时,龙芯中科推出了打印机主控芯片龙芯2P0500,这是国内首款基于自主指令系统的打印机主控芯片。
01.将自主化优势转化成技术优势性能追上十代酷睿四核处理器
当下全球的信息产业构建在西方主导的x86体系之上。胡伟武谈道,2021年我国硅上工业企业利润率为6.8%,其中电子工业利润率为5.9%。2021年我国电子工业的利润总额为8283亿元,苹果一个公司就达到946亿美元。
胡伟武谈道,CPU和操作系统是信息产业的底座,但还有更底层的根技术被卡脖子,比如指令系统、芯片生产工艺和设备材料等。
国内很多CPU都是基于Arm,操作系统都是基于安卓等,胡伟武认为,我们要将自主经营到底,把底层的根技术做起来,不依赖国外授权和供应链,只依赖人力资源和矿产资源。
因此,龙芯中科要构建独立于x86和Arm的第三套新型信息技术体系和产业生态,其自研的指令集架构龙架构就是第三套体系的基础。
龙芯中科有三大系列CPU产品,龙芯3号CPU系列是面向桌面、服务器应用,龙芯2号SOC系列,面向工控和终端应用,龙芯1号面向的是嵌入式专门应用。
胡伟武称,龙芯的主要IP核均自主研发,目前龙芯的软硬IP核数量已经有上百种。下图中,龙芯3A6000结构图中4个方块就是4个核,标红的就是3A6000用到的IP。其中,PCIe的IP为自主研发,可以做得很小并且成本更低,这也是自己做IP的好处。
3A6000有4个物理核和8个逻辑核,主频2.0GHz到2.5GHz,还有片内集成安全可信模块,支持安全启动和国密算法。
首先,3A6000采用龙芯第四代64位高性能微架构LA664,这一架构有两个特点,首先是大幅提升性能,其次是实现了同时多线程技术。胡伟武透露,龙芯的芯片是一个套壳加Tock+Tick,基于第二代GS464E,3A3000性能提升1.6倍。
龙芯3号系列芯片按照Tick-Tock路线发展,Tick指的是工艺节点的增强,Tock指的是微体系结构的增强。
第三代架构是GS464V、LA464,与3A3000相比,3A4000工艺没变,通过结构优化性能提高了两倍,3A5000采用更先进工艺性能提升了1.5倍。
3A6000采用的是第四代架构,使得CPU在相同工艺下性能比上一代产品大幅提高。根据电子四院的报告,3A6000单线程通用处理性能提升60%,多进程通用处理性能提升100%。
定点单线程的性能分数是43分,CPU 2017的单线程性能是5分。
CPU执行指令的过程中,由于指令供给不及时等,存在空闲指令。同时多线程就使得CPU核心“一心二用”,也就是在单位时间内执行多个线程的更多指令,3A6000性能在相同工艺下相比上一代产品大幅提高。
3A6000的性能达到十代酷睿四核处理器水平,2.5GHz的龙芯3A6000和3.6GHz的酷睿i3比较数据如下:
胡伟武称,龙芯中科走出了一条基于成熟工艺,通过设计优化提高性能的道路,标志着在弱一点的工艺条件下,与英特尔、AMD等的产品性能可比。下一步龙芯中科将继续基于成熟制程研发,达到英特尔先进工艺的性能。
2013年,胡伟武就在反思,中国CPU和国外先进水平的主要性能差距在什么地方?是通用处理能力不行、还是专业处理能力不行?是单核性能不足还是核数不够?是设计能力不行还是工艺不行?
他认为,刚刚提到的43分,就相当于3A6000“研究生毕业”。并且当时龙芯3A1000主频差距在2-3倍,每GHz性能差距为4-6倍。
目前,龙芯中科已经完成了通用处理性能技术补课,十代酷睿是2020年的产品,胡伟武称,现在很多人电脑上还用的是八代、九代酷睿,今年龙芯中科推出的3A6000已经达到市场主流水准。
龙芯中科已经完成龙芯3C6000设计,龙芯3C6000采用单硅片16核32线程,通用处理性能成倍提升,内存采用DDR4-3200x4,访存带宽比上一代3C5000成倍提高。
此外,3C6000通过龙链技术实现了片间互联,实现LS3D6000双硅片32核64线程、LS3E6000四硅片64核128线程,支持GPGPU、各类加速器扩展。
胡伟武认为,龙架构指令系统是龙芯的一个贡献,片间互联就是龙芯的第二个贡献,未来,龙芯中科都会开放。
龙芯中科突破片间高速互联技术,对标的是nVLink、CXL,这也是破解Chiplet技术的关键。片间互联可以大幅降低延迟提高带宽效率。
在GPGPU方面,龙芯第二代自研图形处理器LG200有图形加速、科学计算加速、AI加速三个功能,右边是GPGPU的结构图。
龙芯中科将基于2K3000的GPGPU技术及3C6000的龙链技术,研制专用GPGPU芯片。胡伟武认为,由本次发布的桌面处理器龙芯3A6000、在研服务器处理器龙芯3C6000和移动桌面终端处理器2K3000构成的龙芯“三剑客”已具有一定开放市场竞争力。
02.自主化优势转化为软件生态优势三大阶段完成生态建设
指令系统是软件生态的基础,2020年,龙芯中科推出龙芯指令系统结构LoongArch,简称龙架构或LA架构,完成了自主知识产权评估。
胡伟武透露,构建龙架构软件生态分三个阶段。
首先是夯实基础,龙芯中科的架构已经得到国际开源软件认可,开发者可以完全基于龙架构的国际开源软件直接构建出完整的操作系统。其次,该框架得到了国内操作系统和基础应用的认可和支持,目前支持统信、麒麟、欧拉、龙蜥、开源鸿蒙等操作系统,支持WPS、微信、QQ、钉钉、腾讯会议、美团等应用。
第二要克服Linux生态碎片化的特点,实现不同分支及版本的应用兼容。龙芯平台支持不同版本不同分支,如麒麟的应用在统信上可以跑,统信的应用在麒麟生态上也可以跑。
龙芯中科已经升级完成,目前正在做广泛兼容,在龙架构上运行x86、Windows应用,但不能运行Windows,还有运行安卓应用。
第三是自主应用。胡伟武称,龙芯中科要推出自主编程框架,就像安卓、iOS等一样有自己的应用平台。
在广泛兼容方面,通过二进制方案运行x86应用,龙芯中科要架起两座桥,一个是把x86的指令翻译成龙架构指令,一个是把Windows接口翻译成Linux接口。
龙架构的一大优势就是可以自由加指令,将不侵权的功能类似的指令加进去,翻译时就相当于英文翻中文。
打印机驱动是Linux的一大难题,多数打印机只有Windows驱动,没有Linux驱动。现在龙芯架构可以支持95%以上的打印机。
通过二进制翻译运行x86应用,龙芯生态可以运行绝大多数x86和Linux应用,用户体验流畅,对于x86/Windows应用可以大量运行。龙芯下一代处理器将完善对二进制翻译的支持,如x87的80位浮点指令。
03.构建独立于x86和Arm之外的生态体系
3A6000性能达到市场主流产品水平,龙芯架构的基础软件生态基本建成,龙芯中科要构建独立于x86和Arm体系的自主信息技术体系。
为了加强生态体系建设,龙芯中科要与合作伙伴共建。首先解决做龙架构芯片企业少的问题,龙芯中科将CPU IP核开放授权,且不收版税。未来,龙架构指令系统也会开放授权。
胡伟武演讲前面提到一个问题,龙芯CPU最自主所以性能低生态差?他的答案是,龙芯CPU最自主,所以性能最高。原因在于自主研发的CPU没有天花板,产品可以在市场实践中不断迭代,3A6000就是个例子。他补充说,龙芯CPU软件生态最好,理由是自主生态只能靠自己建,靠跟着走没有前途。因此,龙芯中科要将自主化的优势转化为性能和生态优势,与x86和Arm体系三足鼎立,形成新型信息技术体系和软件生态。
04.结语:自研CPU任重道远
以通用CPU、GPU为代表的计算芯片是算力的基石,是计算系统和信息基础设施的核心,当下核心技术受制于人是我国产业发展最大的隐患。近年来,以龙芯中科为代表的企业推动核心技术突破,使得国产芯片性能持续提升,供应链的可持续性、生态完备性上也取得进步。
此次,龙芯中科正式发布龙架构,并开放了IP授权,同时,国产操作系统、应用软件的协同发展,将加速国产CPU生态建设。面对新一轮科技革命和产业革命加速演进,以龙芯中心为代表的国产玩家正在通过自主研发、创新突破一步步探索芯片研发的天花板,推动国产CPU性能和成熟度不断提升。