国产CPU的发展壮大一直是一个厚重的话题,厚在深远的战略意义、复杂的技术积累,重在自主创新的挑战、产业生态的构建。
“做一款有竞争力的CPU,面对的生态壁垒非常高,需要的人才密度特别大,所需要的资金体量也很大,产品导入周期很长”,此芯科技创始人、CEO 孙文剑日前在发布首款AI CPU时说道,“CPU正在经历一场巨大的历史变革:普通CPU变革为AI CPU,封闭生态变革为开放生态,高能耗CPU变为高能效CPU。我们相信,在这场CPU产业变革中,中国一定会诞生一家优秀的AI CPU企业,成为全球信息产业当中不可或缺的一环。”
日前,此芯科技在上海召开发布会,聚焦AI PC领域,发布了首款异构高能效CPU此芯P1。此芯P1采用6nm制造工艺,异构集成了CPU、GPU、NPU,综合AI算力可以达到45TOPS,可以运行10B参数以内的端侧大模型,运行大语言模型可达30 tokens/s。
此芯科技创始人、CEO 孙文剑
为什么选择CPU赛道创业?
成立于2021年的此芯科技,专注于开发智能CPU芯片及高能效算力解决方案,创始人及核心团队拥有在国内外市场进行芯片设计、软件生态和终端应用的丰富经验。
为什么选择这条赛道进行创业?孙文剑表示,首先,国内芯片产业发展多年,已在多个领域取得突破和成就,但在CPU、GPU等关键技术领域仍未完全掌握;其次,传统CPU市场存在强大的生态壁垒,但是,开放式生态系统提供了打破封闭生态的可能,并且AI的发展和对变革的追求,促进了新产品的开发和市场多样化,也带来了创业机会;第三,Arm架构在高性能计算领域的潜力逐渐被认可,为国产CPU发展提供了新的方向;第四,AI PC作为新兴赛道,为新玩家提供了利用Arm架构产品优势与传统厂商竞争的机会。
他强调,当前背景下,基于Arm架构的产品更能凸显其优势。据了解,此芯科技是Arm全球为数不多在PC领域紧密合作的伙伴。现阶段和Arm在CPU IP层面的合作对公司产品和客户是最优解,因为Arm在CPU架构上有很强的技术积累,正在从低功耗移动计算架构向高能效AI 计算架构升级,此芯科技可以借助Arm的路线图升级,确认更适合AI PC产品的IP。同时在软件层面,在GPU图形渲染上,此芯科技也投入了很多精力并得到了Arm的大力支持。
“未来,我们有进行指令集层面合作的想法,CPU、GPU、NPU是我们的核心竞争力。我们将会根据资源有序投入,CPU内核自研是我们的战略目标”,孙文剑补充说。
此芯P1——是CPU,也是端侧AI异构SoC
此芯P1采用6nm制造工艺,提供丰富的AI异构计算资源、全方位的安全引擎、多样化的外设接口以及多操作系统支持等特性。多媒体引擎支持4K120帧显示、8K60帧视频解码以及8K30帧视频编码等。
为了支持高性能架构,此芯P1高性能访存子系统配置128bit LPDDR5低功耗内存,容量可达64GB,数据传输率可达6400Mbps、带宽可达100GB/s。同时,具备高效的功耗管理,提供精准的动态调频调压、多电源域和动态的电源门控、标准的PC电源工作模式。
核心CPU部分,以Arm大小核(big.LITTLE™)技术设计,8个性能核4个能效核,主频最高可达3.2GHz以及针对PC场景优化的多级缓存设计;同时,集成2个SVE2向量加速单元,实现机器学习指令增强。
集成GPU提供10核GPU处理器,满足桌面渲染和通用AI计算需求。新一代硬件光线追踪,媲美主机级别的游戏体验;新型几何图形处理流程(延迟顶点着色DVS),实现功耗节省40%以上,以及灵活的可变速度着色(VRS),实现性能提升50%以上。同时,面向多场景的桌面GPU软件栈,满足行业应用需求。
此外还有异构AI引擎,提供45TOPS端侧AI异构算力,支持100亿参数以内端侧大模型部署,运行LLM可达30tokens/s以上,面向计算机视觉、自然语言处理、生成式AI等多场景提供端侧AI支持。
此芯P1是一颗CPU,也是一颗带有强大端侧AI处理能力的异构SoC:
从算力引擎来看:CPU内置的SVE2,也就是第二代可扩展向量加速引擎单元,以支持新的AI指令,增强高性能的计算能力;内置的GPU支持OpenCL和Vulkan加速,CPU单独的NPU算力可以达到30TOPS,专用的算力对于视频、音频的处理更加高速、高效。
据介绍,针对SVE2向量扩展,此芯科技已经完成了多种开源大语言模型的适配优化,比如Llama、通义千问等端侧大模型。在Prefill阶段,SVE2带来了32%到2.3倍的性能提升,在Decode阶段,SVE2可以带来27%到42%的性能提升。后续也将继续引入Arm的AI加速库,结合GPU和NPU的异构算力,进一步加强端侧大模型的支持。
“端侧大模型优化空间非常大。优化适配的关键在于底层芯片、操作系统和基于大模型的上层应用三个层面。对于我们来说,使芯片能够高效运行友商的大模型,就成为竞争优势之一”,孙文剑表示,“和操作系统、大模型适配是我们生态建设很重要的环节。适配过程中能看到彼此改进的空间,从而进一步提升效率、能效。”
全栈创新,赋能多形态终端
基于CPU+GPU+NPU的异构架构,此芯科技确定了“一芯多用”的发展战略,面向全球与本土双市场,构建端侧AI生态。
此芯科技联合创始人、系统工程副总裁褚染洲还介绍了“三融”策略,即融合x86、Arm两大架构优势,融入PC产业朋友圈,融通AI的世界。基于“三融”策略,此芯科技推出P1芯片的AI PC平台解决方案,具备可扩展异构计算、支持多模态人机交互、高带宽存储、平台级安全盾等特点。
此外,此芯科技AI PC平台解决方案支持包括Video-In/out、GMAC/Ethernet、HDA/I2S等在内的丰富接口,为全域普惠AI提供了基础。
同时,基于“一芯多用”战略,此芯P1将推出多种规格,支持AI终端的多种产品形态落地。作为PC产品成本的要素之一,PCB类型关系到SMT制程复杂度和良率。此芯P1平台解决方案能做到8-12层,通孔、高密度板PCB全类型的支持。
在软件创新方面,此芯科技专注于启动固件、内核、图形加速和AI方案四大方向。
此芯科技联合创始人、软件工程副总裁刘刚介绍到,在启动固件层,实现了一套固件支持多个操作系统;以及一套Linux内核支持ACPI和Device Tree两个规范的突破;为了让Arm GPU在PC端达到同样极致的使用体验,此芯科技自主设计了此芯GO图形引擎,通过应用兼容层和核心驱动层的原创优化,适配主流桌面环境,支持OpenGL标准;面对端侧生成式AI部署的挑战,此芯科技计划推出NeuralOne AI软件栈,提供异构AI加速器支持,NeuralOne将提供统一的API来简化应用程序编程,隐藏硬件细节,降低开发难度。
针对模型和推理框架的碎片化,此芯科技将提供统一的SDK,支持多引擎和广泛的模型格式。
生成式AI时代,算力底座的演进方向?
谈及生成式AI时代整个算力底座未来的发展方向,孙文剑认为异构设计会进一步演化,而且会产生不同的异构算力底座。需要在有限的功耗条件下,根据客户需求、场景需求对不同组件的算力进行权衡和调整。
此外,此芯科技的"一芯多用"战略,意味着它可以跨足PC、汽车、云计算等多个领域。如何看待跨域的通用芯片和专用芯片的竞争?
孙文剑认为,对于出货量不大的垂直领域,专用芯片的高设计成本和制程难以通过商业闭环来支撑,而通用芯片具备灵活性和成本效益等市场优势。
而智能座舱和PC在功能需求上有很多相似之处,如操作系统运行、GPU渲染、AI处理等,这使得芯片可以复用;MR设备需要强大的CPU、GPU和NPU能力,通用芯片也可以满足;并且对于有特定功能要求的工业计算平台,通用芯片也适用。
“通过构建丰富的软硬件开放生态,此芯科技希望为开发者赋能,持续探索端侧AI场景。我们芯片的丰富功能,能够满足客户多场景的需求;另一方面通过多场景落地,产品的销量增加,摊薄产品研发费用,为客户带来高性价比产品体验”,孙文剑强调。