2023年,万象更新,AI芯片产业亦恢复生机。
在生成式人工智能(AIGC)热潮的催化下,澎湃旺盛的研发和应用需求,令算力产业空前兴奋,连带着AI芯片产业也铆足干劲,蓄势待发。
作为构筑AI芯片大厦的“砖瓦”,神经网络处理器(NPU)的设计会影响AI推理的性能、能效、灵活性、易扩展性、安全性。智能计算的多元化场景,正在改变新一代NPU的设计理念。
冲在前线的安谋科技,刚刚交出新的答卷。
智东西3月28日报道,今日,国内头部芯片IP设计与服务供应商安谋科技推出其自研人工智能(AI)产品线的最新AI处理器产品——“周易”X2 NPU,将支持的算力提至最高320TOPS,针对车载、电脑、手机等特定场景做了性能优化,并正式发布NPU软件开源计划。
▲安谋科技“周易”NPU路线图
AI应用热潮日渐高涨,正值国际形势日益复杂,这些推力共同将国产AI芯片领入难得的历史机遇期。从降低设计成本、缩短开发周期、加速产品走向规模化落地等角度考虑,企业基于NPU研发加速AI计算的芯片需求预计将旺盛生长。
在愈发热闹的AI算力军备竞赛中,安谋科技的打法是一边通过本土研发创新抬高NPU的技术壁垒,另一边借助开源力量携手更多伙伴共建更好用的软件工具,以更开阔的视野来做大本土NPU生态。
安谋科技执行副总裁、产品研发负责人刘澍向智东西透露,除前述软件开源外,安谋科技后续还将逐步开放更多资源。合作伙伴在软件层面加入“周易”软件开源计划,硬件层面则兼容“周易”架构,以便企业基于“周易”架构开发全新NPU产品。这将催生更广泛的芯片设计创新。
目前,“周易”X2 NPU已面向客户正式交付,今年会有多款搭载该NPU的芯片产品面世。
01.ChatGPT带飞异构计算 如何影响终端NPU算力扩展?
发展通用人工智能是计算机行业一直以来的伟大梦想,而大模型与生成式AI取得的突破性进展,正以日新月异的速度缩短现实与想象之间的距离,也正重新制定AI芯片的规则。
“在应用层面,ChatGPT把数据处理的热度推向一个高峰。”安谋科技执行副总裁、产品研发负责人刘澍告诉智东西,ChatGPT的背后结合了知识图谱、数据库、数据收集和分析等一整套技术体系,开创了很多NPU在不同行业应用的窗口和前景,并带动NPU、CPU、GPU等多种异构算力的结合。
动辄参数规模上亿的AI模型大多训练和运行于云上。科研人员正在探索如何将它们放到性价比更高的终端硬件上。最近十几天,国内外研究人员已经成功实现用单张消费级显卡、苹果M1/M2芯片跑大型语言模型,展现了在性价比更高的终端硬件上运行认知智能的可能性。
近年来,智能汽车、AIoT等产业智能化进程提速。一方面,智能汽车、边缘计算、智能家居、移动设备等对AI处理图像分辨率的要求越来越高;另一方面,AI正与各行各业的典型应用场景相融合,并逐步向传统To B端产业渗透。
相比将所有计算放在云上,终端NPU处理能够降低数据传输造成的延时,节省大量开销。特别是对于视觉、语音等人机交互以及自动驾驶等对实时处理要求严苛的应用场景,终端NPU的发展是必然且必须的。
据刘澍观察,为了适应下游AI算法的发展,未来终端算力可能有两个发展路径:一是终端算力越来越强,终端算力的持续扩展是未来趋势,但会受限于成本和功耗;二是不断为终端裁剪网络,这是安谋科技长期在做的尝试,通过量化剪裁等措施将模型变得更小。
两者相互并进,通过将云端的算法模型优化到位,实现其在拥有更高算力的终端的部署。
沿着这些思路,安谋科技打造了能够兼顾多元化算力需求的新一代AI处理器“周易”X2 NPU。
▲“周易”X2 NPU概览
02.“周易”X2 NPU升级:更高算力、更多精度,支持差异化定制
“周易”X2 NPU基于第三代“周易”架构,支持多核Cluster,子系统最高算力可达320TOPS。
▲第三代“周易”架构的可扩展性
在精度方面,该NPU支持更多的浮点格式以及int4/int8/int12/int16/int32、fp16/bf16/fp32多精度融合计算,将计算效率与密度显著提升,从而更好支持通用算法。
在灵活性方面,“周易”X2 NPU在支持自定义算子、满足各种模型部署需求的基础上,还面向各类应用场景提供定制化AI解决方案,以进一步满足客户在智能驾驶、手机影像AI处理、人机交互等场景中的差异化需求。
▲“周易”X2 NPU主要功能升级
“周易”X2 NPU针对高级驾驶辅助系统(ADAS)、智能座舱、平板电脑、台式机、手机等应用场景做了大量的性能优化,可大幅提升手机拍照、录像中的高分辨率图像处理能力,以及车载中常用的Transformer等应用的性能,同时采用i-Tiling技术大幅减少带宽需求,进一步提升计算效率。
▲相比其他汽车SoC和“周易” X1 SoC,在“周易” X2 SoC上跑Swin-Transformer模型的性能显著提升
刘澍强调说,整个“周易”NPU体系,包括指令集架构设计,全部由安谋科技本土研发团队完成。在面对国内客户对于NPU产品以及AI相关需求时,本土团队可以更及时、深入地捕捉和理解客户需求,响应速度也更快。
▲“周易”X2 NPU增强了可扩展能力
做NPU研发,拼的是长期投入。作为一家独立运营、中资控股的合资公司,安谋科技从2018年创立起就一直立足于本土创新,坚持开展自研IP和发展Arm IP业务并重的路线,至今已有超过370家国内授权客户,累计芯片出货量突破300亿片。
刘澍谈道,此前芯片业的相互合作沟通相对欠缺,在未来前景战略的想法上各自为战,而芯片IP公司能够将从应用层、软件层到芯片层的整个产业链的需求与发展思路进行对齐统一,通过打造通用的硬件及软件工具,满足更广泛的市场需求。
一家芯片IP公司的基因就好比一个产业各方所共享的研发中心,安谋科技的核心任务是为半导体产业提供一整套可共用的异构计算平台,基于自己所擅长的能力定位来做更多业务上的探索与创新。同时,安谋科技也起到与国际接轨的桥梁作用,可将一些在国际上已被验证过的或者正在发生的新技术趋势带到中国。
从自研产品线来看,安谋科技正不断完善自研矩阵版图,同步推进CPU、NPU、ISP、VPU、SPU等各类IP产品线的研发。此前其自研产品已向160家本土客户授权,基于安谋科技自研IP的芯片出货量超过2亿颗。
据刘澍透露,随着自研IP矩阵的日渐丰富,近两年,安谋科技愈发注重各类自研IP之间的协同,希望将所有视觉和多媒体相关IP聚拢。其具体优化可分为三个层面:
其一,考虑不同类型IP之间的数据格式、吞吐量、处理能力等相匹配。
其二,优化这些IP所支持的格式对DDR带宽的要求,在有些特定场景或大规模场景下尽量减少甚至可以不用进行对总线和DDR来回导数据的访问,从而将系统压力降到极低,更加节省功耗。
其三,面向特定应用场景实现不同类型IP之间的相互协同与创新,比如通过NPU帮助ISP去噪,对识别场景进行快速对焦和寻找一些热点区域等。
“我们在解决完了从0到1,就开始去考虑1+1能不能大于2,”刘澍说,“这是一个不断尝试的过程,我们还没有做到非常完善,但一些协同效应正在一步步被实现。”
03.软件才是杀手锏
“越来越多的人认识到单靠NPU硬件并不能反映巨大价值,很多公司都有机会、有能力做类似的产品,但NPU硬件上承载的软件和生态才是非常重要的价值体现。”刘澍告诉智东西。
为了帮助开发者方便快速地进行算法移植和性能调优,“周易”X2 NPU还提供了一套完善的AI软件平台。
▲“周易”NPU软件栈
这个软件平台支持TensorFlow、Caffe、ONNX、 PyTorch等主流AI框架,Android、Linux、RTOS、QNX等不同操作系统,以及TVM、Arm NN的SoC异构计算,并拥有丰富的开放接口、调试工具和Bit精度的软件仿真平台。
此外,安谋科技今日发布了NPU软件开源计划,通过开放源码,来满足客户更自主、更灵活的算法移植需求,和更多开发者及合作伙伴共建国内NPU产业生态。
在该开源计划下,安谋科技率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易” Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。
据了解,安谋科技已分别在代码托管平台Gitee、GitHub上建立该项目的开源库。上述只是“周易”NPU软件开源计划的第一步,安谋科技后续还将逐步开放更多资源,如模型优化器、模型量化、算子实现等源代码。
对于软件工具而言,“能用”与“用好”是不同层次的事。刘澍认为,通过将软件开源及硬件架构免费开放,开发者无需在不同的硬件平台上进行开发,从而避免重复造轮,进一步提升软件开发效率,让生态快速发展。
从成本角度考量,如果要完整做出一个比较好用的NPU,一家公司至少要投入两三百人,涉及到硬件、芯片、软件、上层应用等方方面面;但如果采用第三方NPU IP,可能只需投入100多人,用以应用层、中间层等开发。
从生态角度考量,如果上游芯片公司们各推一套自己的NPU生态,那么应用厂商可能会无所适从。而共建生态是合作共赢,在一个可复用的生态平台上开枝散叶,并有望激起更多以前不曾想过的场景创新。
据他透露,安谋科技将软件和工具链开源后,企业开发者可借此快速开发出自己的产品,或者是用这些工具结合对自家应用的深刻理解,从软硬件结合的角度对底层IP性能做优化。
未来,安谋科技还计划开放更多资源,使得芯片设计公司能够用“周易”架构去快速开发出自己的NPU产品,并推向市场。
截至目前,“周易”NPU软件开源计划已有第一批合作伙伴“入驻”,其中不乏来自AIoT、智能汽车、智能操作系统等领域的明星企业。这些合作伙伴均表示将基于该计划与安谋科技继续深化合作,加速构建中国智能计算生态“朋友圈”。
除了NPU软件开源计划外,安谋科技还基于2022年7月发起的生态伙伴计划,通过战略合作、产品技术支持、项目协作、联合营销等形式,与合作伙伴共建上下游产业生态,共同推动各领域软硬件、工具链、行业标准以及社区联盟等生态环节的发展。
04.结语:本土创新+生态构建,撬动芯片设计“大局”
生成式AI的火爆出圈,正激发新一轮AI研发与商用热潮。各类硬件终端智能化渗透率不断提升,对作为底层算力基础设施“大脑”的AI芯片提出了更高的要求。
快速迭代的AI算法、日趋广泛的应用场景,既离不开高性能NPU来提供更强算力支撑,也离不开易用的软件平台来加快芯片产品的部署和落地流程。可以看到,一直走在国内芯片IP赛道前排的安谋科技,正采用迭代更强NPU产品和开放软件源码的并行策略,拉更多开发者及合作伙伴一起,共同加快NPU生态建设脚步。
在立足全球生态、聚焦本土需求、深耕本土创新的基础上,安谋科技逐渐发展成产业链上下游的“黏合剂”,为提高芯片设计创新的效率、降低生产成本、优化资源配置提供重要支撑,通过推动NPU技术创新和产业发展,为芯片公司打通走向市场的必要通路,进而助益中国智能计算生态的创新与繁荣。
作者 | ZeR0
编辑 | 漠影