NPU IP累计出货超1亿颗！芯原股份一站式AI解决方案揭秘

6月13日，2024上海国际嵌入式展开幕，在此次展会期间芯原股份召开了主题为“从云到端，AI触手可及”的“芯原AI专题技术研讨会”。芯原股份介绍了其AI产品线布局及面向AIGC的芯片设计平台和软件解决方案。

近年来，人工智能（AI）可谓是非常的火爆，特别是随着生成式AI在云端的发展并进入终端侧，推动了对于各类AI芯片需求的爆发。作为国产半导体IP大厂，芯原拥有丰富的与AI相关的NPU、GPU、ISP、VPU IP产品线，并且得到了极为广泛应用。

据芯原股份执行副总裁、IP事业部总经理戴伟介绍，在过去七年里，芯原在嵌入式AI/NPU领域全球领先，其NPU IP已被72家客户用于128款AI芯片当中，主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。目前，集成了芯原NPU IP的AI类芯片已在全球范围内出货超过1亿颗。

除了专用的AI加速的NPU IP之外，在目前被广泛应用于通用AI加速的GPU方面，芯原也拥有一系列自研的GPU IP。芯原在GPU领域也已经耕耘了20多年，拥有70项国外专利，集成了其GPU IP的芯片已在全球累计出货近20亿颗，并进入了近千万辆汽车。

在目前生成式人工智能大模型在云端及边缘端蓬勃发展的趋势之下，芯原根据目前市场的需求，基于自身NPU IP可伸缩可扩展的特性，已发展了覆盖从高性能云计算到低功耗边缘计算的生成式AI解决方案，包括专门面向边缘端大模型的NPU IP——VIP9X00以及AI-GPU IP，以及面向云端大模型的Tensor Core GPU IP——CCTC-MP。

芯原股份NPU IP研发总监查凯南表示，端侧AI性能很重要，但是功耗、面积对于端侧的IP更重要，一定要有比较好的PPA。因为端侧主要是要做推理，也要有一些浮点运算的能力，更关注的是低比特的量化及压缩能力。而在云端一定是高性能、非常高的TOPS，它要能够去做训练和推理。而且不光是单卡的训练推理，还要做分布式的推理训练，需要多卡多机的能力，所以它需要的更多是通用的GPGPU的编程模型，需要比较高的浮点跟定点算力的配比，对于高精度是比较重要的，然后还要能够去接入到大的生态当中去。

在过去两年当中，Transformer基本已经变成一个主导的模型架构，不仅仅是在大语言模型上面，在视觉、语音、Pixel等，都有比较好的表现。相对于传统的卷积神经网络，Transformer整个的效果提升是比较明显的。因此，在芯原最新的NPU架构里面也专门对Transformer做了定制优化，包括4bit、8bit、16×4、16×8等。能够去把权重做4bit和8bit的量化压缩，能够大大减少带宽的消耗。对于通用的矩阵运算，GEMM/GEMV，大模型需要的Transformer里面需要的大量卷积运算，以及在Transformer里面有不同的Vector直接构建到里面的带宽。芯原针对Transformer相关的网络性能提升了10倍。

据查凯南介绍，芯原的端侧NPU能够实现48TOPS的算力，能够支持在终端侧的大模型运行。比如在Stable Diffusion 1.5模型下，芯原的NPU可以在2秒内进行20步推理；在LLaMA2 7B模型下，芯原的NPU能够在1秒内生生成20个Token。

目前，芯原股份的端侧NPU IP已经可以支持智能手机、AI PC、智能汽车等边缘设备上的大模型的运行。

同时芯原基于自研的NPU IP和ISP IP等其他丰富的处理器IP储备，还推出了一系列创新的AI-ISP、AI-GPU等子系统，以应对人工智能不断发展的应用需求。

据介绍，芯原最新的面向边缘和云端大模型提供优化的图像数据的AI ISP芯片在9个月内就完成了从开案到流片，软件SDK在流片前就完成了所有功能验证。该芯片基于台积电N6制程，集成了高性能的RISC-V内核，拥有良好的PPA，模拟待机功耗低于4mW，AI增强拍照功耗也低于3.5W。

另外，在视频处理方面，基于芯原AI VPU（视频处理器）IP的第一代视频转码加速解决方案，在提供传统高端CPU 6倍转码能力的同时，功耗仅为其1/13。这一创新技术已成功应用于全球头部芯片公司定制的基于5nm工艺的媒体加速器芯片，并已进入量产阶段。

为便于开发者对于各种大模型的部署以及各种AI应用软件的开发，芯原也基于自己的AI-Computing IP产品线推出了配套的AI-Computing软件框架。

“不管是端侧还是云侧，整个芯原AI-Computing软件都是通用的软件栈。应用层有框架上面比较支持PyTorch、Transformer。专门针对大模型的，我们会选择去支持VLLM的框架。再往下走有通用的算子加速库及运算图加速库、以及多核间通讯库，底层会支持有标准的OpenCL、OpenVX，编译器及驱动。整个芯原的推理工具链，是芯原自研可以通过工具链直接导入所有类型框架的，内部自嵌一些量化的功能、可以去直接生成一个非常易于部署的Generate Binary。可以支持微软的ONNX Runtime，今年10月还会接入OpenAI的Triton。”查凯南介绍道。

除了前面提及的与AI相关的NPU、GPU IP、VPU IP、ISP IP之外，芯原还拥有视频/语音DSP IP、显示处理器IP，以及1,500多个数模混合IP和射频IP，已经服务了近400家IP授权客户，可以支持客户的各类的AI SoC的设计。

此外，芯原还拥有一站式的设计服务平台，每年流片30-50颗芯片，累计出货了10000片14nm FinFET 晶圆，近30000片10nm FinFET晶圆。芯原在2018年就完成了全球首批7nm EUV芯片流片一次成功，并且已有5nm SoC一次流片成功，多个一站式服务项目正在执行。

据芯原股份高级副总裁、定制芯片平台事业部总经理汪志伟介绍，芯原的SiPaaS系统级芯片设计平台既可以满足数据中心要求的高性能AIGC芯片的设计需求，基于Chiplet构建云端高性能AIGC方案；也能够满足基于Chiplet技术的下一代可扩展高性能自动驾驶芯片设计需求，利用超高算力在边缘端运行大模型。

同时，芯原还提供了完整的软件解决方案，可以满足推理、训练和数据通信需求。

在此次的2024上海国际嵌入式展上，芯原也展示了集成芯原神经网络处理器（NPU）IP的新一代8K电视及领先的智能相机；集成芯原视频处理器（VPU）IP的新一代无人机；内嵌芯原图形处理器（GPU）IP和显示处理器IP的智能手表及AR眼镜；内嵌芯原IP的智慧家居设备等；基于芯原GPGPU IP和NPU IP的蓝洋智加速卡的高性能AI PC产品；基于芯原双通道图像信号处理器（ISP）IP的银牛视觉AI处理器等；芯原第二代数据中心视频转码平台解决方案等。

编辑：芯智讯-浪客剑

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
KSZ8851SNLI	1	Microchip Technology Inc	DATACOM, ETHERNET TRANSCEIVER, PQCC32		$5.06	查看
24LC16BT-I/SN	1	Microchip Technology Inc	2K X 8 I2C/2-WIRE SERIAL EEPROM, PDSO8, 0.150 INCH, ROHS COMPLIANT, PLASTIC, MS-012, SOIC-8	ECAD模型下载ECAD模型	$0.35	查看
AT24C64D-SSHM-T	1	Microchip Technology Inc	IC EEPROM 64KBIT 1MHZ 8SOIC	ECAD模型下载ECAD模型	$0.39	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

KSZ8851SNLI

Microchip Technology Inc

DATACOM, ETHERNET TRANSCEIVER, PQCC32