加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

NPU IP累计出货超1亿颗!芯原股份一站式AI解决方案揭秘

06/15 08:25
2133
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

6月13日,2024上海国际嵌入式展开幕,在此次展会期间芯原股份召开了主题为“从云到端,AI触手可及”的“芯原AI专题技术研讨会”。芯原股份介绍了其AI产品线布局及面向AIGC芯片设计平台和软件解决方案。

近年来,人工智能(AI)可谓是非常的火爆,特别是随着生成式AI在云端的发展并进入终端侧,推动了对于各类AI芯片需求的爆发。作为国产半导体IP大厂,芯原拥有丰富的与AI相关的NPU、GPU、ISP、VPU IP产品线,并且得到了极为广泛应用。

据芯原股份执行副总裁、IP事业部总经理戴伟介绍,在过去七年里,芯原在嵌入式AI/NPU领域全球领先,其NPU IP已被72家客户用于128款AI芯片当中,主要应用于物联网可穿戴设备、智慧电视、智慧家居、安防监控、服务器汽车电子智能手机平板电脑智慧医疗等10个市场领域。目前,集成了芯原NPU IP的AI类芯片已在全球范围内出货超过1亿颗。

除了专用的AI加速的NPU IP之外,在目前被广泛应用于通用AI加速的GPU方面,芯原也拥有一系列自研的GPU IP。芯原在GPU领域也已经耕耘了20多年,拥有70项国外专利,集成了其GPU IP的芯片已在全球累计出货近20亿颗,并进入了近千万辆汽车。

在目前生成式人工智能大模型在云端及边缘端蓬勃发展的趋势之下,芯原根据目前市场的需求,基于自身NPU IP可伸缩可扩展的特性,已发展了覆盖从高性能云计算低功耗边缘计算的生成式AI解决方案,包括专门面向边缘端大模型的NPU IP——VIP9X00以及AI-GPU IP,以及面向云端大模型的Tensor Core GPU IP——CCTC-MP。

芯原股份NPU IP研发总监查凯南表示,端侧AI性能很重要,但是功耗、面积对于端侧的IP更重要,一定要有比较好的PPA。因为端侧主要是要做推理,也要有一些浮点运算的能力,更关注的是低比特的量化及压缩能力。而在云端一定是高性能、非常高的TOPS,它要能够去做训练和推理。而且不光是单卡的训练推理,还要做分布式的推理训练,需要多卡多机的能力,所以它需要的更多是通用的GPGPU的编程模型,需要比较高的浮点跟定点算力的配比,对于高精度是比较重要的,然后还要能够去接入到大的生态当中去。

在过去两年当中,Transformer基本已经变成一个主导的模型架构,不仅仅是在大语言模型上面,在视觉、语音、Pixel等,都有比较好的表现。相对于传统的卷积神经网络,Transformer整个的效果提升是比较明显的。因此,在芯原最新的NPU架构里面也专门对Transformer做了定制优化,包括4bit、8bit、16×4、16×8等。能够去把权重做4bit和8bit的量化压缩,能够大大减少带宽的消耗。对于通用的矩阵运算,GEMM/GEMV,大模型需要的Transformer里面需要的大量卷积运算,以及在Transformer里面有不同的Vector直接构建到里面的带宽。芯原针对Transformer相关的网络性能提升了10倍。

据查凯南介绍,芯原的端侧NPU能够实现48TOPS的算力,能够支持在终端侧的大模型运行。比如在Stable Diffusion 1.5模型下,芯原的NPU可以在2秒内进行20步推理;在LLaMA2 7B模型下,芯原的NPU能够在1秒内生生成20个Token。

目前,芯原股份的端侧NPU IP已经可以支持智能手机、AI PC、智能汽车等边缘设备上的大模型的运行。

同时芯原基于自研的NPU IP和ISP IP等其他丰富的处理器IP储备,还推出了一系列创新的AI-ISP、AI-GPU等子系统,以应对人工智能不断发展的应用需求。

据介绍,芯原最新的面向边缘和云端大模型提供优化的图像数据的AI ISP芯片在9个月内就完成了从开案到流片,软件SDK在流片前就完成了所有功能验证。该芯片基于台积电N6制程,集成了高性能的RISC-V内核,拥有良好的PPA,模拟待机功耗低于4mW,AI增强拍照功耗也低于3.5W。

另外,在视频处理方面,基于芯原AI VPU(视频处理器)IP的第一代视频转码加速解决方案,在提供传统高端CPU 6倍转码能力的同时,功耗仅为其1/13。这一创新技术已成功应用于全球头部芯片公司定制的基于5nm工艺的媒体加速器芯片,并已进入量产阶段。

为便于开发者对于各种大模型的部署以及各种AI应用软件的开发,芯原也基于自己的AI-Computing IP产品线推出了配套的AI-Computing软件框架。

“不管是端侧还是云侧,整个芯原AI-Computing软件都是通用的软件栈。应用层有框架上面比较支持PyTorch、Transformer。专门针对大模型的,我们会选择去支持VLLM的框架。再往下走有通用的算子加速库及运算图加速库、以及多核间通讯库,底层会支持有标准的OpenCL、OpenVX,编译器及驱动。整个芯原的推理工具链,是芯原自研可以通过工具链直接导入所有类型框架的,内部自嵌一些量化的功能、可以去直接生成一个非常易于部署的Generate Binary。可以支持微软的ONNX Runtime,今年10月还会接入OpenAI的Triton。”查凯南介绍道。

除了前面提及的与AI相关的NPU、GPU IP、VPU IP、ISP IP之外,芯原还拥有视频/语音DSP IP、显示处理器IP,以及1,500多个数模混合IP和射频IP,已经服务了近400家IP授权客户,可以支持客户的各类的AI SoC的设计。

此外,芯原还拥有一站式的设计服务平台,每年流片30-50颗芯片,累计出货了10000片14nm FinFET晶圆,近30000片10nm FinFET晶圆。芯原在2018年就完成了全球首批7nm EUV芯片流片一次成功,并且已有5nm SoC一次流片成功,多个一站式服务项目正在执行。

据芯原股份高级副总裁、定制芯片平台事业部总经理汪志伟介绍,芯原的SiPaaS系统级芯片设计平台既可以满足数据中心要求的高性能AIGC芯片的设计需求,基于Chiplet构建云端高性能AIGC方案;也能够满足基于Chiplet技术的下一代可扩展高性能自动驾驶芯片设计需求,利用超高算力在边缘端运行大模型。

同时,芯原还提供了完整的软件解决方案,可以满足推理、训练和数据通信需求。

在此次的2024上海国际嵌入式展上,芯原也展示了集成芯原神经网络处理器(NPU)IP的新一代8K电视及领先的智能相机;集成芯原视频处理器(VPU)IP的新一代无人机;内嵌芯原图形处理器(GPU)IP和显示处理器IP的智能手表AR眼镜;内嵌芯原IP的智慧家居设备等;基于芯原GPGPU IP和NPU IP的蓝洋智加速卡的高性能AI PC产品;基于芯原双通道图像信号处理器(ISP)IP的银牛视觉AI处理器等;芯原第二代数据中心视频转码平台解决方案等。

编辑:芯智讯-浪客剑

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
CNY65B 1 Telefunken Semiconductor GmbH & Co Kg Transistor Output Optocoupler, 1-Element, 12000V Isolation,
$1.17 查看
7M48072002 1 TXC Corporation CRYSTAL 48.0000MHZ 8PF SMD
$1.15 查看
ABM3-9.8304MHZ-D2Y-T 1 Abracon Corporation CRYSTAL 9.8304MHZ 18PF SMD
$0.2 查看
芯原股份

芯原股份

芯原微电子(上海)股份有限公司(芯原股份,688521.SH)是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。在芯原独有的芯片设计平台即服务(Silicon Platform as a Service, SiPaaS)经营模式下,通过基于公司自主半导体IP搭建的技术平台,芯原可在短时间内打造出从定义到测试封装完成的半导体产品,为包含芯片设计公司、半导体垂直整合制造商 (IDM)、系统厂商、大型互联网公司和云服务提供商在内的各种客户提供高效经济的半导体产品替代解决方案。

芯原微电子(上海)股份有限公司(芯原股份,688521.SH)是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。在芯原独有的芯片设计平台即服务(Silicon Platform as a Service, SiPaaS)经营模式下,通过基于公司自主半导体IP搭建的技术平台,芯原可在短时间内打造出从定义到测试封装完成的半导体产品,为包含芯片设计公司、半导体垂直整合制造商 (IDM)、系统厂商、大型互联网公司和云服务提供商在内的各种客户提供高效经济的半导体产品替代解决方案。收起

查看更多

相关推荐

电子产业图谱