加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 端侧大模型
    • 端侧AI的挑战
    • NPU的关键作用
    • 结语
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

端侧AI应用趋热 NPU能解决哪些痛点?

10/31 12:30
1813
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

当前,AI大模型已逐渐从云端走向边缘,甚至深入到日常生活中的手机、PC、汽车等各个终端。在这一变革中,端侧智能正崭露头角,预示着未来智能设备将能更实时、更高效地理解和服务用户。日前,在E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上,安谋科技产品总监鲍敏祺深入探讨了端侧AI应用的广阔前景及NPU(神经处理单元)在其中发挥的关键作用。

端侧大模型

鲍敏祺指出,端侧AI的新机遇主要源于AIGC大模型带来的算力提升。这些大模型已逐渐在手机上实现应用,如图片理解、关键信息提取等,显著提升了用户体验。例如,Apple Intelligence等大模型的发布,尽管尚未对国内开放,但已引发广泛关注与测评。这些应用不仅提升了使用效率,更逐渐渗透到人们的日常生活中。

然而,端侧AI的算力是否会像云端一样持续膨胀?鲍敏祺认为,端侧模型的规模受到存储带宽的限制,而用户体验的实时性至关重要,大模型必须在用户能接受的时间内(通常是2秒以内)给出反馈。因此,在当前带宽下,部署大模型需考虑带宽制约与用户体验的平衡。

目前,众多国内外厂商已从商业化角度推出大模型,并达成共识——AI NPU是未来消费类产品的重点投入对象。头部终端厂商如OPPOVIVO、小米、荣耀、华为等也都有相应的解决方案。这些方案并非仅依赖端侧大模型,而是与云端相辅相成,共同提升用户体验。端侧的优势在于时效性和数据本地安全性,而云端则具备更强的理解和计算能力。

端侧AI的挑战

在评估端侧大模型时,语言类模型或文生图常用作参考。但语言类模型并非端侧应用的终点。随着技术发展,图片、音频、视频等多模态输入将成为常态。这些输入需经过压缩和Tokenizer处理,转换成模型能理解的Token。而LLM(大型语言模型)背后的基本原理并未改变,只是输入和输出过程增加了编码和解码步骤。

另一个挑战在于,上下文长度的增长对模型性能提出更高要求。衡量语言模型的指标包括Token per second和TTFT(Time to first token),即模型响应输入的时间。随着上下文长度增加,首次延迟也会线性增长。因此,在端侧容量和带宽有限的情况下,需优化算法以提升算力效率。

一个确定的趋势是,AI的应用将是多模态场景。随着AI的发展,人们很可能将更多地与智能体(Agent)进行交互。这些智能体不仅能理解和执行任务,还能通过强化学习不断优化自己的行为。

在多模态场景下,AI的应用将不再局限于传统设备。从手持设备到边缘计算、PC、汽车,再到云端,AI将无处不在。然而,不同场景对AI算力的需求各不相同。手持设备由于功耗和芯片面积的限制,通常只能支持1-10B的模型体量。而在Edge、PC、Auto端,模型体量可能达到10-70B。在云端,由于有充足的资源和带宽,模型体量可以超过100B,从而接受各种知识,进行持续迭代。

AI的赋能不仅限于传统设备,它还能为以前看似市场前景有限的终端设备带来新的生命力。例如,通过赋予可穿戴设备简单的语音控制和视觉拍照功能,这些设备可能突然变得非常流行。这种多模态的输入和直接使用的功能,使得这些设备在竞争激烈的市场中脱颖而出。

然而,端侧AI也面临着诸多挑战。首先是成本、功耗和生态系统的问题。存储介质的带宽和成本是制约端侧AI发展的关键因素。尽管存储技术不断进步,但端侧设备仍然无法像云端那样拥有TB级别的带宽。此外,端侧设备的芯片面积和计算资源也非常有限。

第二个挑战是功耗问题。在AI应用中,数据的搬运是功耗的主要来源。对于大模型来说,由于显存占用大,无法像CNN那样通过高复用度来提高能效。因此,如何降低数据搬运的功耗成为了一个亟待解决的问题。

此外,软件和工具的优化也是一大挑战。AI模型需要不断迭代优化才能满足用户需求。然而,当前的软件和工具在支持大模型优化方面还存在不足。

NPU的关键作用

鲍敏祺表示,针对这些挑战,安谋科技推出的“周易”NPU采取了一系列应对策略。首先,它在保留CNN能力的同时,增强了对transformer大模型的支持。通过优化微架构和计算能力,提升了transformer的运算效率。其次,“周易”NPU注重数据本地化,通过混合精度量化和无损压缩来减少数据搬运和提升有效带宽。此外,它还针对大模型进行了总线带宽的扩展,以满足解码等场景对带宽的高需求。

为了进一步提升能效,“周易”NPU还采用了数据并行、模型并行、负载均衡和Tiling等技术。同时,它也支持异构策略,可以独立执行AI任务,并根据需求自由裁剪。在端侧应用中,“周易”NPU还采用了power gating和low power策略,以降低不必要的功耗。

通过这些创新技术,“周易”NPU有效应对了端侧AI面临的挑战,为多模态场景下的AI应用提供了强有力的支持。而针对不同应用场景,如智能汽车、手机PC、AIOT等,安谋科技也制定了差异化的策略。

在智能汽车领域,安谋科技关注智舱一体等趋势,提供了全面的IP解决方案。这包括GPU用于渲染显示,前级处理摄像头的能力,以及SPU用于安全相关的功能。特别值得注意的,“周易”NPU具备20到320TOPS的可扩展性,以满足不同场景下的算力需求。例如,在汽车IVI场景中,算力要求相对较低;而在ADAS场景中,由于需要执行多任务,特别是CNN场景,算力需求则显著提升。“周易”NPU的灵活性使得它能够适应各种汽车场景,实现完整端到端的解决方案。

对于AI加速卡场景,安谋科技关注输入与输出的高效处理,特别是图像和视频数据的输入与AI计算的输出。加速卡具备HOST AP交互能力,并强调安全性,如JPEG解码能力和根据实际需求定制的NPU。根据应用场景的不同,如NVMe存储形式、车载或手机等,TDP功耗和算力需求也会有所差异。能效比是一个重要考虑因素,例如在5瓦TDP功耗下,有效算力可达25TOPS左右。整个解决方案多样,不仅针对语言模型,还着眼于未来多模态模型的需求。

在AIOT场景中,算力需求相对较低,但受到AIOT设备面积和功耗的限制。然而,对安全性的要求却更高,包括firmware和security的强化。与服务器或板卡等密封形式不同,AIOT场景对安全性的需求进一步提升。安谋科技的“周易”NPU能够在此类场景中提供20TOPS到320TOPS的算力裁减,主要用于声音和图象的检测。考虑到端侧可能放置较低精度的模型以保证量化效果,整个解决方案在保障安全的同时,也通过一定算力的内容对语音类场景进行AI加速。

结语

随着技术不断进步和创新,未来的智能设备将更加智能、高效、便捷,NPU也将在未来发挥更加重要的作用。据悉,安谋科技的下一代“周易”NPU在生态上已广泛部署了Wenxin、Llama、GPT等模型,并在端侧覆盖了PAD、PC、Mobile等各类场景。对于智能汽车领域,无论是IVI还是ADAS场景,都能根据实际算力需求和模型提供针对性的解决方案,最高可达320TOPS的算力。

相关推荐

电子产业图谱