在科幻小说《三体》中,一件白大褂能配合医生的表情和情绪,显示出不同的图像;手指在墙上轻轻点击,就能将墙面激活为显示屏;桌面、椅子甚至水杯、纸巾盒等日常用品,都是带有操作界面和图像显示的动态信息窗口。
视觉是人类获取信息的主要途径,而视频图像是人们感知、理解和分享世界的重要载体。PC、手机、VR/AR、智能汽车等终端,都将显示屏作为最主要的信息交互窗口。部署AI大模型的数据中心里,也存在海量用于AI训练和推理的视频图像信息。
而视频图像从素材到成片再到播放显示的每一个环节,都需要大量的计算。随着画质提升和AI技术引入,计算系统中的CPU资源变得非常宝贵,因此DPU(显示处理器)和VPU(视频处理器)作为视频图像输出环节和传输环节的关键元器件,要承担更加多样、密集的工作负载。
近日,安谋科技发布了其首款“玲珑”DPU和新一代VPU。其中,“玲珑”D8/D6/D2
DPU能够适配从8K60帧到2K60帧的场景需求,最多可通过软件驱动4个显示处理并行工作,实现多屏实时输出。“玲珑”V510/V710 VPU则率先支持最新的H.266视频压缩技术,以更强的编码性能应对手机等小型终端、云端AI训练和推理所需的视频编解码处理。
多媒体显示需求井喷但高度碎片化
DPU适配能力受考验
多媒体显示终端和应用内容的迭代革新,正在重塑每个人的信息获取和交互体验。在形态上,电视显示屏、汽车中控屏的面积越来越大,手机三折屏、AR/VR等新的屏幕形态层出不穷,跨屏显示、多屏异显等技术趋势愈发明显。在显示效果上,高清晰度、高画质的市场需求,倒逼分辨率逐步提升,也催生了宽动态、广色域等一系列画质提升技术。与此同时,显示的应用场景和内容也更加复杂,涉及更多的视频流和图层界面。
DPU作为决定显示输出能力的关键单元,对于多媒体显示器的分辨率、HDR、色域等画质提升要素有着重要影响。
面向纷繁多样的显示终端和场景应用,DPU的适配能力成为摆在产业界面前的现实问题。安谋科技DPU高级产品经理柴卫华向《中国电子报》记者表示,在定义“玲珑”D8/D6/D2 DPU(以下简称“玲珑”DPU)系列时,如何使IP适配更多场景,是研发团队优先考虑的事项。
在这一理念的推动下,“玲珑”DPU一方面提供了从高性能到低能耗、从8K 60帧到2K 60帧的产品矩阵,另一方面基于标准化、模块化的设计以及灵活配置的架构,支持用户通过配置、软件的调度,让硬件并行工作。比如“玲珑”D8瞄准高性能,单核性能可达每秒8K 60帧,而在多屏实时输出的复杂场景中,可以通过软件驱动4个4K
60帧的显示处理并行工作。“玲珑”D6则主打均衡的PPA,支持8K 30帧或4K 120帧的应用需求,单IP可以同时支持2个4K 60帧的输出。“玲珑”D2面向低功耗场景,提供高能效比和该系列最低的面积与功耗开销,单IP支持2K 60帧的显示输出。
除了分辨率和刷新率,画质体验还受到HDR(提升对比度和鲜艳度)、色彩管理等因素的影响。“玲珑”DPU支持SDR和HDR内容输入输出,提供前后级可配置的Gamma(编解码照度曲线)和Gamut(色域)管理,支持1/6到64倍图像缩放,以及镜像与旋转的任意组合。
画面卡顿是观看体验的“头号天敌”。为了优化带宽和功耗,“玲珑”DPU内置AFBC(Arm标准的帧缓冲压缩技术)压缩和解压缩模块,缓解带宽压力。此外,“玲珑”DPU集成了Arm MMU-600和MMU-700中的TBU模块,与系统的MMU管理无缝对接,降低系统管理难度。
不过,标准化的IP产品即便匹配了主流的显示场景和规格,也难以完全满足高度碎片化的多媒体显示需求。柴卫华向记者表示,许多客户都追求在共性基础上实现差异化优势。
“我们经常被客户问:你们的IP有人用了么?如果我们说已经有相关用例,那么客户就会接着问‘别人也用的话,我们能做出什么新的东西吗’。”柴卫华告诉记者。因此,“玲珑”DPU开放了可扩展的协处理器接口,客户可将自身对图像显示、图片画质的特殊要求和算法接入其流水线,构建独家竞争力。
支持H.266视频压缩技术
VPU让更小空间展现更多内容
当前,视频已经成为互联网应用中占比最大的数据类型,而4K/8K超高清视频的收看、拍摄和分发渠道,已经从专业级高清摄像机和电视台,下沉到一部部轻薄小巧的手机和移动互联网平台。如何在更小的空间展示更多的内容,成为广大终端厂商、内容提供商和平台的共同追求。
这一目标的实现,离不开视频压缩技术的进步。从2003年至今约20年时间,视频压缩标准已经从H.264进阶到H.266。与上一代标准H.265相比,H.266的压缩比提升了50%,带宽占用降低了近50%,对8K超高清、高动态和360度全景视频等新的视频类型以及自适应带宽和分辨率的流媒体、实时通信等应用有了更好的支持,从而降低了视频数据存储和传输成本。
VPU是结合AI技术的视频任务加速器,内置视频编码加速专用功能模块。“玲珑”V510/V710 VPU是中国市场首批同时包含H.266编码和解码的VPU产品。
相较支持H.265的V6 VPU,支持H.266的V510在三个维度实现了代际提升。一是H.264、H.265的编码性能直接翻倍;二是基于H.266标准实现编码质量30%的提升;三是相比X265的very slow(清晰度很高但牺牲速度的转码方式)档次,编码质量有20%的提升。
但是,H.266带来的50%编码性能提升,若全部兑现在芯片中,要付出10倍左右的芯片面积开销,这是将设备面积和物料成本“卷”到极致的终端厂商难以承受的。
为此,“玲珑”VPU V510除了将编码质量提升控制在30%,以实现PPA的最佳平衡,同时还创新地融合了编解码功能模块。这一架构创新避免了编码和解码分离状态下各自需要增加内存的情况,并在数据处理中对任务进行条带级的划分,实现多核并行和性能的线性提升,以减小硅面积。
从成本要求苛刻的监控场景到数据中心用于AI训练和推理的视频编解码处理,VPU的应用场景跨度较大,对于配置的要求也极其多样。“玲珑”V510/V710
VPU采用了多核多格式编解码融合的可编程处理架构,基于firmware固件,“玲珑”V510/V710 VPU在流片之后还可以对码率控制、主观质量等进行调整优化。
“经过三年多的发展,‘玲珑’VPU系列授权了30多家合作伙伴,几乎每一个合作伙伴都需要一定的定制服务。我们在硬件层面不断与客户沟通和打磨,固件调优频率可以按周计。”安谋科技VPU高级产品经理董峰说。
自研矩阵与技术授权组合
助力本土企业把握国内外“芯“机遇
中国是推动生成式AI等新兴技术超大规模应用的热土,也是全球科技创新的重要高地。目前,我国骨干企业旗下手机、PC高端产品基本具备在端侧部署数十亿级别参数大模型的能力,为智能终端领域开启新一轮增长周期发挥重要带动作用。数据显示,2024年中国市场上的AI终端占比将达到55%,搭载AI功能的终端设备将超过70%。
IP核这一代表芯片设计行业垂直分工的产物,从诞生起就担负着提升芯片设计效率、加快芯片产品上市的使命。当前,生成式AI引领的新终端、新应用如雨后春笋般涌向市场,面向不同场景高效推出芯片产品,已经成为市场对半导体企业的普遍诉求。
近两年来,在AI终端、智能汽车、智能视觉等热点应用中,不乏安谋科技的IP产品。今年7月,此芯科技正式推出其首款AI PC芯片“此芯P1”,异构集成了Armv9 CPU核心、Arm Immortalis GPU以及安谋科技自研“周易”NPU。其中,基于第三代“周易”架构设计的NPU能够为AI PC提供端侧AI应用的算力资源,以及多核多Cluster的算力扩展。在芯擎科技的7纳米智能座舱芯片“龍鷹一号”中,“周易”NPU提供了AI算力、处理效能和可编程性。在2023年面世的Arm智能视觉参考设计中也集成了“玲珑”V5 VPU,以提高视觉应用设备的处理能力和机器学习能力。
据悉,安谋科技已经推出了包含“玲珑”多媒体系列、人工智能处理器“周易”NPU、嵌入式处理器“星辰”CPU、信息安全解决方案“山海”SPU在内的自研产品矩阵。安谋科技自研产品客户数量已超过220家,并且均已实现高质量交付,助力客户成功流片和量产。本土客户基于自研业务产品芯片出货量突破5亿颗,自研业务核心技术专利数量达到150余项。
此外,为进一步向国内企业提供更具性价比的产品组合和服务支持,今年,“Arm技术授权订阅”模式正式落地中国。其中,Arm Flexible Access模式打破了“按件收费“的传统IP授权模式,使企业以预付、免成本或低成本的方式,获取包含Arm IP、工具及训练课程的组合包,直到流片之前才需要为最终在芯片设计中使用的IP支付授权费用。而Arm Total Access模式面向复杂芯片系统的研发需求,使企业通过单个订阅一站式获得Arm最新最全的技术和工具,包括IP、工具和模型、支持和服务、软件、物理设计等。目前已有超30家中国客户采用了Arm技术授权订阅。
基于自研业务技术创新与Arm技术授权,安谋科技一方面为中国本土企业提供包含NPU、CPU、SPU以及多媒体处理所需的DPU和VPU等自研产品,以及与客户共同定制、联合调优的本地化服务;另一方面助力中国企业以更加灵活的方式获取Arm技术,更高效地融入国际生态,把握国内外智算产业的“芯“机遇。
作者丨张心怡编辑丨赵晨美编丨马利亚监制丨连晓东