随着人工智能、智能座舱、自动驾驶等前沿技术的不断演进,智能终端创新步伐加速,新兴应用场景如智能汽车、AI PC、AI手机、智能家居、工业机器等层出不穷,消费者对智能设备的信息交互和娱乐需求也日益多样化。
这其中,多媒体处理器的应用发挥着重要作用,不仅限于终端设备,还涵盖了云端服务器。
安谋科技多媒体处理器研发负责人周华表示,多媒体处理器的应用范围已经基本覆盖了“端+边+云”等各类场景,并且涉及视频图像处理的产品迭代速度惊人。
以车载应用为例,根据第三方数据,国内车载摄像头的数量已经从2022年的5000万颗增长到现在的1亿颗,年增长率超过25%。同时,智能汽车的大屏化、多屏化趋势明显,车载显示市场规模预计将在2025年超过1200亿元。同时,3A游戏等高端应用也对多媒体处理器提出更高的要求,没有高性能的显示处理器和视频编解码器,3A游戏的体验将会大打折扣。
此外,国家政策也大力支持多媒体产业的发展,从2017年开始,几乎每年都会推出相关政策来鼓励和引导超高清电视产业的发展。
可以说,超高清画质、跨屏联动、多屏异显等趋势的兴起,对图像显示技术的实时处理、画质增强及数据安全等关键能力都提出了更高的要求。
为应对这些挑战,安谋科技推出了首款本土自研的图像显示处理器——“玲珑”D8/D6/D2 DPU,以及新一代超高清视频处理核芯——“玲珑”V510/V710 VPU。
8K级图像显示“芯”引擎
据安谋科技DPU高级产品经理柴卫华介绍,“玲珑”D8/D6/D2 DPU为智能设备图像显示提供了强大动力,可灵活按需配置架构,确保了低延时、低系统带宽以及高数据安全。
图1:“玲珑” D8/D6/D2 DPU概览
该系列中,D8主要针对高性能显示应用场景,能够实现每秒8K60帧的实时显示处理,或单IP核支持4个每秒4K60帧的实时显示输出;D6则针对性能与能效优化的显示应用场景,可实现每秒8K30帧或4K120帧的实时显示处理,或单IP核支持2个每秒4K60帧的实时显示输出;D2用于高能效比显示的应用场景,可实现每秒2K60帧的实时显示处理。
"玲珑"D8/D6/D2 DPU不仅兼具高性能、高画质与高灵活性,实现实时显示处理,还采用多核架构,支持按需配置与编程,满足客户定制化需求,轻松扩展性能并优化系统开销。此外,通过集成Arm系统存储管理单元MMU-600/700中的转换缓冲单元(TBU)模块及Arm帧缓冲压缩(AFBC)技术,该系列实现了超低延时与系统带宽的最大化降低。同时,该系列支持Arm TZMP架构的软硬一体设计,为显示数据的安全性提供了有效保障。
图2:“玲珑” D8/D6/D2 DPU架构
该DPU系列采用可配置的模块化架构,配置灵活,可以实现智能场景全覆盖。其面向多场景的高效设计支持多达16层内容输入,并通过独特的Smart Layer技术确保超过16层内容的叠加显示,实现灵活高效的内容管理。
在图像处理方面,其深度流水设计支持SDR与HDR内容输入输出及多种影像图形格式,前后级配置Gamma与Gamut管理,支持1/6到64倍缩放及图像增强,同时提供水平、垂直镜像,90°、180°、270°旋转及任意组合功能,并具备可拓展协处理接口。
柴卫华强调,在研发设计时,安谋科技重视IP对系统的整体支持。"玲珑"D8/D6/D2 DPU采用标准接口如AXI、APB、DPI,并进行了三方面系统优化:内置Arm标准的AFBC技术以缓解AI带宽压力;集成MMU-600/700的TBU单元以实现内存灵活管理,降低系统管理难度;深度协同Arm TZMP技术,增强用户信息安全及数据保护,支持标准显示、DRM及Trusted display等多种模式。
周华进一步解释了"玲珑"D8/D6/D2 DPU的技术细节,该DPU系列的架构核心包括Global Control Unit、带AFBC的DMA(专用于数据传输)及四条完整的显示处理单元,这些单元负责图像的合并、叠加与最终输出,并能同时支持4个实时显示。
该DPU系列展现出高度的可扩展性,分辨率覆盖从1080P至8K60帧,且显示输出数量可在1至4个之间灵活配置;为了满足多媒体场景下客户群体的多样化需求,其pipeline、功能及特性均可根据客户具体要求进行定制。在长期持续的优化过程中,有价值的定制内容将被整合进主干,以便更多客户能够直接使用。
值得一提的是,它对Arm MMU-600/700的支持已经在客户实际应用中得到了验证。为了满足客户的独特需求,该DPU系列还提供了一个特别接口,允许客户将他们对图像显示、图片画质的特殊要求和算法接入到pipeline中,从而在标准产品无法完全满足需求时,帮助客户实现独家竞争力。
首批支持H.266标准的新一代超高清视频处理核芯
高清、实时的视频处理能力在智能驾驶、智能安防、智能家居、无人机、AR/VR等前沿终端应用领域显得尤为重要。同时,数据中心和云计算领域对大模型训练和推理任务的处理速度和效率也提出了更高要求。
巨大的需求潜力推动全球视频流媒体市场持续扩张,预计2021-2028年间复合年增长率为20%。安谋科技VPU高级产品经理董峰表示,在视频编码领域,最新一代H.266标准相较于前代,在8K超高清等多种视频类型及流媒体应用中表现出色,平均编码性能提高49%。
相比AV1等其他同时代技术,H.266展现出长期多维度进步的潜力。与上一代H.265相比,H.266实现了50%的压缩比提升,并在高分辨率、8K级别、色域及宽动态能力等方面均有明显改善。
此外,H.266标准还广泛适应多种业务场景需求,包括办公桌面系统、低延时、云游戏、AR/VR等新兴用户体验,使得其在全业务场景下能带来全面提升。
目前,国内头部互联网内容商已开始部署H.266内容,进行从端侧到云端的转码优化,尤其在低码率和带宽频繁变化的场景下,H.266技术能带来更佳的实际体验。
面向这一需求,安谋科技推出了“玲珑”V510/V710 VPU。作为国内首批同时支持H.266标准的编码及解码视频处理器IP,“玲珑”V510/V710 VPU采用了多核多格式编解码融合的可编程处理架构,大幅节省了存储空间及带宽成本,并助力合作伙伴基于不同应用场景进行灵活多样的性能与功耗配置。
该系列中,V510系列主要面向4K及以下视频的应用场景,最多可支持4核配置;V710系列则针对高端的8K视频应用场景,最多可支持8核配置。
图3:“玲珑” V510/V710 VPU概览
董峰表示,相较于上一代产品,V510 VPU有三大提升:首先,其H.264与H.265编码性能实现翻倍,600兆时可支持4K30帧,而7纳米工艺下1.2G则可达4K60帧;其次,与V6 VPU的H.265相比,V510 VPU的H.266编码质量提升了30%,这与其IP适用场景紧密相关;最后,相较于H.265的very slow档次(常用于云端转码与直播的CPU软编),V510 VPU的H.266编码质量提高了20%。
该VPU系列采用多核处理架构,确保了软硬件间的高交互性和强可扩展性,可以轻松应对多样化场景需求。同时,配备多重视频编解码器,不仅支持H.266标准的编解码,还兼容各种主流视频标准。通过集成内存管理单元(MMU),有效提升了系统效率并降低了系统复杂度。此外,该VPU系列精准匹配本地市场需求,提供特定的视频处理技术功能,并辅以全面的系统解决方案,包括配套的固件工具及软件,全方位满足用户需求。
该VPU系列配置灵活,其多核性能可按需线性堆叠,单核即能支持每秒4K60帧的编码或解码,同时,其创新融合编解码功能模块,显著减小硅面积,并提供丰富灵活的前后处理、软件、驱动及固件支持。
这里值得注意的是编解码融合架构。董峰指出,在VPU场景中,若采用编码与解码分离的架构,将需要在两个层面分别增加内存,涵盖流水线等各个方面。为优化这一问题,“玲珑”VPU采用了编解码融合的架构,该架构致力于内部pipeline的复用,通过技术层面的细致分解,将任务划分至加速器与数据流层级。
该架构在控制方式上,是采用MCU控制而非纯硬件控制,以应对不同模式下数据流控制的显著差异。此外,“玲珑”VPU在数据处理中创新性地实施了条带级任务划分,并在架构层面进行了大量细致的分解与考量,从而实现了多核并行与性能的线性提升,同时也带来了显著的硅面积收益(较非融合编解码架构面积小1.3-1.4倍)。
周华补充道,这种架构具有较高的门槛,在某种程度上类似于SoC,主要针对业务场景数据流的管理。安谋科技擅长以这样的思路为切入点进行系统级架构设计,在IP层面拥有强大的系统化能力。他强调,这种架构是安谋科技与友商的一个关键差别。
在编解码性能方面,针对H.266,该VPU系列具备每秒高达120帧的8K视频编码与解码能力,且H.264/HEVC的性能和主客观编码质量均得到全面提升。此外,该VPU系列广泛支持包括H.266、H.265、H.264等在内的主流视频编码标准,以及H.266、AV1、H.263等多种解码标准,确保了广泛的兼容性。
在视觉效果上,"玲珑"V510/V710 VPU新增了屏幕显示菜单OSD前处理,支持长参考帧以节省传输带宽并显著提升图像质量,同时后处理功能支持按任意比率缩小,YUV2RGB转换则能在不同类型面板上实现最佳内容显示。
值得注意的是,"玲珑" VPU的处理内核是MCU。周华表示,当前全球VPU产品存在三大主流门派:纯硬件、内置小CPU(单核)以及安谋科技独特的5个小型MCU内置架构。安谋科技这种创新架构在市场上堪称独一无二,它赋予了产品极高的灵活性,当然,这也大幅增加了验证的复杂性和资源投入。
这种独特架构的核心优势在于结合了硬件、MCU以及运行在MCU上的firmware固件和软件。MCU+firmware的配置解决了芯片开发中的一大痛点:流片后无法修改。
传统上,任何改动都需重新进行EAC和流片,成本极高,有了firmware固件后,即使在流片后,开发者仍能对码率控制、主观质量等进行调整优化,甚至解决一些硬件bug。此外,firmware与硬件的紧密交互大大减轻了主CPU的负担,使得即便使用算力较低的老式单片机也能驱动其VPU产品。
因此,这一架构不仅独特创新,而且带来了诸多好处,安谋科技一直沿用至今。
Arm独特的无损压缩技术AFBC是VPU或DPU开发中的常用技术,周华强调,“玲珑”VPU/DPU能够完全兼容Arm技术体系结构,与Mali GPU之间的数据实现无缝链接,压缩标准相互识别、格式相通。
结语
安谋科技预计从今年年底到明年,H.266的相关应用会进入布局周期。周华表示,目前能够支持H.266的IP厂家不多,这将成为安谋科技的抓手,抓住一些高端场景和客户,抢到先机,明年在客户产品布局上会发挥更大的作用。
自2018年独立运营以来,安谋科技始终致力于自研创新,先后推出了包括“周易”NPU、“星辰”CPU、“山海”SPU、“玲珑”VPU及DPU在内的多款处理器产品线,构建了一个成熟且高效协同的自研产品矩阵。此次“玲珑”VPU及DPU新产品的发布,不仅进一步完善了该公司的自研产品矩阵、推动了市场应用与商业化落地,也将进一步强化其生态建设与合作,提升其行业竞争力。