加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

视频云背后的硬核实力

2023/02/16
2045
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

算力时代,靠吃「硬件红利」便能搞定新应用场景的「甜蜜期」已经过去。

人类社会的每一次科技跃迁,其本质都是计算力的突破与演进。

算盘拨出农耕文明的繁荣,机械计算机催生出第一次工业革命的袅袅蒸汽,而云计算的发展让万物互联成为真正可能。

在数据爆发式增长以及算法日益精进的大背景下,属于「算力」的时代俨然到来。

以音视频行业为例,趋近饱和的场景渗透率、用户对体验的极致追求、多元化的场景及技术需求,为底层算力和视频编码能力带来更大的挑战。

然而,在算力需求暴涨的同时,摩尔定律的演进速度却在放缓,「硬件红利」已然见底。

对于整个视频云赛道的算力困局,不仅需要上层软件系统的优化,也需要在底层硬件基础设施上,寻求破局之法。

风口之下的算力困境

我们已经迈入社会视频化时代。视频无处不在,由此产生的流量已呈井喷式增长。

据《2022 年中国网络视听发展研究报告》披露,截至 2021年12月,我国网络视频(含短视频)用户规模达9.75 亿,较2020年12月增长4794万,占网民整体的94.5%。

网络视听正成为大众的娱乐刚需,视频正在成为各行业连接客户最广泛的载体,也成为各巨头抢占风口的关键点。

而在5G时代,视频流量将进一步增长。

视频流量激增的另一大原因,是用户对视频体验的「不将就」。在视频规模持续增长的同时,随着网络和终端硬件设备的迭代,用户对视频清晰度体验的追求持续提升;视频超高清化也是继视频数字化之后的新一轮重大技术革新。

移动互联网终端观看分辨率从最开始的360P,480P,快速提升到720P,1080P 以及近年出现的4K/8K超高清视频。

当前,国家也连续出台超高清产业支持措施并加速应用,如:5G+8K超高清技术在冬奥会和春晚实现商用;体育直播开始进入到4K HDR直播时代。

除了高分辨率,沉浸式视频体验还追求高帧率和宽色域,而每一次分辨率的提升,帧率的提升,色域增加带来的都是视频信息量的成倍增加。

因此,需要技术解决方案能更快应对更高清晰度、更低时延的视频编解码和转码,满足高清、高帧率、宽色域视频所带来的不断“扩容”的音视频数据流。

难以调和的「视频编解码」矛盾

由于Raw视频数据(原始图像编码数据)是非常大的,如果不进行编码和压缩,不论是视频的存储还是传输,都将带来很大的麻烦,视频编码技术便是由此而来。

视频编解码起源于广播电视,从1951年第一部数字电视和广播诞生起,广播电视在很长一段时间里是视频编解码技术变革的核心推动力。

而到互联网时代,随着互联网的高速发展,使用互联网的用户和视频流量出现井喷式增长,互联网成为视频编码的主战场。

为了应对视频流量的不断增长,视频标准组织一直在推动视频编码技术的持续迭代。

从MPEG2开始,视频编码标准压缩率大约每10年提升50%,以2021年推出的h.266 为例:相对于h.265压缩率提升50%,但其编码计算成本提升15倍。

然而,用户对视频极致体验的追求与视频编码的演进其实存在着巨大的矛盾。

  • 编码标准升级速度远慢于视频信息量膨胀的速度:「十年磨一剑」的视频编解码技术(10年50%压缩率的提升)已经远远慢于视频化和体验升级带来的流量增长(过去3年音视频流量已高达68.9%的增速),而未来带宽压力会越来越大。
  • 新编码标准压缩率的提升远低于视频分辨率提升的速度:每一代编码标准的演进,都是在不断探索极限压缩率。新一代的编码标准对比上一代的标准通常有 50% 的压缩率提升。然而如果视频分辨率每提升一档,比如360P到720P,则会使信息量增加 4 倍。
  • 新编码标准复杂度的增加远高于CPU处理能力的增加:新一代的编码标准对比上一代的标准大多增加10倍以上的复杂度,远高于CPU处理能力的增强,而视频编码的高复杂度导致编码技术难以普惠,尤其在实时场景。

随着AR,VR时代的到来,4K-8K高分辨率,60-120FPS高帧率,10-12bit宽色域,让视频的信息量更是成倍增加;加之低延时意味着对编码速度有更高的要求;而CPU芯片处理能力也不再遵循摩尔定律快速增长,视频体验极致化,与带宽、计算成本、编码速度等高要求之间的矛盾冲突会越来越严重。

软硬协同,锚定性能升级

视频编码与视频处理为计算密集型场景,面对视频云赛道的算力困局,如何让高压缩率的编码算法,更加普惠?

解法是:软硬协同+深度自研编码内核。

在该方向,我们一直在持续优化、迭代,而倚天ECS的出现带来更好的答案。

2021年云栖大会,平头哥半导体发布首颗为云而生的CPU芯片倚天710。倚天710单芯片容纳高达600亿晶体管;在芯片架构上,基于ARMv9架构,内含128核CPU,主频最高达到3.2GHz,能同时兼顾性能和功耗。在内存和接口方面,集成DDR5、PCIe5.0等技术,能有效提升芯片的传输速率,并且可适配云的不同应用场景。

经过一年的业务验证,倚天710已大规模部署并提供云上服务,算力性价比提升超 30%,单位算力功耗降低60%。阿里云提供丰富的生态工具,支持全应用生态适配,0代码修改即可完成主流业务迁移。倚天710云实例已应用于阿里巴巴集团核心业务,并服务多家知名互联网及科技公司。未来2年,阿里云20%的新增算力将使用自研CPU。

搭载倚天710的ECS实例自设计初就是一款云原生产品,凭借其灵活、先进、弹性的云原生芯片特性和优异的CPU算力,超低功耗,与视频云的转码服务特点强匹配,为视频云云原生转码业务带来更多可能。

基于倚天ECS,阿里云视频云与平头哥团队联合,对s264、s265编码器进行深度优化。

最终实现:相对于c7云实例,转码性能提升30%,在8K直播场景中提升达到33%,助力更普惠,更高清的转码服务。

那么,具体是如何做到的呢?我们一起来看下倚天710加持的这款云原生产品,如何为视频云云原生转码带来更多想象空间。

128核心均为物理核,独享计算单元

倚天710单颗CPU即实现了128核的高密度设计,高并发负载下可实现高线性度性能增长;同时处理器无超线程概念,避免了性能争抢的问题:独享物理核,性能更强劲。

传统CPU架构是两个vCPU/HT共享一个物理核,1份ALU。ECS倚天实例采用的是独享物理核心方式,这可以让算力密集的计算指令不必排队、不必争抢,计算速度更快。

独享Cache,应用缓存更高效,更大的独享L1/L2 cache以及SLC cache容量,包括L1 64K+64K,L2 1M per core,SLC 128M

在Cache维度,过去两个vCPU/HT共享一二级缓存,相互争抢,性能波动较为严重。采用倚天710独享Cache的设计,让vCPU之间相互不影响,为重负载计算带来更高性能。

高能效不降频,即使高并发负载下每个核心仍然能够保持稳定的计算吞吐率

影响算力性能的关键因素,除了核的资源,还有主频。

以视频编码为例,传统架构CPU在并发超过4路后,性能下降40%,这背后的原因是高算力负载很容易造成功耗过大,温度上升,因此采用降频规避,进而影响了性能。而倚天710功耗相比主流CPU有大幅下降,没有任何降频问题。

在视频编解码四路以上时,代表倚天的橙色部分基本保持恒定,其他主流CPU则会降低幅度40%。

高效的扩展指令集和可伸缩向量指令架构,提供强大算力

倚天710还针对特定算法场景进行了指令集加速与优化。比如像SVE等矢量计算技术,其中BF16/INT8 mmla指令可实现高效的矩阵乘法运算,此外还支持Hash、CRC32等加速指令,可以让单条指令并行处理更多数据,大幅提升视频编解码、AI编解码增强等场景性能。

四维优化,释放「软硬结合」最大效能

基于阿里自研的倚天710芯片进行优化,通过深度重构视频编码数据结构、并行框架,重新调优快速算法策略,从软件、汇编、硬件层面跨层深度优化,打造ARM友好的视频编码器的同时,塑造极致性能。

主要体现在以下四方面的核心优化:

指令优化

计算密集型的算子函数通过汇编实现单指令多数据操作优化,除常规的SIMD汇编指令优化外,基于倚天710的特点,在视频编码中充分利用可伸缩向量指令集,如mmla、dot、zip等, 通过优化流水线排布,利用高吞吐低延时的指令优势,塑造更高的汇编加速比,总体性能提升40%。

例如:实现同样的数据加载功能,充分利用倚天多流水线技术和高吞吐低延时的指令组合,实现数据加载效率提升60%:

访存优化

在访存较为频繁的算法接口中,结合倚天710 SVE寄存器的特性, 设计内存预取算法以及数据访问流程的优化,可以大大减少内存访问次数,从而提升代码的执行效率。

例如:在ME的搜索算法优化中,如一次六边形搜索,原先需要重复访问多次内存数据,经过内存预取的算法优化,把重复访问的数据保存在倚天710的SVE寄存器中,运算时直接使用,可以减少3.8 倍的行访问次数。

算法并行化

在计算密集型的算子函数进行了汇编指令优化的基础上,充分对有性能增益,但是仍然是串行处理数据的算法也进行了并行处理优化,达成了软硬件的深度结合,算法执行效率大大提升。

例如:SDH的算法软硬结合,通过SVE寄存器和P寄存器的使用,并行处理16个系数,能够快速计算得到最佳位置,性能提升了40%以上。

系统层优化

在算法优化的基础上,针对视频转码特点,结合倚天710平台和视频云特有场景下进行系统配置优化,将二者结合的能力发挥到最大。

例如:系统的安全水位的控制,充分利用了倚天710物理核、不降频、不共享缓存和ALU的特性,在高负载场景下仍然性能不下降,可以放心地提升安全水位,充分发挥芯片的计算能力,获得更好的性能表现。

普惠算力 赋能千行百业视频化

未来,我们将基于自研处理器,深度结合视频云业务,从架构、指令、访存等方面优化设计,赋能视频云业务升级发展。同时,深耕软硬件结合提升自研芯片竞争力,优化算法、加速库、驱动、固件一体化设计,支持视频云不断探索创新音视频技术。

目前倚天ECS已经在视频云点播上线,性能提升30%,压缩率提升5%。借助倚天710的超强算力,倚天ECS在Saliencymap推理上成本低于G6ni 50% 以上,在窄带高清的普惠化方面展现出了巨大空间。

 

 

相关推荐

电子产业图谱