用户对于视频内容的需求日益增长,并且对质量的要求愈发严苛。此外,5G 的全面商用以及大数据、AI 等技术的大范围推行,都将重新定义并塑造整个行业,这对技术(无论是硬件还是软件层面)都带来了全新的挑战。
一方面,4K 电视日渐普及且即将向 8K 过渡和进化,而随着 5G 的落地,不论是娱乐装备还是信号接收设备,以往的互联网瓶颈被打破,内容提供商面临的一大挑战在于给用户提供更丰富、质量更高的内容。
另一方面,用户端和供给端更多元的互动形式也成为一大需求,以往传统的“离线式”渲染、预录式的内容或者无法加入更多互动、特效的直播视频内容,已经不能够满足当前广播电视行业的需求。
一个“超高清、实时”时代的全面来临
GPU 技术是 NVIDIA 的看家本领,作为 GPU 的发明者,十几年前,NVIDIA 在中国的广电行业掀起了 3D 技术加速内容的创造和展现潮流,3D 建模、3D 图形图像等技术在广电素材的片源制作中使用,炫酷的特效、逼真的效果,开启了视觉发展的新时代。
时间来到 2018 年 8 月,NVIDIA 发布了新一代 GPU 架构——Turing(图灵),同时基于此架构,宣布了一系列 Quadro RTX 新品,正式宣告了实时光线追踪时代的到来。Turing 架构被 NVIDIA CEO 黄仁勋称作自 2006 年 CUDA GPU 发明以来最大的飞跃,是计算机图形产品的一次重新发明,面向影视、游戏、建筑等视效专业领域。
Turing 架构及相关产品在发布后的十天,就正式在中国市场亮相,潜藏了对于中国市场的巨大决心和野心。
GPU 激流勇进的这些年,也伴随了中国超高清视频产业链急剧的升级换代。视频制播、网络传输、终端呈现、内容供给等环节加速发展;超高清电视、电影摄像机、移动智能终端、显示器、VR 设备等终端产品日益丰富;视频内容储备不断扩充,超高清电视频道逐渐普及。未来,超高清视频还有望被广泛应用于广播电视、文教娱乐、医疗健康、安防监控、智能交通、工业制造等领域。
根据今年 5 月工信部和广电总局发布的《超高清视频标准体系建设指南(2020 版)》,预计到 2022 年,我国超高清视频产业总体规模将超过 4 万亿元。指南提出,重点研制基础通用、内容制播、终端呈现、行业应用等关键技术标准及测试标准。
也正是随着市场条件和产业基础的日渐成熟,产业各个环节进行深度合作、差异化创新的意愿也越来越强烈,对于基础的技术创新也越来越关注。
5G+AI 给广电基础架构带来的机遇和挑战
在今年的北京国际广播电影电视展览会(BIRTV)期间,NVIDIA 携多位合作伙伴亮相,对于当前的行业趋势、机遇和挑战,以及 AI/ 深度学习 / 机器学习所带来的行业价值,进行了深入的阐述和讨论。
在 NVIDIA 看来,对于广播公司来说,向 OTT/SVoD 过渡成为眼前的关键趋势。所谓 OTT(over the top),是基于开放互联网的各种视频及数据服务业务,也泛指互联网电视业务。而随着数字视频的显著发展,SVoD(订阅视频点播)这种业务模式也将越来越受用户欢迎。
根据联合市场研究,到 2025 年,OTT 市场预计将达到 3300 亿美元。这一增长将非常庞大,主要由内容驱动,要么是新内容急剧爆炸,要么是对旧内容进行现代化制作。例如好莱坞六七十年代甚至三四十年代的老片子,现在可以用 AI 来上色,通过数字化手段达到 1080P 甚至 4K、8K,重新发行蓝光碟甚至更高清晰度的内容。这种“炒冷饭”的方式,将会带来新的盈利增长点。
据 NVIDIA 中国区高级技术市场经理施澄秋介绍,整个广播电视行业当前需要进行的非常重要的一个思考就是,随着 AI 应用的火爆,实时的运算需求越来越多。一个强大的推荐系统,能够进行视频的管理、分类、标签、发放、预判,在用户进行搜索之前就可以根据浏览记录和购买习惯精准地选择和摘录出用户需要的内容并推送。特别是随着 5G 的商用落地,庞大的内容库整理和制作好之后,在线流媒体分发平台就可以利用这个方式给用户推送喜爱的内容和产品。
在可预见的未来,不论是娱乐装置还是信号接受设备,以往受制于互联网的瓶颈都已经被打破。如何能够给用户提供更丰富、质量更高的内容是一大挑战;此外,用户和供给方、需求方的多方面融合、互动,也给整个行业带来了巨大挑战。
被 GPU/ 深度学习 / 机器学习颠覆的广电行业
这些挑战正在迫使广电从业者,在满足可靠性和信任水平的同时更新基础架构。而 GPU/ 深度学习 / 机器学习正在发挥出越来越大的价值。
整个广电系统典型的工作流程已经被急剧改变。传统的流程是串行的,大致是:素材采编 - 后期编辑 - 制作成母带 - 在广电系统或电视台去播放。这一过程中,有着巨量的“前进、后退、审校”工作。对于广大系统从业人员来说,这个时间周期非常长,如果涉及到修改,前后端的沟通成本、时间成本都很高。
基于 RTX 平台,NVIDIA 和合作伙伴提供了一套新的工作流程。不同阶段的工作人员可以实时互动,甚至可以在工作流中发表意见、提出想法,或者立即反馈到前端的美工人员 / 建模人员等。这种完整的实时互动,减少了时间成本,也大幅度降低了物料成本及制作成本。
总体而言,NVIDIA GPU 在广电行业的应用,包括 Turing 架构的 Quadro RTX GPU 和 RTX 平台,基于深度学习方法的 NVIDIA NGX SDK,以及可实现实时离线渲染、加速桌面渲染以及提供虚拟工作站性能的 NVIDIA RTX 服务器。
老片焕新、渣图升级离不开的黑科技
事实上,今天很多 UGC 内容不全是通过专业设备制作或采集的素材,比如一个突发新闻很可能是无人机拍摄的,也有可能是现场群众用普通像素的手机拍摄的,这些素材在传统的广电行业应用中可能就是不合格或不可用的素材,或是只能通过小的模糊画面来呈现,或是慢动作卡顿很严重。再比如,一些珍贵的素材、胶片等,因为长时间保存或是受到污染,导致某些画面缺损了像素。
对于这些情况,NVIDIA 及合作伙伴有“无中生有”的大杀器。
NGX 技术利用深度神经网络的 AI 学习来使用 GPU,事先对 GPU 训练好的深度神经网络可以自动完成画面的修补、美化或降噪。此外,通过 NGX 技术还可以达到实时的 4K 超级分辨率(SUPER-RES),或是基于 AI 的超级慢动作。
NVIDIA 和强氧科技推出了一个软件工具叫“达芬奇调色板”,号称可以让广电从业人员实现大师级的渲染效果。它利用 Quadro RTX GPU 智能识别视频内容和物体,新增的 DaVinci Neural Engine 神经网络引擎可以使用 GPU 实现 AI 和深度学习能力,还可以让这些 GPU 参与到编解码的运算中。例如对人物的面部智能追踪,一旦定义好面部的相应参数,整个视频中涉及这个人物都会自动添加好相关的特征,大大节省了从业人员的工作量。
当虹科技是一家智能视频解决方案和视频云服务提供商,基于 NVIDIA GPU 深度学习超分转码技术实现的“超分离线增强系统”,可以把早期的文件素材或光盘上的甚至是较低分辨率的素材进行实时、在线或是离线的基于 AI 的转码,使之符合 4K 和 8K 视频播出的要求。而且利用当前 CDN 技术、网络优化技术,能让互联网平台上的受众看到转码而来的超级分辨率的画质。
下图是基于 AI 超分深度学习的超分性能展示,从 2K 超分到 4K 帧率,可以看出使用 NVIDIA GPU 和使用 CPU 显著的性能对比。这是一个硬性指标,对于达到广播级帧率的播出需求至关重要。
抖音和直播带来的商机
在抖音、快手等小视频大行其道的今天,一个很大的困境来自于:很多旧影片以及传统广电行业拍摄的素材都是横版,但是今天的移动端、智能手机用户看的都是竖版的素材,所以面临的一大挑战就是如何将素材迅速转化为适用于移动端的内容。由 NVIDIA 提供 AI 技术支持的 ADOBE SENSEI,可以自动切割画面,变成适合于竖屏移动端用户看的内容。
此外,虚拟角色也是当下热门的应用之一。例如借助虚幻引擎,在直播中插入虚拟角色,让整个画面更生动、有吸引力。通过利用 NVIDIA 的实时光线追踪技术及深度学习技术,利用 AI 做边缘反锯齿处理和超采样处理之后,可以给用户提供更栩栩如生、逼真的效果。
Epic Games 的核心产品就是虚幻引擎,据该公司商务发展经理徐良安介绍,二十多年前其虚幻引擎只是一个很小的游戏工具,但今天已经发展成为了先进的图形引擎。今天,小到实时预报,大到现场直播活动,背后都涉及了大量的基于虚幻引擎的实时工具流程。
近几年,虚幻引擎的应用越来越多,Virtual Production(虚拟拍摄)的制作流程越来越受欢迎,它摆脱了传统早、中、后期的制作流程,更为高效、直观,特别是在纯虚拟动画制作的公司中大受欢迎。
另外,多屏显示也在打通虚拟与现实的结合。早期采用绿幕抠图的方式,现在则是通过真实的人+虚拟背景的结合,主电脑负责打通虚幻和现实中的摄像机,其他每台电脑负责渲染画面中的一部分,保证了虚实的同步,也使得场景更为生动灵活。
GPU 算力制高点实现的创新
快速颠覆传统视频制作的流程和方式,因为 AI 显得唾手可得。而这一切的背后,都离不开强大的 GPU 做算力支撑,以及深度学习 / 机器学习所带来的改变。
施澄秋谈到,随着内容的增加和质量的提升,给 CPU、GPU、存储、网络等带来的挑战呈几何级爆炸,尤其是基础的 IT 设施把这些内容推送到用户端的时候,带来的挑战是前所未有的。无论是编码还是解码,都对算力有巨大的需求。NVIDIA GPU 解码的功力是与生俱来的,从 1080P 到 8K 分辨率的实时解码,RTX 6000G GPU 可以做到符合每秒 24 帧的播出级质量实时解码,如果用 CPU 进行解码的话,无论是消费级产品还是专业级服务器产品,数十个核心都达不到实时 8K 的解码能力。
从最初对视频的实时渲染,到后来的虚拟场景布设,再到大规模的算力集群应用,NVIDIA GPU 在国内广电行业的影响力越来越大。特别是从去年开始,全球顶级的视效公司都开始围绕 GPU 对实时引擎制作流程进行更迭改造。
博采传媒也注意到了这些趋势。看到好莱坞大刀阔斧边开发边生产,也联合多家国内 LED 生产厂商展开高分辨率 LED 屏的技术指标测试,目标是开发出符合电影拍摄标准的高品质 LED 屏。
但是,如何能实现一块 1.8 亿个像素点对点驱动的屏幕、并保持高帧率实时?归根结底两个字:算力。当时,博采传媒选择了 NVIDIA RTX 8000,搭建了一个由多台服务器组成的 nDisplay 群集,完成了这一满足 8K 取景实拍的巨型 LED 环幕。
“GPU 渲染比以前用 CPU 的成本优秀太多了,但是,这仍然是我们制作流程的一个瓶颈”,博采传媒前期部总监沈辰奇说,“因此我们决定把‘虚幻引擎和实时’变成工作环节中的重要部分。”
基于 GPU 实时渲染,目前还有哪些瓶颈?沈辰奇告诉<与非网>,主要还是“尺度”的问题。比如:数字人头发的细节程度做到多高?建模的面数做到多高?如果要实现一个特别写实的人像,可能脸部的模型就要达到几百万的面数,再加上毛发,可能面数就接近 500 万或 600 万了。在这个技术层面要实现实时,目前唯一的出路就是靠超强算力来运行,所以瓶颈还是在于算力的优化。
8K 渲染是当前核心创新点
石墨系统是新奥特核心的图文系统,支持 4K/8K 的超高清呈现。基于 NVIDIA GPU 及 CUDA 产品,提升了在 8K 分辨率、视频质量的处理能力等。
新奥特产品中心总监王宁表示,8K 技术已逐步成熟,基于 8K 的渲染是核心。依托于 Quadro GV100 显卡,实现了石墨系统的在线渲染;其第一代 8K 字幕借由 NVIDIA 显卡,达到了超高清的字幕输出;第二代 8K 字幕中,采用了 1-2 块 Quadro RTX 8000 显卡,实现了更多层次的超高清 8K 输出。
超高清视频传输的困境,智能网卡来破!
NVIDIA 去年斥资 69 亿美元收购以色列芯片厂商 Mellanox 一度引起行业关注,通过这宗收购,NVIDIA 的加速计算平台与 Mellanox 的加速网络平台相结合,以在高性能计算领域实现 1+1>2 的效果。
但不只是数据中心,广电行业的超高清视频传输也需要这样的赋能。
NVIDIA MELLANOX 高级市场经理陈龙告诉<与非网>,在 1080P 以前,广电行业的视频传输是靠 SDI 的方式进行的。但是,随着现在 4K/8K 超高清业务的兴起,整个传输带宽都在极剧膨胀,传统的 SDI 视频传输遇到了挑战。
如果按照原有的传输方式,为了满足 4K 大约需要 8G-9G 的传输带宽,原有的 3G SDI 线要么 4 根达到 12G 带宽,要么就换成 12G 的 SDI 传输方式,但这两个各有弊端。首先为了实现 4K 传输,所使用的传输线需要是原来的 14 倍,组网复杂、成本高昂;如果换成 12G SDI,由于高速信号在 SDI 铜缆的传输中,传输距离跟速率是成反比的,大概只能达到 50 米的传输距离,远远不能满足广电行业的视频传输需要。如果未来传输 8K 的话,要求最低 25G-30G、最高 140G 的带宽,已经不是现有 SDI 的传输方式能够解决的。高性能硬件就成为了迈向超高清视频的必经之路。
“视频行业从 SDI 走向 IP 成为大势所趋”,陈龙谈到,“以数据中心的 IP 解决方案为例,整个数据中心带宽已经一跃到现在的 400G,不仅成本上比现有的定制化 SDI 更低,带宽也提升了。不过切换到 IP 传输方案上,在带宽问题解决的同时,也付出一定的代价。因为需要在一个厚重的网络协议栈上处理,给终端 CPU 负载带来很大的压力。”
那么,从 SDI 切换到 IP 化的最后一公里,有没有更优的方案?Mellanox 基于在网卡领域的积累,通过硬件卸载,把厚重的网络协议栈处理切换到网卡上,在加速整个网络协议栈处理的同时,降低了 CPU 负载,也降低了服务器的整体购置成本。
出于这些加速需求,智能网卡越来越盛行。不过市面上的产品有的基于多核 CPU,有的基于 FPGA。那么 NVIDIA 的产品有什么不同?又有哪些优势?
陈龙表示,其产品形态主要有两类:一类是 Connect-X 系列,另一类 Smart-X 系列,对应 DPU 系列网卡,内部是一个 8 核的 Arm CPU,然后结合 Connect-X 系列集成智能网卡。NVIDIA 主体的策略方向是:采用 RAM CPU 的技术路线。这个路线带来了一系列好处,NVIDIA 网卡、尤其是高速网卡可以说是业界霸主,全球大概有将近 90%以上的高速网卡都是使用 NVIDIA MELLANOX 的网卡,所以本身就具有智能网卡里面“量”的优势。根据摩尔定律,量越高、成本越低,这是一方面优势;另外行业有不同应用需求,和业界其他智能网卡进行比较,所支持的特性较全,再结合集成的 Arm CPU,在智能方面又得到了提升。
广电推行 5G+4K/8K+AI,NVIDIA 扮演什么角色?
5G+4K/8K+AI 的融合持续升温,去年 8 月,中央广播电视总台进一步明确了 5G+4K/8K+AI 的战略布局。超高清是电视发展的必然,5G 为广电媒体插上了翅膀,而 AI 则将彻底重构电视媒体的生产传播。这其中,NVIDIA 将扮演什么角色?或是有志于贡献哪些价值?
施澄秋告诉<与非网>,NVIDIA 和广电行业主要有三大结合点:第一是传统意义上的设计、渲染等,让软件使用更方便,制作更高效、高质。第二就是 AI 应用,过去一年多,AI 生态合作伙伴是布局的重点。NVIDIA 在中国刚刚突破了 700 家 AI 生态合作伙伴,其中广电行业约有八九十家。第三是面对疫情期间的特殊环境,推行远程办公、虚拟化的协同设计等,提供了诸如 RTX Server 解决方案,帮助用户解决了很多痛点。未来,NVIDIA 会结合 GPU、全球软件网络和 AI 合作伙伴,持续从这三方面发力。