加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01、搜狐视频:转码CPU胜出
    • 02、快手:CPU+FPGA新应用
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

视频行业新应用,CPU、FPGA胜过GPU?

2021/04/26
292
阅读需 11 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

   

虽然GPU是AI的第一批受益者,快手、搜狐视频等头部视频企业的创新应用也正在大量采用CPUFPGA技术。

春节将至,是选择传统春晚还是网络综艺?这在前几年还不会成为一种选择。尽管2019年中国电视用户总规模超13.7亿,仍然是最大的视听媒介平台,但中国网络视频用户(含短视频)规模在2019年6月已达7.59亿,且增速依然强劲。即便是春晚这样的电视节目在2020年也选择和快手这样的视频企业合作互动,开展融合创新式体验,足以见证视频行业的崛起。

在视频行业繁荣发展的背后,离不开互联网技术的日新月异。其中,视频行业的创新更是其中的佼佼者:从商业模式上看,在短短几年中视频喊个也就进行了三次迭代——搜狐视频、优酷为代表的点播平台;’花椒、斗鱼为代表的直播平台;快手、抖音为代表的短视频平台。从内容上看,从网剧的日渐精良、到网络综艺的“奇葩”纷呈,甚至是用户原创内容UGC的全民火爆,视频行业大有取代传统娱乐的发展之势。前端应用的精彩纷呈,体现的是业务的变化,也导致了视频行业对数据中心底层技术需求的变化。这种变化与云、大数据和AI的发展息息相关——工作负载的多样化,云原生应用模型的兴起都让数据中心从统一平台向着多样化平台转变。

01、搜狐视频:转码CPU胜出

第一批进入视频行业的搜狐视频,经历过天价购买国外头部网剧版权的时代,如今将更多精力放在自制网剧的精良制作上,其中“法医秦明”,“无心法师”等口碑与流量俱佳的网剧作品奠定了搜狐视频的业界地位。随着视频行业逐渐进入全平台、全媒体化后,视频行业在数据中心的底层技术上不要不断投入,更要求快速创新。

这也促使搜狐和英特尔早在2011年就创建了联合实验室,英特尔最新技术会早于上市之前数月就率先引入搜狐;搜狐也会将新的业务场景迁移到英特尔的最新技术和产品,以新场景+新技术的方式确保视频用户的视听体验。其中,视频转码是一项关乎视觉体验的重要技术:

一是HDR转码,搜狐视频自主研发的HDR转码系统,将线上各种片库进行HDR转码,弥补了HDR视频源不足的缺陷,从而大幅提升了视频效果;

二是超分辨率,搜狐视频开发了基于深度学习的视频超分辨率转码系统,实现将现有的蓝光视频到4k视频的无损转换,可以提供大量的高质量4k视频源超分辨率;

三是老片翻新,搜狐视频利用AI与转码系统相结合构建了全自动的老片翻新转码系统,提升了大量老片的画面质量。

值得一提的是,云转码是搜狐视频的强项,可以实现实时转码,即用户在上传的时候就已经实现转码,上传完成时转码也基本完成,可以立即分发。

此外,一键实现添加滤镜,人脸识别,也是AI提升用户体验的用武之地。带宽成本高、时延时间长是视频行业面临的首要技术问题,而搜狐视频多地互连,多点同步,多种转码,就要求具备稳定性高,性能高效,技术协同的计算平台。尤其值得一提的是,目前搜狐线上视频全部采用CPU进行转码,发挥了英特尔CPU技术和生态的巨大优势,因为英特尔CPU的指令级优化是GPU上完全不具备的。

据悉,应用CPU转码,片源数量庞大的搜狐视频片库在三个月内就完成了所有片源的视频转码,将老片改头换面。为此,搜狐视频在视频转码系统中最新应用了英特尔第二代至强可扩展处理器和英特尔傲腾固态硬盘。据悉,代号为Skylake的英特尔6130系列处理器已经广泛应用,最新的Cascade Lake的6240系列处理器也已进入计划列表。

此外,搜狐视频和英特尔展开了多项联合创新,除了硬件软件人工智能等方面也一同合作,比如搜狐视频与英特尔在软件定义存储的性能优化、语音识别应用和推荐系统的加速与优化、DPDK网络负载均衡加速等方面也有很多探索,这对加速搜狐视频在深度学习领域的应用发挥了重要的作用。

02、快手:CPU+FPGA新应用

大数据和AI融入工作负载已经是大势所趋,它们在最火爆的短视频领域应用更是如火如荼。快手的 崛起首先让业界看到了视频行业还可以迅速切分出短视频这个潜力巨大的细分领域。诞生于2013年7月,彼时4G网络和智能手机开始普及,快手也算自带科技基因。

在后续的发展中,快手逐步证明自己“应科技而生”——使用包括大数据、机器学习、深度学习等技术用机器代替人力完成内容审核,并在内容生产、理解、分发、消费、互动等业务闭环的各个环节优化用户体验。如果你是短视频app深度用户,“娃娃脸”模板你肯定玩过。别小看这么一个看似简单快捷的功能,它实际上是在移动端实时实现的GAN技术,类似于iPhone手机上的emoji功能。

最大的不同是只有在iPhone X以上的机型才能实现的emoji功能,到了快手这里,哪怕用户使用的是一千元以下的机型依旧可以变换自如。

这就是快手商业模式背后的技术突破。现在,快手数据总量超过EB级,每天的请求数超过2亿,已经俨然成为一家AI+大数据驱动的公司。它对数据中心在存储、网络、计算三个方面的需求很明确:日均新增超过1500万个短视频,带来内容数据、行为数据以及随之而来的要对数据进行特征提取对存储的挑战;在训练和推理中因为特征参数越来越多,深度学习模型越来越深,模型越来越大,对传输网络带来挑战;千亿级的展示给计算和内存带来挑战。

这也使得快手成为第一批采用CPU+FPGA异构计算的企业。与GPU相比,FPGA因低功耗、低延迟、高性能、可编程等特点,已成为线上AI推理平台的重要选项;而GPU并不擅长推理应用场景,而被广泛应用在AI训练平台。

此外,FPGA相对GPU还有一个独特的优势——具备网卡口,这也源于它最早应用在通信领域。而针对FPGA相对劣势——软件开发难,英特尔推出了OpenCL的开发语言,从而降低了开发难度和开发周期。为此,快手基于英特尔FPGA提供的PAC A10、E3S10和PAC S10板卡,已经构建出了三大类型的异构计算平台,并将在数据中心部署FPGA的创新应用归结为既要“上天”,又要“入地”。

“上天”指的是FPGA是部署在云上的,首要问题是需要在数据中心找到合适的业务场景,能够提供有价值的解决方案,它需有一定的通用性和规模化。具体体现为提高业务的服务容量,这需要充分利用FPGA的优势之一:确定性的低延时,来降低线上服务的延时。

另外也需要采用一些高层次的开发语言(如OpenCL,甚至OpenVINO这种推理应用框架)来加速硬件交付,以匹配软件开发的速度。

“入地”则针对的是部署,成本、可靠性、稳定性、能耗比上的竞争力一个也不能少。另外,快手还利用容器实现规模化和弹性部署。

具体实现来说,让FPGA分担计算为主的工作负载实现DRN(Deep Ranking Network)加速,消除排序网络在业务高峰期的抖动;通过分块完成矩阵乘法来实现算法到FGPA阵列结构的映射;采用Systolic Array结构,通过片上大容量分布式SRAM,满足计算单元高算力、高带宽的需求,并降低了功耗。

用三个简洁的接口将用软件封装好的硬件交付给业务使用,满足动态更新的要求,提供充足的算力。此外,在数据处理方面,为了优化视频检索的时间,提升高并发下的检索效率,快手抛弃了受限于内存价格和单台服务器上内存容量的KV数据库,转投英特尔傲腾数据中心级持久内存构建了异构存储,在Redis和推荐系统中都所有应用。

通过实践,快手发现在满足业务性能需求的前提下,用傲腾持久内存代替DRAM内存,使得快手该存储系统整体TCO大幅降低,AI算法效率大幅提升。

从搜狐视频和快手的最新实践中可以发现,它们在创新应用场景下都大量采用了CPU和FPGA技术,虽然GPU因为AI的兴起成为第一批异构计算的受益者,但是FPGA真正崛起,而CPU也随着新一代技术的更新向多元化应用进一步拓展。

相关推荐

电子产业图谱

科技茱比莉主编,今日头条号优秀科技领域创作者,百度百家号、搜狐号、雪球号、一点资讯、搜狗号、同花顺财经等平台特邀科技领域作者,原中国计算机报副总编,中国行业新闻二等奖获得者,十大科技自媒体优秀作者,同时也是全国科技策划人和主持人。