腾讯会议的技术突破，新一代音频编解码标准来了！

今天这篇文章，我们要从一则新闻开始说起。

2024年6月12日-15日，AVS工作组第八十九次会议在浙江绍兴召开。会议上，工作组正式宣布，AVS3P10标准已经完成最终委员会草案（FCD）阶段，即将正式对外发布。

这条新闻对很多人来说有点懵——AVS是个啥？AVS3P10标准又是干啥用的？这条新闻和我有关系吗？

小枣君可以很负责任地告诉大家，这条新闻和我们每个人都有关系，而且关系非常密切。

接下来，且听我细细解读。

█ AVS3P10，到底是什么？

AVS工作组，中文全称叫数字音视频编解码技术标准工作组，是国内多媒体领域最重要的标准化组织。

这个组织从2002年6月成立以来，一直在牵头AVS（Audio Video Coding Standard）数字音视频标准的制定工作，推出了AVS1、AVS2等多个版本。

如今，他们正在重点研究的AVS3，是第三代AVS标准，也叫《信息技术智能媒体编码》系列国家标准。

AVS3P10标准，是AVS3的组成部分（第10部分实时语音），由腾讯提议启动、推进和维护，并经过AVS音频组多家成员单位共同贡献，专门面向实时语音通信

（RTC，Real-time Communication）场景。简单来说，就是研究如何对语音进行编码，实现低带宽环境下的高质量传输。

开头的那则新闻，是告诉大家：AVS3P10标准已经基本制定完成，即将正式发布。

█ AVS3P10，究竟有多强？

一个语音编码标准，为什么值得关注呢？

原因很简单，因为这个AVS3P10标准不仅很强，而且也很特别。

AVS3P10是全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准，为全球语音技术的发展带来了革命性突破。

我们来做一个简单的数学题。

我们进行语音通话，需要先通过麦克风拾音，将声音变成电信号。这个电信号是模拟信号，需要通过设备电路完成采样、量化、编码，变成数字信号。

如果对一个原始声音信号采用16000Hz的采样率（每秒采集16000个点），16bit的位深度（每个点用16bit进行表示），不做任何压缩的话，1秒的音频大小就是16000×16=256000bit。音频码率（单位时间传送的数据位数）是256kbps。

传统的语音编码器，包括AVS、ITU-T、3GPP、IETF等标准语音编码器，能够将码率压到原始音频的1/10。在16-20kbps左右码率时，能够恢复出高质量宽带语音；在30-35kbps，可以恢复出高质量超宽带甚至全带语音。然而，当码率进一步降低时（例如10kbps以下），恢复质量下降明显，影响用户体验。

那么，AVS3P10能支持多低的码率呢？

6kbps，大约是传统编码器的1/3。

AVS3P10标准制定过程中，采用按照ITU-T P.800 DCR主观质量评价规范，并由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。

主观测试结果表明，在单声道编码场景，AVS3P10在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分（最高分5分），体现出明显优势，最低码率可达5.9kbps。

在ITU-T P.863客观质量评价实验中，AVS3P10 RM0也有出色表现。在所有8个测试码率中，AVS3P10 RM0均超过4.0 MOS，最高在4.45 MOS。

AVS工作组给出了极高的评价：“AVS3P10 实时语音编码，作为新一代的语音编解码技术标准，是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求，体现了业界最高水平，将为用户带来前所未有的性能和体验，引领行业进入一个全新的时代。”

也许有些读者会问，在我们目前这个高速互联网时代，家里和公司的宽带都是100Mbps以上，手机4G/5G速率也很高，支持这么低的码率，真的有意义吗？

答案是有意义。

我们现在通信技术很先进，网络理论速率很高，但在实际环境中，经常会遇到网络信号不好的情况，例如电梯、地库、隧道、高铁、地铁等环境，通话总是会卡顿。

AVS3P10仅需现有主流标准1/3的编码码率，就能实现同等清晰的音质。这意味着，即使用户身处网络很差的环境，也能够进行线上会议、语音通话。

█ AVS3P10，为什么这么强？

AVS3P10之所以能够有如此优异的表现，归根到底，还是因为有AI的助力。

作为AVS3P10标准的主要推动者，腾讯在经典信号处理过程中引入了深度神经网络，以此大幅提升编解码效率，突破传统音频编解码器的香农极限限制。

具体来说，AVS3P10会提前对海量语音信号进行建模学习。在编码时，提取最核心的特征参数，并根据重要性进行码率智能分配。相比传统编码器按照物理规则提取参数，AVS3P10的效率更高。

在编码和解码过程中，AVS3P10的深度学习网络是同时进行联合训练的，确保解码端能够“领会”编码端的意图，更准确地重建语音中的细微结构，避免声音信号失真。

将AI引入编解码器，不可避免需要考虑到算力和功耗的问题。如果算法对算力的要求过高，一方面要考虑到设备是否能够跑得动（快速流畅执行算法），另一方面，也要考虑高算力带来的高功耗，进而影响设备的发热和待机时长。

据了解，AVS3P10所采用的模型只有百K规模，是一个在体积、效率、功耗上都有严格限制的、极为精密的小模型。

换句话说，腾讯技术团队基于自身深厚的AI底层技术能力，实现了“小模型、高性能”的效果，打造出了一个世界级水平的产品。

█ AVS3P10，是如何诞生的？

腾讯作为一个互联网公司，为什么会牵头推出一个音频编解码技术标准呢？

其实，腾讯之所以会这么做，和自己的拳头产品腾讯会议有密切关系。

2020年，腾讯会议团队就提出了低码率下保证高质量语音的需求。

腾讯云副总裁、腾讯会议天籁实验室主任商世东说：“腾讯会议有亿级用户的真实场景。从我们的真实观察来看，用户遭遇弱网环境的案例比比皆是，这导致了即便单纯从降低码率这一个维度看，我们把技术提升到极致就已经有很大的收益；甚至，还会有新的、意想不到的应用场景被开拓出来”。

基于传统方法继续降低码率，路径是极为困难的，几乎不可能实现。于是，他们想到了AI。

天籁实验室主动联系了腾讯AI Lab团队，商讨通过深度神经网络进一步提升音频编解码能力的可能性。经过紧锣密鼓的研发，2021年，他们自研推出了腾讯首款神经网络语音编解码器——Penguins。

他们将Penguins规模用于腾讯会议的驾驶模式、弱网模式及QQ语音通话等场景，支持了亿级用户的流畅沟通，收到了非常好的反馈，大幅改善了用户的音频通信体验。

初战告捷，腾讯团队深受鼓舞。于是，他们进一步考虑，是不是可以把Penguins变成行业标准，让更多的用户也享受到它所带来的体验改善呢？

2023年3月，在AVS工作组第84次会议上，腾讯团队提议在AVS音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析，在第85次会议上，AVS工作组正式立项AVS3P10实时语音编码项目。

如今，仅用了一年的时间，AVS3P10就完成了多轮会议的审议、测试和验证，走向正式发布，堪称神速。

AVS工作组是这么评价AVS3P10的——标准制定速度最快、标准交付质量最高、测试得到充分好评。

█ AVS3P10，意味着什么？

成为行业标准，是AVS3P10前进道路上的一个重要里程碑。但这并不是终点。接下来，它还要进入市场，面临来自更多用户以及应用场景的考验。

作为中国自主知识产权的音频编解码标准，它需要和国际上其它主流及新兴标准继续进行PK。

AVS3P10是以AI为核心的技术，和传统纯信号处理的编解码技术存在很大差异。结合性能损失等因素考虑，AVS3P10和其它解码标准并不兼容。

腾讯会议天籁实验室专家研究员、AVS3P10标准Editor肖玮表示，在现有所有通信体系中，设备会安装很多的编码器，比如ITU-T的经典711、经典722，以及AMAWB、3GPP、EVS，甚至IETF、OPUS、音频的ANC等。不同的编码器，可以应对不同的应用场景。AVS3P10针对这些编码器并不是取代关系，而是根据场景需求，选择进行新增。如果系统判断两端都支持AVS3P10，则进行透传。如果另一端不支持，可以通过转码进行解决。

AVS3P10标准正式发布后，凭借自身的优异性能，一定可以赢得越来越多厂商的认可，逐渐扩大普及。业界普遍存在的弱网环境高质量语音通信痛点，将得到根本的解决。

对于腾讯来说，成功将开发出Penguins，并将其推动成为行业标准，也有极为深远的意义。

一方面，他们证明了AI技术引入产品场景，可以解决现实存在的问题，尤其是传统方法难以解决的问题。这是AI落地的一次创新应用，创造了实际价值。

另一方面，在做这项工作的过程中，磨练了研发团队的能力，也增加了自己在AI技术上的沉淀和积累。

根据腾讯AI Lab高级研究员阳珊的介绍，在打磨Penguins的过程中，他们进行了大量的优化工作。调优的颗粒度比算法更加精细，包括最底层的算子、甚至更低一层的函数，都会进行优化。

第三方面，就是通过牵头标准建设，促进了行业内的技术合作与生态形成，推动了技术的更新迭代，给最终用户带来了技术普惠。

作为标准的主要贡献方，腾讯的技术实力能够得到进一步的认可。从需求提出到标准制定，再到标准落地，腾讯可以更好地实现标准闭环。这样的标准，更加有说服力。

目前，我们也可以看到，除了音频领域之外，腾讯在3GPP、Wi-Fi、游戏优化等领域都有积极参与标准制定。腾讯的很多底层先进技术，正在转换为行业标准，解决行业共性的痛点问题。

█ 最后的话

AI浪潮滚滚向前。AVS3P10标准，可以视为AI在ICT领域的一次小试牛刀。

随着整个社会加大对AI落地的重视，相信会有更多AI赋能传统场景的案例诞生。也许不久后，视频编码、网络通信等领域，都会被AI重构，带来巨大的效率和体验提升。

这是新一轮的技术革命，让我们拭目以待。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
KSZ9567RTXI	1	Microchip Technology Inc	IC ETHERNET SWITCH 7PORT 128TQFP	ECAD模型下载ECAD模型	$15.08	查看
NRF52840-QIAA-R7	1	Nordic Semiconductor	Telecom Circuit, 1-Func, PBGA73, AQFN-73		$7.48	查看
KSZ8567RTXI-TR	1	Microchip Technology Inc	IC ETHERNET SWITCH 7PORT 128TQFP	ECAD模型下载ECAD模型	$10.96	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

KSZ9567RTXI

Microchip Technology Inc

IC ETHERNET SWITCH 7PORT 128TQFP