国家标准计划《信息技术 面向互联网实时音视频服务的语音编码》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC29(全国信息技术标准化技术委员会多媒体分会)执行 ,主管部门为国家标准委。
主要起草单位 中国电子技术标准化研究院 、清华大学 、腾讯科技(深圳)有限公司 、华为技术有限公司 、北京理工大学 。
35 信息技术、办公机械 |
35.040 字符集和信息编码 |
在面向互联网的实时音视频服务中,由于声学环境的不确定性、接入设备的多样性、异构网络的复杂性等原因,语音信号存在传输性能不稳定的问题。
这对这一问题,急需制定低码率、高品质、高抗性的实时语音编解码技术标准,以保证实时音视频服务场景下,语音通信的声音品质,提升用户体验。
互联网的实时音视频服务技术已广泛应用于协同办公、互动娱乐、社交等领域,其中实时语音服务场景,对低码率语音编码器有明确的业务需求:一方面,低码率带来的传输带宽降低,有利于降低运营成本;另一方面,更低码率可以有效降低数据包体积,进一步提升抗网络损伤能力。
目前国内外标准组织(包括ITU-T、3GPP、全国信标委多媒体分委会)制定的语音编解码标准,均采用传统的语音编解码技术架构,(包括但不限于,线性预测编码、频带扩展和变换域编码等技术)。
这些传统的语音编解码器,对于超宽带(16kHz带宽、32kHz采样率)甚至全带语音,当码率在30-35kb/s左右时,可提供高品质语音效果;对于宽带语音(8kHz带宽、16kHz采样率),当码率在16-20kb/s左右时,能提供高品质语音效果。
然而,当码率进一步降低,如对于宽带语音降到10kb/s以下时,这些传统语音编解码器难以提供可接受的语音品质。
鉴于当前行业内尚无满足应用需求的面向互联网实时音视频服务的低码率、高质量的语音编解码技术标准,因此制定本标准的意义就不仅仅在于填补行业空白,而且还将有效解决面向互联网实时音视频服务中语音服务的业务痛点:通过将编码码率降低到传统编码器的1/2甚至1/3,提供针对不同网络条件下的高质量语音传输效果,保证在理想网络下,主观音质不低于传统编码技术;在弱网情况下(例如网络拥塞时)的语音服务质量,将显著优于传统编码技术。
在保证绝对语音品质前提下,大幅降低码率,不仅可以节约成本,更重要的是可以提升抗网络损伤能力,有效提升客户体验。
本文件是面向互联网实时音视频服务的低码率、高质量、可扩展的语音信号编解码标准,适用于协同办公、互动娱乐、社交等互联网实时音视频服务的应用场景。 本文件规定码流封装格式的语法语义、解码过程、解码深度神经网络模型结构和参数、解码码本等。 本文件支持多模式实时语音编编解码方案:按声道数划分,支持单声道和双声道立体声两种编码模式;按采样率划分,支持16kHz采样16比特量化的宽带语音和32kHz采样16比特量化的超宽带语音两种模式。本标准规定在不同编码模式下的码率限制:在单通道编码模式下,宽带语音码率范围为5-10kb/s,超宽带语音码率范围为8-15kb/s;在双声道立体声编码模式下,宽带语音码率范围为8-12kb/s,超宽带语音码率范围为13-17kb/s。鉴于RTC系统的技术特点,本标准限定编解码延时不超过50ms。