T/UWA 009.1-2023 三维声技术规范第1部分：编码、分发与呈现

文档天下

56771
文章

11
评论

2025年2月27日 10:55:51图书评论53阅读模式

T/UWA 009.1-2023 三维声技术规范第1部分：编码、分发与呈现 ,该文件为pdf格式 ,请用户放心下载!

尊敬的用户你们好，你们的支持是我们前进的动力，网站收集的文件并免费分享都是不容易，如果你觉得本站不错的话，可以收藏并分享给你周围的朋友。

如果你觉得网站不错，找不到本网站，可以百度、360搜搜，搜狗, 神马搜索关键词“文档天下”，就可以找到本网站。也可以保存到浏览器书签里。

收费文件即表明收集不易，也是你们支持，信任本网站的理由！真心非常感谢大家一直以来的理解和支持！

资源简介

ICS：33.160.25
CCS：M74
世界超高清视频产业联盟标准
T/UWA 009.1-2023
三维声技术规范第1部分：编码、分发与呈现
3D Audio Technology Specification: Part 1: Coding, Distribution andPresentation
2023-12-31 发布2023-12-31 实施
世界超高清频产业联盟
中关村视听产业技术创新联盟发布

目录
前言............................................................................ III
引言.............................................................................. V
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 缩略语.............................................................................. 3
5 约定................................................................................ 3
5.1 概述.............................................................................. 3
5.2 算术运算符........................................................................ 3
5.3 逻辑运算符........................................................................ 4
5.4 关系运算符........................................................................ 4
5.5 位运算符.......................................................................... 5
5.6 赋值.............................................................................. 5
5.7 助记符............................................................................ 5
5.8 数学函数.......................................................................... 6
5.9 位流语法规则...................................................................... 6
6 三维声编解码及渲染框架.............................................................. 8
7 通用全码率音频解码.................................................................. 9
7.1 通则.............................................................................. 9
7.2 位流解复用语法语义及解码过程..................................................... 14
7.3 区间解码、逆量化和神经网络逆变换语法语义及解码过程............................... 18
7.4 频谱逆分组处理语法语义及解码过程................................................. 22
7.5 双声道立体声比特分配和上混语法语义及解码过程..................................... 23
7.6 多声道比特分配和上混语法语义及解码过程........................................... 28
7.7 HOA 比特分配和上混................................................................30
7.8 解码后处理语法语义及解码过程..................................................... 34
7.9 频带扩展解码语法语义及解码过程................................................... 35
7.10 逆时域噪声整形语法语义及解码过程................................................ 42
7.11 逆频域噪声整形语法语义及解码过程................................................ 43
7.12 逆MDCT 解码过程................................................................. 45
7.13 HOA 空间解码.....................................................................46
8 无损音频解码....................................................................... 51
9 元数据解码......................................................................... 51
9.1 元数据位流语法语义............................................................... 51
9.2 静态元数据解码语法语义........................................................... 52
II
T/UWA 009.1-2023
9.3 动态元数据解码语法语义........................................................... 53
9.4 基本静态元数据解码语法语义....................................................... 53
9.5 基本静态元数据节目层解码语法语义................................................. 54
9.6 基本静态元数据内容层解码语法语义................................................. 56
9.7 基本静态元数据对象层解码语法语义................................................. 57
9.8 基本静态元数据对话字段解码语法语义............................................... 59
9.9 基本静态元数据封装层解码语法语义................................................. 60
9.10 基本静态元数据通道层解码语法语义................................................ 62
9.11 基本静态元数据对象互动字段解码语法语义.......................................... 63
9.12 基本静态元数据扬声器位置解码语法语义............................................ 65
9.13 基本静态元数据响度字段解码语法语义.............................................. 65
9.14 基本静态元数据节目参考屏幕字段解码语法语义...................................... 67
9.15 动态元数据Level1 解码语法语义................................................... 67
9.16 动态元数据Level2 解码语法语义................................................... 69
9.17 扩展静态元数据Level1 解码....................................................... 71
9.18 扩展静态元数据声学环境元数据解码................................................ 71
9.19 扩展静态元数据同种材质墙面元数据解码............................................ 72
9.20 扩展静态元数据统一几何材质表面组成的三角形顶点解码.............................. 74
9.21 扩展静态元数据渲染信息解码...................................................... 74
9.22 扩展静态元数据后期效果处理解码.................................................. 75
9.23 扩展静态元数据均衡效果解码...................................................... 76
9.24 解码过程........................................................................ 77
附录A （规范性）三维声编码位流语法语义..............................................80
A.1 语法............................................................................. 80
A.2 语义............................................................................. 85
附录B （规范性）音频码表............................................................91
附录C （资料性）三维声渲染.........................................................258
C.1 元数据限定...................................................................... 258
C.2 扬声器渲染...................................................................... 263
C.3 双耳渲染........................................................................ 271
附录D （资料性）通用全码率音频编码.................................................280
D.1 编码框架........................................................................ 280
D.2 编码预处理...................................................................... 285
D.3 下混............................................................................ 291
D.4 神经网络变换、量化和区间编码.................................................... 295
D.5 HOA 空间编码.....................................................................302
D.6 编码神经网络参数表.............................................................. 303
附录E （资料性）本文件编解码元数据与ITU-R BS.2076-2 中元数据的对应关系.............334
参考文献............................................................................ 340
III
T/UWA 009.1-2023
前言
本文件按照GB/T 1.1-2020《标准化工作导则第1部分：标准文件的结构和起草规则》给出的规则
起草。
本文件是T/UWA 009《三维声技术规范》的第1部分，T/UWA 009由三个部分组成：
——第1部分：编码分发与呈现；
——第2部分：应用指南；
——第3部分：技术要求和测试方法。
本文件代替T/UWA 009.1-2022《三维声音技术规范第1部分：编码分发与呈现》，与T/UWA 009.1-2022
相比，除结构调整和编辑性改动外，主要技术变化如下：
a）适用范围增加广播电视（见第1章）；
b）删除比特率、采样频率、神经网络定义，修改编码音频位流为编码位流，增加双声道立体声、
环绕声、三维声、元数据、扬声器渲染、双耳渲染定义（见第3章）；
c）增加低复杂度配置（见7.3）；
d）增加静音帧比特分配（见7.6）；
e）增加无损音频解码（见第8章）；
f）增加增加元数据限定、扬声器渲染、双耳渲染定义（见附录C）；
g）增加通用音频全码率编码（见附录D）；
h）增加本文件编解码元数据与ITU-R BS.2076-2中元数据的对应关系（见附录E）。
本文件由世界超高清视频产业联盟和中关村视听产业技术创新联盟提出并归口。
本文件起草单位：中国电子技术标准化研究院、华为技术有限公司、清华大学天津电子信息研究院、
北京字跳网络技术有限公司、赛因芯微(北京) 电子科技有限公司、北京理工大学、全景声科技南京有
限公司、中关村视听产业技术创新联盟、小米通讯技术有限公司、北京大学、博华超高清创新中心、杭
州当虹科技股份有限公司、咪咕文化科技有限公司、广州视源电子科技股份有限公司、北京市博汇科技
股份有限公司、北京百度网讯科技有限公司、北京小米电子产品有限公司、TCL科技集团股份有限公司、
中国移动集团有限公司、中国联合网络通信集团有限公司、中国电信集团有限公司、广东广播电视台、
湖南广播电视台、浙江广播电视集团、浙江华策影视股份有限公司、中图集团中途云创智能科技（北京）
有限公司、国家广播电视总局广播电视科学研究院、国家广播电视总结广播电视规划院、中央广播电视
IV
T/UWA 009.1-2023
总台、北京爱奇艺科技有限公司、上海数字电视国家工程研究中心、北京流金岁月传媒科技股份有限公
司、泰尔终端实验室、湖南国科微电子股份有限公司、海信视像科技股份有限公司、雷欧尼斯（北京）
信息技术有限公司、腾讯科技（深圳）有限公司、工业和信息化部电子第五研究所、京东方科技集团股
份有限公司、上海交通大学、北京数码视讯科技有限公司、康佳集团股份有限公司。
本文件主要起草人：孙齐锋、李婧欣、王喆、高原、窦维蓓、王晶、黄传增、吴健、柳德荣、吴强、
王宾、曲天书、朱博成、耿一丹、陈勇、王雪辉、龙仕强、李琳、徐嵩、邢刚、韩建、邹志铭、张伟民、
高文、黄铁军、江建亮、郭佩佩、王荣芳、李法、邢怀飞、查丽、于磊、高伟标、秦宇、陈维、程剑、
王琦、王鹏、林琳、张宏伟、陈纯丹、熊昭民、赖凡、王子谦、吴晓东、傅斌星、李沄沨、周芸、李小
雨、宁金辉、张建东、潘兴德、许舒敏、胡颖、徐异凌、殷惠清、曾泽君、邹旭杰、赵兴龙、邹华彬、
李勤、王海盈、郑天垚、单华琦、韦胜钰、关朝洋、鹿楠楠、焦健波、庞超、江加宏、王宇、罗少锋、
苏运全。
V
T/UWA 009.1-2023
引言
本文件由世界高清视频产业联盟和中关村视听产业技术创新联盟联合制定。
本文件的发布机构提请注意如下事实，声明符合本文件时，可能涉及到通用全码率音频编解码技术、
无损音频编解码技术和渲染技术相关的专利的使用。
本文件的发布机构提请注意，声明符合本文件时，可能涉及到6、7.3、7.5、7.6、7.7、7.13中如下
34项与音频编解码技术相关的专利的使用。专利名称如下：
200710175993.6编码集成系统和方法与解码集成系统和方法；202110559102.7编解码方法、装置、
设备、存储介质及计算机程序；202110596023.3音频数据编解码方法和相关装置及计算机可读存储介质；
202110865328.X一种音频信号的编解码方法和装置；200710135833.9立体声音频编/解码方法及编/解码
器；200810106460.7立体声信号编解码方法、装置及编解码系统；200710304486.8 音频信号的编码方
法和装置与解码方法和装置；201110289391.X一种下混信号生成、还原的方法和装置；202210699863.7
一种多声道信号的编解码方法和编解码设备以及终端设备；202010699711.8多声道音频信号编解码方法
和装置；200910235713.5多声道音频编码方法、编码器、解码方法和解码器；202110700570.1一种三维
音频信号的处理方法和装置；202110602507.4一种三维音频信号的处理方法和装置；200910169403.8频
带扩展方法及装置；201180003043.X用于重构源信号的方法和解码器；202110654037.6编解码方法、装
置、设备、存储介质及计算机程序；201610877571.2一种音频信号重建方法及装置；201010187426.4信
号处理方法及系统；202110247466.1虚拟扬声器集合确定方法和装置；202110246382.6HOA系数的获取
方法和装置；202011377433.0一种音频编解码方法和装置；202011377320.0一种音频编解码方法和装置；
PCT/CN2021/100076音频渲染系统、方法和电子设备；PCT/CN2021/100062用于音频渲染的音频信号编
码方法、装置和电子设备；PCT/CN2021/114366音频元数据的处理方法和装置；202110984837.4一种音
频制作模型和生成方法、电子设备及存储介质；202111102045.6音频节目元数据和产生方法、电子设备
及存储介质；202111100818.7音频内容元数据和产生方法、电子设备及存储介质；202111102038.6音频
对象元数据和产生方法、电子设备及存储介质；202111205630.9音轨唯一标识元数据和生成方法、电子
设备及存储介质； 202111204386.4 一种音频轨道元数据和生成方法、电子设备及存储介质；
202111202898.7一种音频流元数据和生成方法、电子设备及存储介质；202111308422.1基于音床音频包
格式元数据和产生方法、设备及介质；202111308430.6基于对象音频包格式元数据和产生方法、设备及
介质；202111306844.5基于场景音频包格式元数据和产生方法、设备及存储介质；202111308421.7基于
双耳音频包格式元数据和产生方法、设备及介质；202111021068.4基于音床音频通道元数据和生成方法、
设备及存储介质； 202111020417.0 基于对象音频通道元数据和生成方法、设备及存储介质；
202111021066.5基于场景音频通道元数据和生成方法、设备及存储介质；202111021039.8基于双耳音频
通道元数据和生成方法、设备及存储介质；202111425628.2串行音频元数据帧生成方法、装置、设备及
存储介质；202111425590.9传输音轨格式串行元数据生成方法、装置、设备及介质；202111424251.9串
行音频块格式元数据生成方法、装置、设备及介质；202111424254.2串行音频元数据生成方法、装置、
设备及存储介质； 202111666346.1一种广播音频格式文件生成方法、装置、设备及存储介质；
202111666362.0音频元数据区块的生成方法、装置、设备及存储介质；202210588174.9生成渲染器内部
数据结构的方法、装置、设备及存储介质；202210634563.0利用元数据对基于音床的音频进行渲染的方
法及装置；202210762912.7共享渲染器组件的配置方法、装置、设备及存储介质；202210760302.3一种
音床渲染项数据映射方法、装置、设备及存储介质；202210603204.9一种渲染器的渲染项确定方法、装
置、设备及存储介质；202210600880.0一种音床输出渲染项确定方法、装置、设备及存储介质；
VI
T/UWA 009.1-2023
202210603208.7一种对象输出渲染项确定方法、装置、设备及存储介质；202210603212.3一种场景输出
渲染项确定方法、装置、设备及存储介质；202210603184.5音频渲染器的渲染项处理方法、装置、设备
及存储介质；202210608202.9一种场景渲染项数据映射方法、装置、设备及存储介质；202210782056.1
一种音频渲染器增益计算方法、装置、设备及存储介质；202210910129.0用于对象渲染器的元数据解析
方法、装置、设备及介质；202210907370.8利用元数据对基于对象的音频进行渲染的方法及装置；
202210912275.7利用元数据对基于场景的音频进行渲染的方法及装置；202211057713.2利用元数据对基
于对象的音频进行渲染的方法及装置；202211063746.8利用元数据对基于场景的音频进行渲染的方法及
装置；201610879165.X一种音频信号的重建方法和装置华为技术有限公司；201610252268.3一种音频
信号的采样和重建方法、装置及系统； 202110595367.2 多声道音频信号的编码方法和装置；
200980154599.1一种立体声编码方法和装置；202010699775.8多声道音频信号编码方法和装置；
202010699706.7多声道音频信号的编解码方法和装置；202110530309.1一种音频编码、解码方法及装置；
202110536634.9三维音频信号编码方法、装置和编码器；202110680341.8三维音频信号编码方法、装置、
编码器和系统；202110535832.3三维音频信号编码方法、装置和编码器；202110536623.0三维音频信号
编码方法、装置和编码器；202110536631.5三维音频信号编码方法、装置和编码器。
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
专利持有人已向本文件的发布机构保证，他愿意同任何申请人在合理且无歧视的条款和条件下，就
专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。相关信息可以通过以下联系
方式获得：
专利权人联系地址
华为技术有限公司广东省深圳市龙岗区坂田华为总部办公楼
清华大学北京市海淀区清华大学电子工程馆4-102
北京大学北京市海淀区北京大学信息科学技术学院
北京字跳网络技术有限公司北京市海淀区中关村南四街18 号紫金数码园5 号楼
赛因芯微(北京)电子科技有限公司北京市朝阳区朝外雅宝路12 号19 层1906
联系人：高艳炫
通讯地址：北京市东城区安定门东大街1号中国电子技术标准化研究院
邮政编码：100007
电话：13683269839/01064102619
传真：01084029217
请注意除上述专利外，本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专利
的责任。
1
T/UWA 009.1-2023
三维声技术要求第1 部分：编码、分发与呈现
1 范围
本文件规定了三维声音频的编码、分发与呈现方法，同时支持单声道、双声道立体声、多声道、三
维声、HOA、元数据编解码。
本文件适用于广播电视、广播流媒体、网络电视、数字电影、实时通信、虚拟现实和增强现实、视
频监控、数字存储媒体等领域。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，
仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本
文件。
GB/T 33475.3-2018 信息技术高效多媒体编码第3部分：音频
GY/T 262-2012 节目响度和真峰值音频电平测量算法
GY/T 316—2018 用于节目制作的先进声音系统
ISO/IEC 13818-1 信息技术运动图像及其伴音信息的通用编码第1部分:系统（Information
technology — Generic coding of moving pictures and associated audio information — Part 1: Systems）
ISO/IEC 14496-12: 2020 信息技术音视频对象编码第12部分：ISO基本媒体文件格式（Information
technology Coding of audio-visual objects Part 12: ISO base media file format）
ISO/IEC 23000-19:2022 信息技术.多媒体应用格式(MPEG-A) 第19部分：分段媒体的通用媒体应
用格式(CMAF) （ Information technology - Multimedia application format (MPEG-A) - Part 19: Common
media application format (CMAF) for segmented media）
ITU-R BS.2076-2 音频定义模型（Audio Definition Model）
ITU-R BS.2094-1 音频定义模型通用定义（Common definitions for the Audio Definition Model）
3 术语和定义
下列术语和定义适用于本文件。
3.1
保留reserved
在定义编码位流中暂时未被使用的字段，可能在将来的标准扩展中被用到。
3.2
位流bitstream
用作数据编码表示的有一定次序的一组比特。
3.3
编码coding
读入音频采样值并产生一个有效位流的过程。
3.4
编码器coder
编码处理的实体。
3.5
2
T/UWA 009.1-2023
编码位流coded bitstream
音频信号的编码表示。
3.6
边信息side information
位流中控制解码的必要信息。
3.7
对象object
被感知为一个整体的声音或由一个声源发出的独立于环境的声音。
3.8
解码decoding
读入编码位流并输出音频采样值的过程。
3.9
解码器decoder
解码处理的实体。
3.10
谱系数spectral coefficient
分析滤波器组中输出的离散频谱域数据。
3.11
熵编码entropy coding
信号数字表示中的一种变长无损编码，用以减少统计特性上的冗余。
3.12
声道channel
声音在录制或播放时在不同空间位置采集或重放的相互独立的音频信号。
3.13
双声道立体声stereo audio
一种音频格式，使用两个声道承载有一定相位关系或者幅度关系或者相位和幅度混合关系的音频信
号，通常通过位于听音者前方的两个对称的扬声器重放，带给听音者更宽的声场感觉。
3.14
环绕声surround audio
一种音频格式，使用多个声道承载构成完整音频内容的多路音频信号，通过位于听音者耳部高度层
的环绕听音者的多个扬声器重放，给听音者带来被环绕的声场感觉。
3.15
三维声3D Audio
一种音频格式，多个声道承载构成完整音频内容的多路音频信号，通过环绕听音者的位于不同高度
层的多个扬声器直接重放，或经过渲染或映射后重放，提供更高的声像空间解析度，并给听音者带来沉
浸式的声场感觉。
3.16
元数据metadata
描述音频数据的数据。
3.17
渲染rendering
将给定的音频传输格式转换为适用于终端扬声器耳机配置的、可直接重放的音频格式的过程。
3.18
扬声器渲染speaker rendering
3
T/UWA 009.1-2023
将音频信号转换为特定配置的扬声器重放信号的过程。
3.19
双耳渲染binaural rendering
将音频信号转换为双耳重放信号的过程。
4 缩略语
下列缩略语适用于本文件。
AASF AVS音频存储格式（AVS Audio Storage Format）
AATF AVS音频传输格式（AVS Audio Transport Format）
AVS 数字音视频编解码技术标准（Audio Video coding Standard）
BWE 带宽扩展（Bandwidth Extension）
CMAF 通用媒体应用格式（Common Media Application Format）
CNN 卷积神经网络（Convolutional Neural Network）
CRC 循环冗余校验（Cylic Redundancy Check）
FFT 快速傅里叶变换（Fast Fourier Transform）
FOA 一阶立体声场信号（First Order Ambisonics）
HOA 高阶立体声场信号（Higher Order Ambisonics）
ILD 声道间强度差（Inter-channel Level Difference）
IMDCT 修正离散余弦反变换（Inverse Modified Discrete Cosine Transform）
ISOBMFF 基本媒体文件格式（ISO Base Media File Format）
LFE 低频效果音（Low Frequence Effect）
LPC 线性预测系数（Linear Prediction Coefficients）
LSF 线谱频率（Line Spectral Frequencies）
LSP 线谱对（Line Spectral Pairs）
MCAC 多通道自适应组队（Multi Channel Adaptive Coupling）
MCR 极大相关旋转（Maximum Correlation Rotation）
MDCT 修正离散余弦变换（Modified Discrete Cosine Transform）
M/S 和差立体声（Middle/Side）
PAR 频谱峰平比（Peak-to-Average Ratio）
PCM 脉冲调制编码（Pulse-Code Modulation）
SFB 尺度因子带（Scale Factor Band）
SFM 谱平坦度测量（Spectral Flatness Measure）
TNS 时域噪声整形（Temporal Noise Shaping）
VBAP 基于矢量的幅度平移（Vector-based Amplitude Panning）
VQ 矢量量化（Vector Quantization）
5 约定
5.1 概述
本文件中使用的数学运算符和优先级与C语言使用的类似。但对整型除法和算术移位操作进行了特
定的定义。除特别说明外，约定编号和计数从0开始。
5.2 算术运算符
4
T/UWA 009.1-2023
算术运算符定义见表1。
表1 算术运算符定义
算术运算符定义
+ 加法运算
- 减法运算（二元运算符）或取反（一元前缀运算符）
 乘法运算
* 乘法运算
ab 幂运算，表示a的b次幂。也可表示上标
pow(a, b) 幂运算，表示a的b次幂
/ 除法运算，不做截断或四舍五入
÷ 除法运算，不做截断或四舍五入
�
�
除法运算，不做截断或四舍五入
( )
b
i a
f i
 
自变量i取由a到b（含b）的所有整数值时，函数�(�)的累加和
⌊·⌋ 下取整
� a的算术平方根
· 2 2-范数
5.3 逻辑运算符
逻辑运算符定义见表2。
表2 逻辑运算符定义
逻辑运算符定义
|| 逻辑或
&& 逻辑与
! 逻辑非
5.4 关系运算符
关系运算符定义见表3。
表3 关系运算符定义
关系运算符定义
> 大于
 大于或等于
5
T/UWA 009.1-2023
< 小于
 小于或等于
== 等于
 不等于
5.5 位运算符
位运算符定义见表4。
表4 位运算符定义
位运算符定义
& 与运算
| 或运算
~ 取反运算
a >> b 将a以2的补码整数表示的形式向右移b位。仅当b取正数时定义此运算。向右移至最
高有效位时，其值与a 移位运算前的最高有效位相等
a << b 将a以2的补码整数表示的形式向左移b位。仅当b取正数时定义此运算。向左移至最
低有效位时，其值等于0
5.6 赋值
赋值运算符定义见表5。
表5 赋值运算定义
赋值运算定义
= 赋值运算符
++ 自加，x++相当于x=x+1。当用于数组下标时，在自加运算前先求变量值
+= 自加指定值，例如，x+=3相当于x=x+3，x+=(-3)相当于x=x+(-3)
-= 自减指定值，例如，x-=3相当于x=x+(-3)，x-=(-3)相当于x=x–(-3)
5.7 助记符
助记符定义见表6。
表6 助记符定义
助记符定义
rpchof 多项式余数，高阶在先
bslbf
位串，左位在前，这里“左”是按GB/T 17191中写的位串的顺序。位串是带单引号
的1和0串。如‘1000 0001’。位串内的空格是便于阅读的，无特殊意义。（bitstream
left bit first）
uimsbf 无符号整数，最高有效位优先。（unsigned integer, most significant bit first）
表6 (续）
助记符定义
bsmbf 位串是带引号的1和0串，右位在前，如先编码一个5比特的数值6，然后编码一个3
比特的数值2，那么编码位串为‘010 00110’。
6
T/UWA 009.1-2023
5.8 数学函数
数学函数定义见公式（1）和公式（2）。
� =
� ; � > 0
0 ; � = 0
−� ; � < 0
............................................................... (1)
式中：
�——自变量。
??(�) = � ; � > 0
0 ; � ≤ 0 ...........................................................(2)
式中：
�——自变量。
5.9 位流语法规则
位流中的每一个数据项用粗体字。通过名字、按位的长度及其类型和传输顺序的助记符来描述。
位流中被解码的数据元素所导致的操作依赖于该数据的值及以前解码的数据元素。下面的语法结构
表示数据元素以标准类型出现时的情形。
注1：如无特殊说明，本文件中的“位”指二进制位。
注2：本文件语法用“C”代码规定，变量或表达式为非零值时等价于条件为真，变量或表达式为零值时等价于条件
为非真。
while(condition){
data_element
…
}
注3：
若条件为真，则数据元素组紧接着数据流产生，如此重复直到条件为非真。
do{
data_element
…
} while(condition)
若条件为真，则数据元素组紧接着数据流产生，如此重复直到条件为非真。
if(condition){
data_element
…
} else{
data_element
…
}
若条件为真，在数据流中产生第一组数据元素，若条件为非真，在数据流中产生第二组数据元素。
for(expr1;expr2 ; expr3){
data_element
…
}
7
T/UWA 009.1-2023
expr1是指定循环初始状态表达式，通常它指定了计数器的初始状态，expr2是指定的每次循环前的测试条件。条件
为非真时循环终止，expr3是每次循环结束时执行的表达式，一般是增加计数器。
注4：本结构的最通常用法为
for(i=0;i<n;i++){
data_element
…
}
数据元素组产生n 次。数据元素组内的条件结构可能依赖循环控制变量i 的值。第一次出现时被置为‘0’，第二次
增加到‘1’，如此往复。
switch(expr){ 根据表达式expr的值，产生对应的数据元素。expr的值为
case constcase1: constcase1时产生数据元素data_element1，expr的值为
data_element1 constcase2时产生数据元素data_element2，以此类推，expr的值
break 为constcasen时产生数据元素data_elementn。当expr的值不等于
case constcase2: constcase1, constcase2, …, constcasen中的任何一个值时，产生
data_element2 数据元素data_elementdefault
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
本结构的一类变体是在case后不出现break，如:
switch(expr){ expr的值constcasex时，从对应的case constcasex开始产生数
case constcase1: 据元素，直到break出现。
data_element1 expr的值constcase1时产生数据元素data_element1和
case constcase2: data_element2，expr的值为constcasen时产生数据元素
data_element2 data_elementn
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
注5：数据元素组中可能含有嵌套结构。为简便起见，当后面只有一个数据元素时“[]”省略。
data_element[ ] data_element是一数组数据，数据元素的个数由上下文而定；
data_element[n] data_element[n]是数组数据的第n＋1个元素；
data_element[m][n] data_element[m][n]是二维数组的第m＋1，n+1个元素；
data_element[l][m][n] data_element[l][m][n]是三维数组的第l+1，m+1，n+1个元素；
8
T/UWA 009.1-2023
data_element[m…n] data_element[m…n]是位m到位n之间包括的位。
虽然语法用过程项表示，但不能认为条款实现了可靠的解码过程。它只是定义了一个无错误的位流输入。
byte_alignment()函数的定义：
如当前位置在字节的边界，则byte_alignment()函数返回‘1’，即位流中的下一位是一个字节的起始位，否则返回‘0’。
Nextbits(n)函数的定义：
将位串或位流中将要解码的n个比特作为Nextbits(n)的返回值。。
6 三维声编解码及渲染框架
三维声编码包括通用全码率音频编码、无损音频编码和元数据编码，三维声编码框架见图1。三维
声编码时，将输入的音频信号分为声道信号、对象信号和HOA 信号。声道信号为单声道信号、双声道
立体声信号或多声道环绕声/三维声信号。声道信号、对象信号和HOA 信号可选择通用全码率音频编码
（包括基本配置和低复杂度配置）或者无损音频编码，元数据使用元数据编码，经过三维声位流复用后
得到三维声编码位流。
图1 三维声编码框架
通用全码率音频编码支持的参数配置如下。
——支持采样率为：32kHz、44.1kHz、48kHz、96kHz、192kHz。
——支持量化精度为：16bit 和24bit。
——支持编码比特率为：
 单声道：32kb/s、44kb/s、56kb/s、64kb/s、72kb/s、80kb/s、96kb/s、128kb/s、144kb/s、164kb/s、
192kb/s；
 双声道立体声：32kb/s、48kb/s、64kb/s、80kb/s、96kb/s、128kb/s、144kb/s、192kb/s、256kb/s、
320kb/s；
 5.1 多声道立体声：96kb/s、128kb/s、144kb/s、160kb/s、192kb/s、256kb/s、320kb/s、384kb/s、
448kb/s、512kb/s、640kb/s、720kb/s；
 7.1 多声道：128kb/s、160kb/s、192kb/s、256kb/s、384kb/s、480kb/s、576kb/s、640kb/s；
 5.1.2 多声道：152kb/s、320kb/s、480kb/s、576kb/s；
 7.1.2 多声道：216kb/s、384kb/s、480kb/s、576kb/s、768kb/s；
 5.1.4 多声道：176kb/s、256 kb/s、384kb/s、448kb/s、576kb/s、704kb/s；
 7.1.4 多声道：240kb/s、384kb/s、512kb/s、608kb/s、832kb/s；
 FOA：96kb/s、128kb/s、192kb/s、256kb/s；
9
T/UWA 009.1-2023
 2 阶HOA：192kb/s、256kb/s、320kb/s、384kb/s、480kb/s、512kb/s、640kb/s；
 3 阶HOA：256kb/s、320kb/s、384kb/s、512kb/s、640kb/s、896kb/s。
无损音频编码支持最多128 声道。
三维声解码是三维声编码的逆过程。三维声编码位流经过通用全码率音频解码或无损音频解码得到
声道信号、对象信号、HOA 信号，经过元数据解码得到元数据。解码后的声道信号、对象信号、HOA
信号可通过扬声器渲染得到扬声器信号用于多扬声器播放，也可通过双耳渲染得到双耳信号用于耳机播
放。三维声解码与渲染框架见图2。
图2 三维声解码及渲染框架
通用全码率音频解码见第7 章，无损音频解码见第8 章，元数据解码见第9 章。三维声编码位流语
法语义应符合附录A 的规定，通用全码率音频编码相关的音频码表应符合附录B 的规定，扬声器渲染
参考实现方法和双耳渲染参考实现方法见附录C，通用全码率音频编码见附录D，本文件编解码元数据
与ITU-R BS.2076-2 中元数据的对应关系见附录E。
7 通用全码率音频解码
7.1 通则
通用全码率音频解码包括核心解码和HOA空间解码，核心解码将编码位流解码为声道信号和对象
信号，核心解码和HOA空间解码将编码位流解码为HOA信号，通用全码率音频解码框架见图3。核心解
码包括位流解复用、区间解码、逆量化、神经网络逆变换、频谱逆分组处理、上混、解码后处理。上混
支持立体声上混、多声道上混和HOA上混。解码后处理包括频带扩展解码、逆时域噪声整形、逆频域
噪声整形、逆MDCT。
位流解复用见7.2，区间解码、逆量化和神经网络逆变换见7.3，频谱逆分组处理见7.4；双声道立体
声比特分配和上混见7.5，多声道比特分配和上混见7.6，HOA比特分配和上混见7.7，解码后处理见7.8，
频带扩展解码见7.9，逆时域噪声整形见7.10，逆频域噪声整形见7.11，逆MDCT见7.12，HOA空间解码
见7.13。
10
T/UWA 009.1-2023
图3 通用全码率音频解码框架
单声道解码包括区间解码和逆量化、神经网络逆变换、频谱逆分组处理和解码后处理，解码框架见
图4。区间解码和逆量化过程从位流中解析得到MDCT 系数对应的变换域系数，经过神经网络逆变换
得到重构MDCT 系数，最后经过解码后处理得到时域单声道信号。解码后处理框架见图5。
获得过程如下。
1）区间解码和逆量化
从位流中获取与MDCT 谱系数编码相关的位流信息，进行区间解码和逆量化处理以得到与
MDCT 系数对应的变换域系数，并作为神经网络逆变换的输入。具体过程见7.3。
——输入：位流
——输出：MDCT 系数对应的变换域系数
2）神经网络逆变换
将与MDCT 谱系数对应的变换域系数经神经网络逆变换，得到重构MDCT 系数。具体过程
见7.3。
——输入：MDCT 系数对应的变换域系数
——输出：重构MDCT 系数
3）频带扩展解码
频带扩展解码模块根据位流中解码得到的频带扩展参数对重构MDCT 系数中的低频部分进行
能量调整和频谱细节调整，获得高频频谱成分。具体过程见7.9。
——输入：重构MDCT 系数，频带扩展参数
——输出：单声道信号MDCT 系数
4）逆时域噪声整形
逆时域噪声整形模块是编码端的逆过程，用以恢复时域噪声整形前的MDCT 系数。具体过程
见7.10。
——输入：单声道信号MDCT 系数，时域噪声整形参数
11
T/UWA 009.1-2023
——输出：逆时域噪声整形后的单声道信号MDCT 系数
5）逆频域噪声整形
逆频域噪声整形模块是编码端的逆过程，用以恢复频域噪声整形前的MDCT 系数。具体过程
见7.11。
——输入：逆时域噪声整形后的单声道信号MDCT 系数，频域噪声整形参数
——输出：逆频域噪声整形后的单声道信号MDCT 系数
6）逆MDCT
逆MDCT 模块根据位流中解析的窗型控制参数将MDCT 系数变换到时域信号。具体过程见
7.12。
——输入：逆频域噪声整形后的单声道信号MDCT 系数，窗型控制参数
——输出：时域单声道信号
图4 单声道解码框架
图5 解码后处理框架
双声道立体声解码包括区间解码和逆量化、神经网络逆变换、频谱逆分组处理、双声道立体声上混
和解码后处理，解码框架见图6。区间解码和逆量化从位流中解析得到MDCT 系数对应的变换域系数，
经过神经网络逆变换得到重构的下混声道MDCT 系数，经过双声道立体声上混得到重构的左右声道
MDCT 系数，最后经过解码后处理得到时域双声道立体声信号。解码后处理框架见图4。
获得过程如下。
1）区间解码和逆量化
——输入：位流
——输出：MDCT 系数对应的下混声道变换域系数
2）神经网络逆变换
——输入：MDCT 系数对应的下混声道变换域系数
——输出：重构下混声道MDCT 系数
3）双声道立体声上混
双声道立体声上混模块根据位流中解析得到的下混参数对下混声道MDCT 系数进行上混，得
到左右声道信号。具体过程见7.5。
——输入：重构的下混声道MDCT 系数，下混参数
——输出：重构的左右声道MDCT 系数
4）双声道立体声解码后处理
双声道立体声解码后处理模块对每个声道分别进行解码后处理。
——输入：重构的左右声道MDCT 系数，频带扩展参数、时域噪声整形参数、频域噪声整形
12
T/UWA 009.1-2023
参数和窗型控制参数
——输出：时域双声道立体声信号
图6 双声道立体声解码框架
多声道解码包括区间解码和逆量化、神经网络逆变换、频谱逆分组处理、多声道参数解码、多声道
上混和解码后处理，解码框架见图7。区间解码和逆量化从位流中解析得到MDCT 系数对应的变换域
系数，经过神经网络逆变换得到重构的下混声道MDCT 系数，经过多声道参数解码得到多声道上混参
数，经过多声道上混得到重构的多声道MDCT 系数，最后经过解码后处理得到时域多声道信号。
获得过程如下。
1）区间解码和逆量化
——输入：位流
——输出：MDCT 系数对应的下混多声道变换域系数
2）神经网络逆变换
——输入：MDCT 系数对应的下混多声道变换域系数
——输出：重构下混多声道MDCT 系数
3）多声道参数解码
多声道参数解码模块从位流中解析得到多声道信号编码模式参数。具体过程见7.6。
——输入：位流
——输出：多声道信号编码模式参数
4）多声道上混
多声道上混模块根据多声道信号编码模式参数对重构下混多声道MDCT 系数进行上混得到重
构的多声道信号MDCT 系数。具体过程见7.6。
——输入：重构下混多声道MDCT 系数，多声道信号编码模式参数
——输出：重构的多声道信号MDCT 系数
5）多声道解码后处理
多声道解码后处理模块对每个声道分别进行解码后处理。
——输入：重构的多声道信号MDCT 系数，频带扩展参数、时域噪声整形参数、频域噪声整
形参数和窗型控制参数
——输出：时域多声道信号
图7 多声道解码框架
HOA 解码包括区间解码和逆量化、神经网络逆变换、频谱逆分组处理、传输通道参数解码、HOA
上混、传输通道解码后处理和HOA 空间解码，HOA 解码框架见图8。HOA 空间解码包括声场成分合
成和HOA 信号合成，HOA 空间解码框架见图9。区间解码和逆量化从位流中解析得到MDCT 系数对
应的变换域系数，经过神经网络逆变换得到重构的下混声道MDCT 系数，经过传输通道参数解码得到
13
T/UWA 009.1-2023
HOA 上混参数，经过HOA 上混得到重构的传输通道信号MDCT 系数，经过传输通道解码后处理得到
时域传输通道信号，最后经过HOA 空间解码得到重建HOA 信号。
获得过程如下。
1）解码和逆量化
——输入：位流
——输出：MDCT 系数对应的下混声道变换域系数
2）神经网络逆变换
——输入：MDCT 系数对应的下混声道变换域系数
——输出：重构下混声道MDCT 系数
3）传输通道参数解码
传输通道参数解码模块从位流中解析得到传输通道信号编码模式参数。具体过程见7.7。
——输入：位流
——输出：传输通道信号编码模式参数
4） HOA 上混
HOA 上混模块根据传输通道信号编码模式参数对重构的下混声道MDCT 系数进行上混得到
重构的传输通道信号MDCT 系数。具体过程见7.7。
——输入：重构的下混声道MDCT 系数，传输通道信号编码模式参数
——输出：重构的传输通道信号MDCT 系数
5）传输通道解码后处理
传输通道解码后处理模块对每个通道分别进行解码后处理。
——输入：重构的传输通道信号MDCT 系数，频带扩展参数、时域噪声整形参数、频域噪声
整形参数和窗型控制参数
——输出：时域传输通道信号
6）声场成分合成
声场成分合成模块根据配置参数对解码器进行配置，根据位流中解析的声场成分参数确定虚
拟扬声器的系数，再根据传输通道信号中的虚拟扬声器信号合成主要声场信号。具体过程见7.13。
——输入：传输通道信号，声场成分参数
——输出：主要声场信号
7） HOA 信号合成
HOA 信号合成模块根据传输通道信号中的残差信号，位流中解析的其余成分参数和主要声场
信号合成HOA 信号。具体过程见7.13。
——输入：传输通道信号，主要声场信号，其余成分参数
——输出：HOA 信号
图8 HOA 解码框架
14
T/UWA 009.1-2023
图9 HOA 空间解码框架
7.2 位流解复用语法语义及解码过程
7.2.1 语法
通用全码率音频位流语法要求应符合表7的规定。
表7 通用全码率音频位流语法
通用全码率音频位流语法比特数助记符
ga_co_raw_data_block() {
Avs3MetadataDec()
switch(codecFormat) {
case 0x0: Avs3MonoDec()
case 0x1: Avs3StereoDec()
case 0x2: Avs3McDec()
case 0x3: Avs3HoaDec()
}
}
单声道解码语法要求应符合表8的规定。
表8 单声道解码语法
单声道解码语法比特数助记符
Avs3MonoDec() {
DecodeCoreSideBits()
DecodeGroupBits()
DecodeQcBits()
Avs3InverseQC()
Avs3PostSynthesis()
}
双声道立体声解码语法要求应符合表9的规定。
表9 双声道立体声解码语法
双声道立体声解码语法比特数助记符
Avs3StereoDec() {
for(ch = 0; ch < 2; ch++) {
表9 （续）
双声道立体声解码语法比特数助记符
DecodeCoreSideBits()
}
for(ch = 0; ch < 2; ch++) {
15
T/UWA 009.1-2023
DecodeGroupBits()
}
DecodeStereoSideBits()
StereoBitsAllocation()
for(ch = 0; ch < 2; ch++) {
DecodeQcBits()
}
Avs3InverseQC()
StereoInvMsProcess()
for(ch = 0; ch < 2; ch++) {
Avs3PostSynthesis()
}
}
多声道解码语法要求应符合表10的规定。
表10 多声道解码语法
多声道解码语法比特数助记符
Avs3McDec() {
for(ch = 0; ch < numChans; ch++) {
DecodeCoreSideBits()
}
for(ch = 0; ch < numChans; ch++) {
DecodeGroupBits()
}
DecodeMcSideBits()
McBitsAllocation()
for(ch = 0; ch < numChans; ch++) {
DecodeQcBits()
}
Avs3InverseQC()
Avs3McacDec()
for(ch = 0; ch < numChans; ch++) {
Avs3PostSynthesis()
}
}
HOA解码语法要求应符合表11的规定。
表11 HOA 解码语法
HOA解码语法比特数助记符
Avs3HoaDec() {
for(ch = 0; ch < numChans; ch++) {
16
T/UWA 009.1-2023
DecodeCoreSideBits()
}
for(ch = 0; ch < numChans; ch++) {
DecodeGroupBits()
}
DecodeHoaSideBits()
HoaSplitBytesGroup()
for(ch = 0; ch < numChans; ch++) {
DecodeQcBits()
}
Avs3InverseQC()
Avs3HoaInverseDMX()
for(ch = 0; ch < numChans; ch++) {
Avs3PostSynthesis()
}
HoaPostSynthesisFilter()
}
核心解码器边信息语法要求应符合表12的规定。
表12 核心解码器边信息语法
核心解码器边信息语法比特数助记符
DecodeCoreSideBits() {
transformType 2 uimsbf
DecodeFdShapingSideBits()
DecodeTnsSideBits()
if(bwePresent == 1) {
DecodeBweSideBits()
}
}
窗型控制参数配置要求应符合表13的规定。
表13 窗型控制参数配置表
transformType 窗型控制参数
0x0 长窗
0x1 短窗
0x2 切入窗
0x3 切出窗
17
T/UWA 009.1-2023
7.2.2 语义
Avs3MetadataDec() 元数据解码
Avs3MonoDec() 单声道解码
Avs3StereoDec() 双声道立体声解码
Avs3McDec() 多声道解码
Avs3HoaDec() HOA 解码
DecodeCoreSideBits() 解析核心解码器边信息
DecodeGroupBits() 频谱逆分组处理
DecodeStereoSideBits() 解析双声道立体声边信息
DecodeMcSideBits() 解析多声道边信息
DecodeHoaSideBits() 解析HOA 边信息
StereoBitsAllocation() 双声道立体声比特分配
McBitsAllocation() 多声道比特分配
HoaSplitBytesGroup() HOA 比特分配
StereoInvMsProcess() 双声道立体声上混处理
Avs3McacDec() 多声道解码处理
Avs3HoaInverseDMX() HOA 解码处理
DecodeQcBits() 解析量化编码边信息
Avs3InverseQC() 区间解码和逆量化
Avs3PostSynthesis() 解码后处理
HoaPostSynthesisFilter() HOA 空间解码
codecFormat
表示解码模式，根据附录A 中表A.8 声道数索引
（ channel_number_index ）决定，当声道配置为单声道时，
codecFormat 为0，当声道配置为双声道立体声时，codecFormat 为1，
当声道配置为多声道配置时，codecFormat 为2，当声道配置为HOA
配置时，codecFormat 为3
numChans
音频信号的声道数，当coding_profile 为0 时，复用附录A 中表A.8
声道数索引（channel_number_index）中的channel_number
transformType
2bit，表示窗型控制参数，窗型控制参数配置要求应符合表13 的规定，
短窗是长度256 的正弦窗，长窗是长度2048 的正弦窗，切入窗的前
1024 点与长窗相同，后1024 点由448 点的1，128 点的短窗和448 点
的0 构成，切出窗的前1024 点由448 点的0，128 点的短窗和448 点
的1 构成，后1024 点和长窗相同
DecodeFdShapingSideBits() 解析频域噪声整形边信息
DecodeTnsSideBits() 解析时域噪声整形边信息
DecodeBweSideBits() 解析频带扩展解码边信息
bwePresent 频带扩展开启标志，见7.9.3.5 中频带扩展开启条件
7.2.3 解码过程
通用全码率音频位流（ga_co_raw_data_block）是构成AASF和AATF编码位流的基本单位，解码
ga_co_raw_data_block可获得一帧的样本，解码帧头可获得一帧的比特率。AASF和AATF格式具体内容
见附录A。位流解复用通过解析AASF和AATF头的参数确定解码模式（单声道解码、双声道立体声解码、
多声道解码、HOA解码、对象解码、声道和对象混合解码中的一种）并从位流ga_co_raw_data_block中
18
T/UWA 009.1-2023
解码边信息，用于后续核心解码和HOA空间解码过程。ga_co_raw_data_block不同解码模式解码时，解
码器首先解析元数据Avs3MetadataDec() ，再解析音频数据。音频数据解码模式是根据从
aasf_frame_header()或aatf_frame_header()中解析的coding_profile，channel_number_index和soundBedType
参数确定的，具体如下。
当coding_profile为0且channel_number_index为0时，解码器选择单声道解码，codecFormat为0。
Avs3MonoDec()首先解析核心解码器边信息DecodeCoreSideBits()和频谱逆分组处理DecodeGroupBits()，
然后解析量化编码边信息DecodeQcBits()，进行区间解码和逆量化Avs3InverseQC()，最后进行解码后处
理Avs3PostSynthesis()，得到解码后的单声道信号。
当coding_profile为0且channel_number_index为1时，解码器选择双声道立体声解码，codecFormat为1。
Avs3StereoDec() 首先对每个声道解析核心解码器边信息DecodeCoreSideBits() 和频谱逆分组处理
DecodeGroupBits()，然后解析双声道立体声边信息DecodeStereoSideBits()，进行双声道立体声比特分配
StereoBitsAllocation()，接着对每个声道解析量化编码边信息DecodeQcBits()，进行区间解码和逆量化
Avs3InverseQC()，然后进行双声道立体声上混处理StereoInvMsProcess()，最后对每个声道进行解码后处
理Avs3PostSynthesis()，得到解码后的双声道立体声信号。
当coding_profile为0且channel_number_index大于1时，解码器选择多声道解码，codecFormat为2。
Avs3McDec() 首先对每个声道解析核心解码器边信息DecodeCoreSideBits() 和频谱逆分组处理
DecodeGroupBits()，然后解析多声道边信息DecodeMcSideBits()，进行多声道比特分配McBitsAllocation()，
接着对每个声道解析量化编码边信息DecodeQcBits()，进行区间解码和逆量化Avs3InverseQC()，然后进
行多声道解码处理Avs3McacDec()，最后对每个声道进行解码后处理Avs3PostSynthesis()，得到解码后的
多声道信号。
当coding_profile为1且soundBedType为0时，解码器选择对象解码。object_channel_number为0时
codecFormat 为0 ； object_channel_number 为1 时codecFormat 为1 ； object_channel_number 大于1 时，
codecFormat为2。对象解码复用声道解码，即对象声道数为1时，复用单声道解码；对象声道数为2时复
用双声道立体声解码；对象声道数大于2时，复用多声道解码。
当coding_profile为1且soundBedType为1时，解码器选择声道和对象混合解码，codecFormat为2，声
道和对象总声道数大于等于3，声道和对象混合解码复用多声道解码。
当coding_profile为2时，解码器选择HOA解码，codecFormat为3。HOA解码包含核心解码和空间解
码两部分，核心解码解码出虚拟扬声器信号和残差信号，空间解码器对虚拟扬声器信号和残差信号解码
得到HOA 信号。Avs3HoaDec() 首先对每个虚拟扬声器信号和残差信号解析核心解码器边信息
DecodeCoreSideBits()和频谱逆分组处理DecodeGroupBits()，然后解析虚拟扬声器信号和残差信号边信息
DecodeHoaSideBits()，执行虚拟扬声器信号和残差信号比特分配HoaSplitBytesGroup()，接着对每个声道
解析量化编码边信息DecodeQcBits()，进行区间解码和逆量化Avs3InverseQC()，然后进行虚拟扬声器信
号和残差信号解码处理Avs3HoaInverseDMX()，对每个虚拟扬声器信号和残差信号进行解码后处理
Avs3PostSynthesis()，最后进行HOA空间解码HoaPostSynthesisFilter()，得到解码后的HOA信号。
7.3 区间解码、逆量化和神经网络逆变换语法语义及解码过程
7.3.1 语法
量化编码边信息语法要求应符合表14 的规定。
表14 量化编码边信息语法
量化编码边信息语法比特数助记符
DecodeQcBits() {
if (nn_type == 0){ 注1
19
T/UWA 009.1-2023
isFeatAmplified 1 uimsbf
scaleQIdx 7 uimsbf
} else if (nn_type == 1) {
scaleQIdxLc 8 uimsbf
}
if(numGroups == 1) {
nfParamQIdx[0] 3 uimsbf
}else if(numGroups == 2) {
nfParamQIdx[0] 3 uimsbf
nfParamQIdx[1] 3 uimsbf
}
contextNumBytes 8 uimsbf
contextBitstream 注2 uimsbf
baseBitstream 注3 uimsbf
}
注1：nn_type表示神经网络配置，从aasf_header()或aatf_header()中得到
注2：contextBitstream字节数为contextNumBytes
注3：baseBitstream字节数为channelBytes – contextNumBytes
7.3.2 语义
isFeatAmplified 1bit，用于表示在进行量化前，神经网络变换所得的变换域系数是否进行了放大
处理，0 表示进行了缩小处理，1 表示进行了放大处理
scaleQIdx 7 bit，用于表示神经网络变换所得的变换域系数的尺度调整因子的量化索引，
由此变量可获得反量化的调整因子的值
scaleQIdxLc 8 bit，用于表示MDCT 频谱系数的尺度调整因子的量化索引，由此变量可获得
反量化的调整因子的值
nfParamQIdx 3 bit，用于表示两个Group 的变换域系数各自对应的噪声填充参数的量化索引，
由此变量可获得反量化的噪声填充参数
contextNumBytes 8 bit，用于表示区间编码位流中，上下文部分所占的字节数
contextBitstream 区间编码位流中，上下文部分的位流，所占字节数为contextNumBytes
baseBitstream 区间编码位流中，基础部分的位流，所占字节数为channelBytes –
contextNumBytes
numGroups MDCT 频谱的分组数量，最大分组数量为2，在7.4.1 中DecodeGroupBits()语法
中解析
channelBytes 当前声道位流分配的字节数
7.3.3 解码过程
7.3.3.1 通则
在基本配置下，解码过程包括区间解码、基础部分逆量化、噪声填充、尺度调整、基础解码神经网
络逆变换，区间解码包括上下文部分区间解码、上下文部分逆量化、上下文部分神经网络逆变换、基础
部分区间编码码表选择、基础部分区间解码，解码过程见图10。区间解码涉及上下文部分和基础部分。
首先对上下文部分进行区间解码和逆量化，而后经过上下文部分解码神经网络处理，获得解码的上下文
信息，在上下文信息指导下选择基础部分区间编码的码表，并对基础部分的区间编码位流进行区间解码
20
T/UWA 009.1-2023
和逆量化，获得解码后的变换域系数，再经过噪声填充和尺度调整，最后由基础解码神经网络进行逆变
换，得到解码MDCT 系数。
图10 区间解码、逆量化和神经网络逆变换解码过程
在低复杂度配置下，解码过程不包含基础解码神经网络，经过区间解码、基础部分逆量化、尺度调
整后即可得到解码MDCT 系数。
7.3.3.2 上下文部分区间解码
根据上下文区间编码码表，对区间编码位流中的上下文部分进行解码，获得上下文神经网络变换域
系数的量化索引。其中，上下文区间编码码表是预先训练获得的，见表B.1。
7.3.3.3 上下文部分逆量化
对上下文神经网络变换域系数的量化索引进行逆量化，获得量化后的上下文神经网络的变换域系数。
采用的量化方法是线性标量量化。
7.3.3.4 上下文解码神经网络逆变换
将逆量化后的上下文神经网络的变换域系数输入到上下文解码神经网络进行逆变换，获得解码的上
下文信息。上下文解码神经网络的作用是对解码解量化的上下文神经网络变换域系数进行神经网络的逆
变换，得到基础区间编码码表选择信息。上下文解码神经网络的输入为解码解量化的上下文神经网络变
换域系数。上下文解码神经网络的构成单元为转置CNN。
转置CNN 结构配置要求应符合表15 的规定。
表15 转置CNN 结构配置
项目值
CNN层数3
卷积核大小3, 3, 3
Stride 2, 2, 1
CNN 通道数量16, 16, 16
激活函数ReLu, ReLu, None
HasBias 1, 1, 1
Stride 为CNN 卷积的步长参数，HasBias 表示是否有偏置参数，“1”表示当前层有偏置参数，“0”
表示当前层无偏置参数，激活函数采用ReLU（Rectified Linear Unit），ReLU 数学函数定义见公式（2），
None 表示当前层无激活函数。
21
T/UWA 009.1-2023
上下文解码神经网络的各层转置CNN 的参数要求应符合表B.2~表B.7 的规定。上下文解码神经网
络的输入为16 个CNN 通道，每个CNN 通道16 维的变换域系数，输出为16 个CNN 通道，每个CNN
通道64 维的基础区间编码码表选择信息。
7.3.3.5 基础部分区间编码码表选择
根据解码的上下文信息，从基础部分区间编码的若干码表中选择对应的码表，对基础部分的区间编
码根据解码的上下文信息，从基础部分区间编码的若干码表中选择对应的码表，对基础部分的区间编码
位流进行区间解码，获得量化后的基础神经网络的变换域系数。
基础部分区间编码的码表选择过程可以表示为，对基础编码神经网络的变换域系数的每一维，在基
础区间编码对应的标准差表中，查找大于或等于对应的解码上下文信息的最小标准差值，此标准差值对
应的索引即为基础部分区间编码的码表索引。基础区间编码对应的标准差表要求应符合表B.8 的规定。
基础部分区间编码使用的码表为预先训练的若干个固定码表，要求应符合表B.9 的规定。基础部分区间
编码使用的码表为预先训练的若干个固定码表，要求应符合表B.9 的规定。例如，设解码上下文信息中
第n 维的值为0.45，在基础区间编码对应的标准差表（即表B.8）中搜索大于或等于0.45 的最小标准差
值，此标准差值对应的索引为13（设起始序号为1），则选择第13 个基础部分区间编码码表（即表B.9
中的第13 行），对基础编码神经网络的变换域系数的第n 维进行区间解码。
7.3.3.6 基础部分区间解码
根据7.3.3.5 选定的基础部分编码码表，对区间编码位流中的基础部分进行解码，获得基础神经网
络变换域系数的量化索引。在基本配置下获得基础神经网络变换域系数的量化索引，在低复杂度配置下
获得MDCT 频谱系数的量化索引。
7.3.3.7 基础神经网络变换域系数的逆量化
对基础神经网络变换域系数的量化索引进行逆量化，获得量化后的基础神经网络的变换域系数。采
用的量化方法是线性标量量化。在基本配置下对基础神经网络变换域系数的量化索引进行逆量化，获得
量化后的基础神经网络变换域系数，对低复杂度配置下对MDCT 频谱系数的量化索引进行逆量化，获
得量化后的MDCT 频谱系数。
7.3.3.8 噪声填充
噪声填充在解码端获得的量化后的基础神经网络变换域系数中添加噪声，以补偿量化过程中引入的
量化噪声。
对每帧的每个声道，噪声填充参数的量化索引nfParamQIdx 可能为一个或两个值。当MDCT 频谱
的分组数量为1 时，nfParamQIdx 为一个值，分组数量为2 时，nfParamQIdx 为两个值。
对每个分组对应的基础神经网络的变换域系数，执行如下的噪声填充过程：
产生[-1, 1]范围内随机分布的噪声成分noise；
将噪声成分noise 与噪声填充参数nfParamQ 相乘，获得调整后的噪声成分。其中噪声填充参数
nfParamQ 由量化索引nfParamQIdx 解量化得到，见公式（3）。
��? = ��??�
23.34 ...................................................................(3)
在基本配置下，对量化为0 的基础神经网络的变换域系数，填充调整后的噪声成分。在低复杂度配
置下，对解码端获得的量化后的MDCT 频谱系数中添加噪声，以补偿量化过程中引入的量化噪声。
7.3.3.9 尺度调整
基本配置下，对基础神经网络变换后的系数进行尺度调整，尺度调整的基本过程如下：
22
T/UWA 009.1-2023
根据特征放大标志isFeatAmplified 和尺度因子量化索引scaleQIdx，得到解量化后的尺度调整因子
featureScale。此过程的伪代码如下：
if (isFeatAmplified == 0){
featureScale = scaleQIdx / 127.0
}else {
featureScale = pow(10.0, scaleQIdx / 86.0);
}
将基础神经网络的变换域系数除以尺度因子featureScale，获得尺度调整后的变换域系数。
低复杂度配置下，对噪声填充后的MDCT 频谱系数进行尺度调整，尺度调整的基本过程如下：
根据尺度因子量化索引scaleQIdxLc，得到解量化后的尺度调整因子featureScale，featureScale 计算
见公式（4）。
??�?��? = 10 (��?�?�� − 255.0) / 31.875........................................................ (4)
将噪声填充后的解码MDCT 系数除以尺度因子featureScale，获得解码MDCT 系数。
7.3.3.10 基础解码神经网络
将尺度调整后的基础神经网络的变换域系数作为基础解码神经网络的输入，即可计算得到解码端重
建的MDCT 频谱。基础解码神经网络的基本结构为CNN。
基础解码神经网络结构参数要求应符合表16 的规定。
表16 基础解码神经网络结构参数
项目值
CNN层数4
卷积核大小5, 5, 5, 5
Stride 2, 2, 2, 2
通道数量8, 4, 2, 1
激活函数IGDN, IGDN, IGDN, None
HasBias 1, 1, 1, 1
Stride 为CNN 卷积的步长参数，HasBias 表示是否有偏置参数，“1”表示当前层有偏置参数，“0”
表示当前层无偏置参数，激活函数采用IGDN（Inverse Generalized Divisive Normalization）[1]，None
表示当前层无激活函数。
基础解码神经网络的各层转置CNN 的参数要求应符合表B.10~表B.23 的规定。
7.4 频谱逆分组处理语法语义及解码过程
7.4.1 语法
频谱逆分组处理语法要求应符合表17 的规定。
表17 频谱逆分组处理语法
频谱逆分组处理语法比特数助记符
DecodeGroupBits() {
if(transformType == 0x1) {
numGroups 1 uimsbf
23
T/UWA 009.1-2023
numGroups += 1
if(numGroups == 2) {
for (i = 0; i < 8; i++) {
groupIndicator[i] 1 uimsbf
}
}
} else {
numGroups = 1
for (i = 0; i < 8; i++) {
groupIndicator[i] = 0
}
}
}
7.4.2 语义
numGroups 1bit，用于表示当前帧MDCT 频谱的分组数量
groupIndicator 1bit，用于表示当前短帧第i 个block 的分组归属，0 表示属于暂态组，
1 表示属于其他组
7.4.3 解码过程
MDCT 频谱分组处理的基本思路是：当窗型控制参数为短窗时，每个短窗对应的MDCT 频谱称为
一个短块，将8 个短块的MDCT 频谱分为两个组，一组是包含暂态短块的暂态组，另一组是不包含暂
态短块的其他组。两个组的MDCT 频谱分别进行交织并拼接为长度1024 的MDCT 频谱（与长帧频谱
长度一致），并进行神经网络变换、量化和区间编码处理。
解码端频谱逆分组处理的过程是：对于短帧，如果当前帧的分组数量numGroups 等于2，则将解码
获得的两个组的MDCT 频谱进行组内解交织（对暂态组的MDCT 系数和其他组的MDCT 系数分别进
行解交织处理），以获得组内解交织后的8 个短块的MDCT 频谱，并按照groupIndicator 标识的位置对
组内解交织后的8 个短块的MDCT 频谱进行逆分组排列，以获得按顺序排列的8 个短块的MDCT 频谱。
频谱逆分组处理后的MDCT 频谱作为各模式上混处理的输入。
举例描述如下：
若当前短帧的numGroups 等于2，groupIndicator 为[1, 1, 1, 0, 0, 0, 1, 1]，即当前帧8 个短块的第4、
5、6 个短块为暂态块，1、2、3、7、8 短块为其他块。
则解码获得的分组的MDCT 频谱是按[4, 5, 6, 1, 2, 3, 7, 8]的顺序排列的，即暂态组（4、5、6 短块）
的频谱在前，其他组（1、2、3、7、8 短块）的频谱在后。
恢复正常顺序的频谱（即每个短块的频谱按时间顺序排列），需要按groupIndicator 指示的顺序，
将解码获得的分组的MDCT 频谱重新排列，以获得按短块顺序1~8 排列的谱系数。
7.5 双声道立体声比特分配和上混语法语义及解码过程
7.5.1 语法
双声道立体声边信息语法要求应符合表18 的规定。
表18 双声道立体声边信息语法
24
T/UWA 009.1-2023
双声道立体声边信息语法比特数助记符
DecodeStereoSideBits() {
if(useMcr == 0) {
isMs 1 uimsbf
if(</n;i++){

资源下载此资源下载价格为5金币立即购买，VIP免费

1.本站大部份文档均属免费，部份收费文档，经过本站分类整理，花了精力和时间，收费文档是为了网站运营成本等费用开支；
2.所有收费文档都真实可靠，为了节约成本，文档在网站前台不做预览，如果付费后，与实际文档不符合，都可以加微信号：pdftj88申请退款；
3.购买会员（或单次下载）即视为对网站的赞助、打赏，非商业交易行为（不认同此观点请勿支付）请慎重考虑；
4.付费下载过程中，如果遇到下载问题，都可以加微信号pdftj88解决；
5.手机支付，尽量选择支付宝支付；
6.如图集或者标准不清楚，在本站找不到您需要的规范和图集，希望增加资料等任何问题，可联系微信号:pdftj88解决；

T/UWA 009.1-2023 三维声技术规范第1部分：编码、分发与呈现

LY/T 3436-2025 木竹产品碳足迹评价指南

LY/T 3437-2025 森林草原防火信息系统技术要求

LY/T 3438-2025 楠属植物新品种特异性、一致性和稳定性测试指南

LY/T 3439-2025 山核桃属植物新品种特异性、一致性和稳定性测试指南

LY/T 3440-2025 悬钩子属植物新品种特异性、一致性和稳定性测试指南

LY/T 3441-2025 栒子属植物新品种特异性、一致性和稳定性测试指南

LY/T 3442-2025 滇丁香属植物新品种特异性、一致性和稳定性测试指南

NMPAB/T 33301-2025 医疗器械生产许可与备案管理基本数据集

NMPAB/T 33304-2025 医疗器械经营许可与备案管理基本数据集

WS/T 368-2025 医院空气净化管理标准

发表评论

发表评论

加入我们

立即登录

找回密码