T/UWA 012.2-2023 “百城千屏”超高清视音频传播系统视音频编码:系统 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L71
世界超高清视频产业联盟标准
T/UWA 012.2—2023
“百城千屏”超高清视音频传播系统视音频编码:系统
Coding of UHD video and audio broadcasting system for “Bai Cheng Qian Ping”:system
2023 - 08 - 21 发布2023 - 08 - 21 实施
世界超高清视频产业联盟 发布
目次
前言............................................................................ II
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语和定义........................................................................... 1
4 缩略语............................................................................... 1
5 编码音视频复用传输要求............................................................... 2
5.1 总体要求......................................................................... 2
5.2 stream_id 要求....................................................................2
5.3 stream_type 要求..................................................................2
5.4 AVS3 视频描述符要求...............................................................2
5.5 AVS2 视频描述符要求...............................................................5
5.6 扩展PES 分组..................................................................... 7
6 传输流的IP 传输要求.................................................................. 8
6.1 传输流作为UDP 的负载传输......................................................... 8
6.2 传输流作为RTP 的负载传输......................................................... 8
附录A 独立音频传输(资料性附录) .......................................................9
A.1. 独立音频互联网传输............................................................. 9
A.2. 独立音频同步要求............................................................... 9
T/UWA 012.2—2023
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件代替T/UWA 012.2-2022《“百城千屏”超高清视音频传播系统视音频编码:系统》,与T/UWA
012.2-2022 相比,主要增加了对三维声的支持。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
本文件由世界超高清视频产业联盟提出并归口。
本文件起草单位:国家广播电视总局广播电视规划院、广东博华超高清创新中心有限公司、中央广
播电视总台超高清视音频制播呈现国家重点实验室、华为技术有限公司、北京中视广信科技有限公司、
日本夏普株式会社、中国移动通信集团咪咕文化科技有限公司、海信视像科技股份有限公司、TCL实业
控股股份有限公司、京东方科技集团股份有限公司、中国电子信息产业发展研究院、中兴通讯股份有限
公司、北京市博汇科技股份有限公司、北京百度网讯科技有限公司、杭州当虹科技股份有限公司、利亚
德光电股份有限公司、北京广播电视台、上海文化广播影视集团有限公司、上海交通大学、中国电子技
术标准化研究院、中国信息通信研究院、上海数字电视国家工程研究中心有限公司、工业和信息化部电
子第五研究所、北京爱奇艺科技有限公司、成都索贝数码科技股份有限公司、深圳创维-RGB电子有限公
司、山东浪潮超高清视频产业有限公司、深圳酷开网络科技股份有限公司、北京数码视讯科技股份有限
公司、索尼(中国)有限公司、北京三星通信技术研究有限公司、上海国茂数字技术有限公司、上海网
达软件股份有限公司、北京锐马视讯科技有限公司、赛因芯微(北京)电子科技有限公司、北京淳中科
技股份有限公司、成都德芯数字科技股份有限公司、重庆赛宝工业技术研究院有限公司、上海通维通讯
网络科技有限公司、北京云晁科技有限公司、成都德芯数字科技股份有限公司、中移(杭州)信息技术
有限公司、深圳市洲明科技股份有限公司、西安诺瓦星云科技股份有限公司、深圳奥拓电子有限公司
本文件主要起草人:姜文波、张文林、高山俊明、徐进、冯景峰、刘昕、于芝涛、严方红、原烽、
张文刚、梅剑平、宁金辉、孙剑、张伟民、崔俊生、潘晓菲、许春蕾、龙仕强、张鸿宇、温晓君、黄成、
陈勇、刘莉、王荣芳、白雅贤、李法、陈家兴、罗峻兮、董云翔、李康敬、郭佩佩、潘兴浩、王之奎、
李斌、顿胜堡、冯林、王立冬、范金慧、王振中、宜玉栋、徐异凌、许哲、王亚军、薛勇、徐华伟、沈
思宽、徐遥令、崔艳春、尹旭辉、李晓榕、赵显亮、邢怀飞、王立众、王国中、王威、袁谦、李庆喻、
彭海、荣继、孟祥朋、吴健、吴强、孔令术、张振兴、李俊、曾贵修、潘月宏、霍杰、武智、沈培晶、
李俊、史俊峰、白莹杰、哲栋、王勇、刘永强、乔斌、袁胜利、赵小伟、张聪慧、牛伟、谭胜淋、周晓
强、张华
T/UWA 012.2—2023
1
“百城千屏”超高清视音频传播系统视音频编码:系统
1 范围
本文件规定了“百城千屏”超高清视音频传播系统中编码的视频基本流、音频基本流在GB/T
17975.1-2010定义的传输流中复用传输的要求,并规定了传输流在IP网络中的传输要求。
本文件适用于“百城千屏” 超高清视音频传播系统中的视音频编码码流的复用与传输。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
ISO/IEC 13818-1:2019 信息技术运动图像及其伴音信息的通用编码第1部分:系统(Information
technology — Generic coding of moving pictures and associated audio information — Part 1:
Systems)
ETSI TS 102 034 在IP网络中传输GB/T 17975.1的传输流(Transport of MPEG-2 TS Based DVB
Services over IP Based Networks)
GB/T 17191.2-1997 信息技术具有1.5Mbit/s 数据传输率的数字存储媒体运动图像及其伴音的编
码第2部分:视频
GB/T 17975.1-2010 信息技术运动图像及其伴音信息的通用编码第1部分:系统
GB/T 17975.2-2000 信息技术运动图像及其伴音信号的通用编码第2部分:视频
GB/T 20090.2-2006 信息技术先进音视频编码第2部分:视频
GB/T 33475.2-2016 信息技术高效多媒体编码第2部分:视频
T/AI 109.2 信息技术智能媒体编码第2部分:视频
T/UWA 009.1 三维声音技术规范第1 部分:编码分发与呈现
3 术语和定义
下列术语和定义适用于本文件。
3.1
知识图像library picture
T/AI 109.2中规定的知识位流中的图像,可以被其他位流中的图像参考
3.2
知识位流library stream
T/AI 109.2中规定的包含知识图像的位流
3.3
主位流sequence stream
T/AI 109.2中规定的可参考由该位流之外的信息提供的知识图像进行解码的位流
4 缩略语
下列缩略语适用于本文件。
AAC 先进音频编码(Advanced Audio Coding)
AVS2 信息技术高效音视频编码第2部分:视频(Information Technology——High Efficiency
Media Coding Part2: Video)
T/UWA 012.2—2023
2
AVS3 信息技术智能媒体编码第2部分:视频(Information Technology Intelligent Media Coding
Part2: Video)
HLS HTTP实时流传输(HTTP Live Streaming)
RTMP 实时消息传递协议(Real-Time Messaging Protocol)
RTP 实时应用传输协议(Real-time Transport Protocol)
bslbf 比特串,即二进位串,左位在先。(Bit string, left bit first, where "left" is the
order in which bit strings are written in the specification.)
uimsbf 无符号整数,最高有效位在先(Unsigned integer, most significant bit first)
UDP 用户数据报协议(User Datagram Protocol)
UTC 世界标准时间(Coordinated Universal Time)
WebRTC 网络实时通信(Web Real-Time Communication)
5 编码音视频复用传输要求
5.1 总体要求
视频编码采用T/AI 109.2基准10位档、10.0.60级或GB/T 33475.2-2016基准10位档、8.0.60级。
超高清视音频编码的视频基本流、音频基本流宜在GB/T 17975.1-2010定义的传输流中传输。
5.2 stream_id 要求
在GB/T 17975.1-2010的“表2-18 Stream_id赋值”基础上,stream_id为1110 xxxx的流编码规定
为“GB/T 17975.2或GB/T 20090.2或GB/T 17191.2或GB/T 33475.2,视频流编号为xxxx”;stream_id
为1111 1101的流编码规定为“T/AI 109.2视频流”;stream_id为1101 1101的流编码规定为“T/UWA
009.1-2022音频流”。
音频stream_id见ISO/IEC 13818-1:2019。
5.3 stream_type 要求
GB/T 17975.1-2010的“表2-29 流类型指定” 基础上, 补充GB/T 33475.2视频流的stream_type
值0xD2为, T/AI109.2视频流的stream_type值为0xD4,T/UWA 009.1音频流的stream_type值为0xD5。
音频stream_type见ISO/IEC 13818-1:2019。
5.4 AVS3 视频描述符要求
5.4.1 AVS3 视频描述符语法
在GB/T 17975.1-2010的2.6节基础上增加AVS3视频描述、AVS3音频描述符。其中,AVS3音频描述符
应符合T/UWA 009.1的要求,AVS3视频描述符语法应符合表1的要求。在GB/T 17975.1-2010的“表50节
目和节目元素描述符”基础上,补充标签值62,标签值62应为AVS3视频描述的标签。
表1 AVS3 视频描述符语法
语法位数助记符
AVS3_video_descriptor () {
descriptor_tag 8 uimsbf
descriptor_length 8 uimsbf
profile_id 8 uimsbf
level_id 8 uimsbf
T/UWA 012.2—2023
3
语法位数助记符
multiple_frame_rate_flag 1 bslbf
frame_rate_code 4 uimsbf
sample_precision 3 uimsbf
chroma_format 2 uimsbf
temporal_id_flag 1 bslbf
td_mode_flag 1 bslbf
library_stream_flag 1 uimsbf
reserved 3 bslbf
colour_primaries 8 uimsbf
transfer_characteristics 8 uimsbf
matrix_coefficients 8 uimsbf
if ( !library_stream_flag ) {
num_ref_library_stream 7 uimsbf
id_type_flag 1 bslbf
for (i=0; i<num_ref_library_stream; i++)="" {<br=""> if (id_type_flag)
ref_library_stream_PEID[i] 13 uimsbf
else {
ref_library_stream_id[i] 8 uimsbf
reserved 5 bslbf
}
reserved 3 bslbf
}
}
}
5.4.2 AVS3 视频描述各字段语义
档次字段profile_id
该字段为8位。表示视频位流的档次,该字段与T/AI109.2视频位流中profile_id字段相同。
级别标识符字段level_id
该字段为8位。表示视频位流的等级。该字段与T/AI109.2视频位流中level_id字段相同。
复合帧速率标志multiple_frame_rate_flag
T/UWA 012.2—2023
4
该字段为1位,置'1'时表示视频流中可能有多个帧速率,置'0'时表示只有单一帧速率。
帧速率码字段frame_rate_code
该字段为4 位, 该字段与T/AI 109.2 视频位流中frame_rate_code 字段定义相同。
multiple_frame_rate_flag字段置'1'时,一个特定的帧速率意味着视频流中允许有某些其它的帧速率,
帧速率码应符合表2的要求。
表2 帧速率码
编码速率同时允许的速率
23.976
24.0 23.976
25.0
29.97 23.976
30.0 23.976 24.0 29.97
50.0 25.0
59.94 23.976 29.97
60.0
100.0
119.88
120.0
23.976 24.0 29.97 30.0 59.94
50.0
59.94
59.94 60.0 119.88
样本精度字段sample_precision
该字段为3位。规定亮度和色度样本的精度。该字段与T/AI 109.2视频位流中sample_precision字
段相同。
色度格式字段chroma_format
该字段为2位。规定色度分量的格式。该字段与T/AI 109.2视频位流中chroma_format字段相同。
时间层标识允许标志temporal_id_flag
该字段为1 位。表示视频流是否允许使用时间层标识。该字段与T/AI 109.2 视频流中
temporal_id_enable_flag字段相同。
立体视频模式标志td_mode_flag
该字段为1位。表示视频流是单目视频流,或是多视点视频流。该字段与T/AI 109.2视频流中
td_mode_flag字段相同。
彩色三基色colour_primaries
该字段为8 位。说明视频流中源图像三基色的色度坐标。该字段与T/AI 109.2 视频流中
colour_primaries字段相同。
光电转换特性transfer_characteristics
该字段为8 位。说明视频流中源图像的光电转换特性。该字段与T/AI 109.2 视频流中
transfer_characteristics字段相同。
彩色信号转换矩阵matrix_coefficients
该字段为8位。说明从红绿蓝三基色转换为亮度和色度信号时采用的转换矩阵。该字段与T/AI 109.2
视频流中matrix_coefficients字段相同。
知识位流标识library_stream_flag
该字段为1位。指示节目中与该描述子对应的基本流是否为知识位流。值为‘1’表示描述子对应的
基本流是知识位流;值为‘0’表示该描述子对应的基本流是主位流。
被参考的知识基本流数目字段num_ref_library_stream
该字段为7 位。定义了与该描述子对应的基本流是主位流时,该主位流依赖的知识位流的数量。
索引类型字段id_type_flag
T/UWA 012.2—2023
5
该字段为1位。指示与该描述子对应的基本流是主位流时,该主位流依赖的知识位流的索引类型。
该字段值为‘1’表示被依赖的知识位流的索引使用该知识位流所在的传输流分组包的PEID;该字段值
为‘0’表示被依赖的知识位流的索引使用该知识位流所在的PES分组包的stream_id。当描述子包含在
节目流中时,该字段值应为‘0’。
被参考的知识基本流PEID 字段ref_library_stream_PEID[i]
该字段为13位。定义了与该描述子对应的基本流是主位流时,该主位流依赖的第i个知识位流所在
传输流分组包中PEIT_indicator字段的值。
被参考的知识基本流索引字段ref_library_stream_id[i]
该字段为8位。定义了与该描述子对应的基本流是主位流时,该主位流依赖的第i个知识位流所在PES
分组包头中stream_id字段的值。
5.5 AVS2 视频描述符要求
5.5.1 AVS2 视频描述符语法
在GB/T 17975.1-2010的2.6节基础上补充AVS2视频描述符。AVS2视频描述符语法应符合表3的要求。
在GB/T 17975.1-2010的“表50节目和节目元素描述符”基础上,补充标签值64,签值64应为AVS2视频
描述的标签。
表3 AVS2 视频描述符语法
语法位数助记符
AVS2_video_descriptor () {
descriptor_tag
descriptor_length
profile_id
level_id
extension_layer_number
for ( i=1; i<=extension_layer_number; i++ ) {
layer_profile_id[i]
layer_level_id[i]
layer_type[i]
dependent_layer_number[i]
for (j=0; j<dependent_layer_number[i]; j++="" )="" {<br=""> dependent_layer_id[i][j]
}
}
multiple_frame_rate_flag
frame_rate_code
AVS_still_present
8
8
8
8
8
8
8
8
8
8
1
4
1
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
bslbf
uimsbf
bslbf
T/UWA 012.2—2023
6
语法位数助记符
chroma_format
sample_precision
reserved
colour_primaries
transfer_characteristics
matrix_coefficients
}
2
3
5
8
8
8
uimsbf
uimsbf
bslbf
uimsbf
uimsbf
uimsbf
5.5.2 AVS2 视频描述各字段语义
档次标识profile_id
8 位字段。表示比特流的档次。该字段与GB/T 33475.2 视频流中profile_id 字段相同。
等级标识level_id
8 位字段。表示比特流的等级。该字段与GB/T 33475.2 视频流中level_id 字段相同。
扩展层数extension_layer_number
8 位字段。表示比特流的扩展层数。该字段与GB/T 33475.2 视频流中extension_layer_number 字段
相同。
层档次layer_profile_id
8 位字段。表示该比特流层的档次。该字段与GB/T 33475.2 视频流中layer_profile_id 字段相同。
层等级layer_level_id
8 位字段。表示该比特流层的等级。该字段与GB/T 33475.2 视频流中layer_level_id 字段相同。
层类型layer_type
8 位字段。该字段与GB/T 33475.2 视频流中level_id 字段相同。
依赖层数dependent_layer_number
8 位字段。表示当前层所依赖的其他层的数量。该字段与GB/T 33475.2 视频流中
dependent_layer_number 字段相同。
依赖层索引dependent_layer_id
8 位字段。表示当前层所依赖的层的索引。该字段与GB/T 33475.2 视频流中dependent_level_id 字
段相同。
复合帧速率标志multiple_frame_rate_flag
1 位字段,置'1'时表示视频流中可能有多个帧速率,置'0'时表示只有单一帧速率。
帧速率码字段frame_rate_code
4 位字段, 该字段与GB/T 33475.2 视频流中frame_rate_code 字段定义相同。不同点在于
multiple_frame_rate_flag 字段置'1'时,一个特定的帧速率意味着视频流中允许有某些其它的帧速率。帧
速率码应符合4 的要求。
表4 帧速率码
编码速率同时允许的速率
23.976
T/UWA 012.2—2023
7
24.0 23.976
25.0
29.97 23.976
30.0 23.976 24.0 29.97
50.0 25.0
59.94 23.976 29.97
60.0 23.976 24.0 29.97 30.0 59.94
AVS 静态图象AVS_still_present
1 位字段。置'1'时表示该视频流只含静态图像数据;置'0'时,则可包含运动的或静态的图像数据。
色度格式chroma_format
2 位字段。规定色度分量的格式。该字段与GB/T 33475.2 视频流中chroma_format 字段编码方式相
同。
采样精度sample_precision
3位字段。规定亮度和色度样本的精度。该字段与GB/T 33475.2视频流中sample_precision字段编
码方式相同。
彩色三基色colour_primaries
8 位字段。表示视频流中源图像三基色的色度坐标。该字段与GB/T 33475.2 视频流中
colour_primaries字段相同。
光电转移特性transfer_characteristics
8 位字段。表示视频流中源图像的光电转移特性。该字段与GB/T 33475.2 视频流中
transfer_characteristics字段相同。
彩色信号转换矩阵matrix_coefficients
8 位字段。表示从红绿蓝三基色转换为亮度和色度信号时采用的转换矩阵。该字段与GB/T 33475.2
视频流中matrix_coefficients 字段相同。
5.6 扩展PES 分组
扩展PES分组,使用PES分组的私有数据段传输编码时间信息TimeStamp。
5.6.1 TimeStamp 语法
在GB/T 17975.1-2010 基础上, PES_extension_flag 置为1 、PES_private_data_flag 置为1 ,
PES_private_data 中传输的语法结构应符合表5 的要求。该语法结构的应用见附录A。
表5 TimeStamp 语法结构
语法位数助记符
TimeStamp () {
syncword
version
utc_time_valid
reserved
reserved
utc_time
}
12
2
1
1
64
48
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
T/UWA 012.2—2023
8
5.6.2 TimeStamp 各字段语义
同步字syncword
语法结构同步,应为0xFEE。
版本version
表示该语法结构的版本,值为1。
reserved 保留
本语法结构中保留为全1。
UTC时间有效标志位utc_time_valid
是否设置utc 时间的标志位, 1 代表utc_time 具有实际值, 0 代表utc_time 无效。
世界标准时间utc_time
生成该帧的时间,1970 年1 月1 日0 时0 分0 秒开始计数的毫秒数。
6 传输流的IP 传输要求
6.1 传输流作为UDP 的负载传输
应符合ETSI TS 102 034中7.1.2节的规定。
6.2 传输流作为RTP 的负载传输
应符合ETSI TS 102 034中7.1.1节的规定。
T/UWA 012.2—2023
9
附录A 独立音频传输(资料性附录)
存在大屏不宜播放声音的情况,但是观众有观看大屏节目时听到同步音频的需求。针对此需求,需
要单独传输一路与节目对应音频,以供观众收看大屏节目时用随身携带的移动设备同步收听节目的音频,
具体见图1。由于大屏位置不同、不同传输网络的延时不同、不同类型终端解码缓冲策略不同,造成解
码视频播放延时不同;需要在节目码流中添加时间戳,具体语法结构见5.5节,解码终端需上报解码时
间与对应时间戳;用户随身携带移动设备应用需获取设备所在位置以供服务平台找到对应大屏,并提供
适合的音频流。
图1 百城千屏独立音频传输示意图
A.1. 独立音频互联网传输
音频编码采用三维菁彩声,为了降低延时和保证数据完整性,在传输过程中不建议进行二次转码。
为了控制独立音频播放终端可与对应大屏的视频同步播出,建议在音频的传输流中嵌入与生成该帧
的时间对应的UTC时间戳,具体的时间戳嵌入方式与视频传输流相同。
A.2. 独立音频同步要求
在独立音频传输时,音频与对应的大屏视频时延应控制在(-120,120)毫秒内。
播放独立音频的移动终端APP应具备同步微调功能。</dependent_layer_number[i];></num_ref_library_stream;>
评论