T/CES 129-2022 电力人工智能平台样本规范 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
资源简介
以下为《电力人工智能平台样本规范》(T/CES 129-2022)核心内容的详细总结:
一、样本类型与基本要求
1. 图像(含视频)样本
- 文件格式
- 图像:
jpg/jpeg/png
- 视频:
mp4
(截取帧需转为jpg/jpeg/png
)。
- 图像:
- 命名规则
包含项目来源、专业信息、日期(年月日)、唯一编号(如输电巡检_甘肃_20230101_001
)。 - 质量要求
- 分辨率≥1920×1080像素,目标物体占比≥40%;
- 视频码率≥5Mb/s(1080p);
- 目标物体边缘清晰,遮挡≤2/3。
- 描述文件
- 格式:
txt
; - 内容:样本来源、项目、日期、联系人、样本量及用途(见附录A.1)。
- 格式:
2. 语音样本
- 文件格式
mp3/pcm/raw
。 - 命名规则
省份拼音首字母+性别(F/M)+设备类别(如GS_F_T
表示甘肃女性电话录音)。 - 质量要求
- 环境安静,无效音(背景噪声/方言/语气词)≤40%;
- 语速150-200音节/分钟,音量≥25分贝。
- 描述文件
- 声源信息:录音设备、系统参数;
- 样本信息:标注规范、录音时间/地点、环境等。
3. 文本样本
- 文件格式
txt/csv/json/xls/xlsx/xml
(UTF-8编码)。 - 命名规则
项目来源+专业信息+日期+唯一编号(如故障报告_变电_20230101_001
)。 - 质量要求
内容无乱码,符合业务需求。
二、标注要求
1. 图像(含视频)标注
- 标签内容
- 输电:线路名称、杆塔号、缺陷类型;
- 变电:设备名称、缺陷内容;
- 配电:违规原因。
- 标注规则
- 使用最小矩形框,目标物体需完整包含(边缘距离≤框边长3%);
- 遮挡>2/3时标注轮廓并添加“遮挡”标签;
- 存储格式:COCO或VOC(XML/JSON)。
- 标注文件
与图像同名,存储于独立文件夹。
2. 语音标注
- 切分规则
- 按静音段切分,每段5-6秒。
- 标注规则
- 完全复现语音内容(含口吃、语气词如“嗯”);
- 数字转汉字,听不清词用“*”标注(≤5%);
- 格式:
开始时间-结束时间:文本
(例:00:02:35-00:02:40:查存款到期时间
)。
- 标注文件
TXT格式,与语音文件同名。
3. 文本标注
- 标注类型
- 序列标注(BIOES模式)、实体抽取(定义语义层次)。
- 词性标注规则
- 单类词按《语法信息词典》标注;
- 多类词按场景区分(如“车”在“一车煤”中标注量词
q
,其他场景标注名词n
)。
- 标注文件
TXT格式,文件名加-bz
后缀(如故障报告_001-bz.txt
)。
三、标注流程
- 样本检查
- 全面检查(100%)或抽样检查(≥1%样本量)。
- 标注工具
使用平台兼容工具(需支持标准格式)。 - 标注执行
- 半自动标注:
① 构建训练集(70%)和测试集(30%);
② 训练模型并评估(召回率/精确率);
③ 批量标注。 - 人工标注:
① 试标注(≥1%样本);
② 批量标注。
- 半自动标注:
- 结果收集
- 统一回收,按类型(图像/语音/文本)和标注方式分类存储。
- 结果检查
- 全量检查或抽样检查(随机/分类抽样)。
四、附录关键内容
- 表A.1(样本描述文件模板)
包含项目名称、来源、日期、联系人、样本量及用途。 - 表A.2(多类词标注规则)
例:- “编辑科技文献” → “编辑”作动词标
v
; - “考虑领导意见” → “考虑”作名词标
n
; - “共同进步” → “共同”作副词标
d
,但“共同目标”中标区别词b
。
- “编辑科技文献” → “编辑”作动词标
总结:该规范系统定义了电力AI平台中三类样本的采集、标注全流程,强调格式标准化(如图像分辨率、语音无效音比例)、标注一致性(如BIOES模式)及质量控制(全量/抽样检查),为电力行业AI模型训练提供数据基础支撑。
评论