T/CES 156-2022 电力智能交互文本训练语料标注规范

文档天下 图书评论8阅读模式

T/CES 156-2022 电力智能交互文本训练语料标注规范 ,该文件为pdf格式 ,请用户放心下载!

尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。

如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。

收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!

资源简介

  ICS 35.240.99

CCS L 60

团体标准

T/CES 156—2022

电力智能交互文本训练语料标注规范

Specification for annotation of power intelligent interactive

text training corpus

2022-12-19 发布 2022-12-21 实施

中国电工技术学会 发布

T/CES 156—2022

I

目 次

前言................................................................................................................................................................... Ⅱ

1 范围............................................................................................................................................................... 1

2 规范性引用文件........................................................................................................................................... 1

3 术语和定义................................................................................................................................................... 1

4 缩略语........................................................................................................................................................... 2

5 总则............................................................................................................................................................... 2

6 基本要求....................................................................................................................................................... 2

6.1 存储格式要求........................................................................................................................................ 2

6.2 命名要求................................................................................................................................................ 2

6.3 质量要求................................................................................................................................................ 3

6.4 样本描述文件要求................................................................................................................................ 3

7 标注要求....................................................................................................................................................... 3

7.1 基本要求................................................................................................................................................ 3

7.2 意图标注要求........................................................................................................................................ 3

7.3 槽位标注要求........................................................................................................................................ 4

7.4 标注完成的语料样本命名与存储要求................................................................................................. 4

8 标注流程....................................................................................................................................................... 4

8.1 总体要求................................................................................................................................................ 4

8.2 语料样本检查........................................................................................................................................ 5

8.3 安全管控................................................................................................................................................ 5

8.4 标注工具选择........................................................................................................................................ 5

8.5 语料样本标注........................................................................................................................................ 6

8.6 标注结果收集........................................................................................................................................ 6

8.7 标注结果检查........................................................................................................................................ 7

附录A(资料性附录) 电力智能交互文本训练语料样本标注示例.......................................................... 8

A.1 场景1:电费相关................................................................................................................................ 8

A.2 场景2:电力知识查询......................................................................................................................... 8

A.3 场景3:电力安监................................................................................................................................ 8

附录B(资料性附录) 标注完成的电力智能交互文本训练语料样本应用示例..................................... 10

T/CES 156—2022

II

前 言

本文件按照GB/T 1.1—2020《标准化工作导则 第1 部分:标准化文件的结构和起草规则》的规定

起草。

本文件由四川中电启明星信息技术有限公司提出。

本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。

本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆

市电力公司、国网重庆市电力公司电力科学研究院、重庆大学。

本文件主要起草人:李强、宋卫平、王红蕾、赵峰、周孔均、钟加勇、倪平波、李炳森、田鹏、李

欢欢、徐小云、刘礼、崔秋实、张强、李立、李军、高攀、高胜杰。

本文件为首次发布。

T/CES 156—2022

1

电力智能交互文本训练语料标注规范

1 范围

本标准规定了对电力智能交互文本训练语料的基本要求、标注要求和标注流程。

本标准适于电力智能交互文本训练语料的标注、管理及质量管控等。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件

GB/T 5271.28 信息技术 词汇 第28 部分:人工智能 基本概念与专家系统

T/CESA 1040 信息技术 人工智能 面向机器学习的数据标注规程

T/CES 128 电力人工智能平台总体架构及技术要求

3 术语和定义

下列术语和定义适用于本文件。

3.1

语料 corpus

即语言材料,是语言学研究的内容,也是构成语料库的基本单元。

3.2

样本数据 sample data

其具备的特征能够反映总体数据情况的一部分个体数据。

3.3

训练语料 corpora

用于训练算法模型且标注好指定信息的语料。

3.4

标注 annotation

采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或

资讯获取等。

3.5

意图 intention

指一段自然语言文本信息中,用户所表达的想要达到的某种目的。

3.6

槽位 slot

在用户表达意图的句子中,用来准确表达该意图的关键信息的标识。

3.7

标注工具 annotation tool

标注人员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手

T/CES 156—2022

2

动、半自动和自动三种。

3.8

半自动化标注 semi-automatic annotation

基于少量人工标注、机器预标注来训练标注模型,用于批量标注样本数据的半人工智能标注方法。

4 缩略语

下列缩略语适用于本文件。

BIOES:BIOES 标注模式(B-begin, I-inside, O-outside, E-end, S-single)

BIO:BIO 标注模式(B-begin, I-inside, O-outside)

5 总则

本文件对电力智能交互文本训练语料的标注规范主要体现在三个方面:基本要求、标注要求和标注

流程。其中,基本要求用于规范电力智能交互文本训练语料样本文件的命名、存储格式等;标注要求用

于规范电力智能交互文本训练语料样本文件内容的标注信息等;标注流程用于规范标注完成的电力智能

交互文本训练语料样本文件的统一管控等。这三方面内容的具体组织框架如图1 所示。

图1 内容组织框架

6 基本要求

6.1 存储格式要求

电力智能交互文本训练语料样本数据应采用txt、csv、Json、xlsx、xls、XML、pdf 等存储格式。

6.2 命名要求

电力智能交互文本训练语料文件名称应由四个部分组成:

a) 第一部分为项目命名词或文本来源;

b) 第二部分为当前文本文件的专业信息;

c) 第三部分为原始源文件生成时的日期,日期格式:YYYY-MM-DD;

d) 第四部分为文件唯一性编号,从1 开始计数;

T/CES 156—2022

3

e) 这四部分用下划线连接,且文件名称长度和扩展名在内最大长度不超过100 个字符(包含中英

文字符和特殊字符);

f) 文件命名举例:针对某电力业务场景的××项目_聊天机器人语料_2022-11-08_1。

6.3 质量要求

电力智能交互文本训练语料样本质量应满足下述要求:

a) 应支持计算机正常读取,文本内容无乱码;

b) 内容应满足相关业务需求;

c) 应使用UTF-8 编码。

6.4 样本描述文件要求

每批次电力智能交互文本训练语料样本集应有一个描述文件,且描述文件应满足下述要求:

a) 存储格式应为txt 格式。

b) 命名应由三个部分组成:

1) 项目命名词或样本来源;

2) 本文件创建的日期,日期格式:YYYY-MM-DD;

3) 文件唯一性编号,从1 开始计数;

4) 文件名的各部分用下划线连接,文件命名示例:针对某电力业务场景的××项目_2022-

06-08_1。

c) 文件内容应描述本语料样本集的基本信息,应包括语料样本所属项目、语料样本来源、创建日

期、联系人、语料样本标注信息、标注格式、语料样本用途等信息。

7 标注要求

7.1 基本要求

进行电力智能交互文本训练语料标注时应满足标注对象范围、标注方式、标注文件命名要求。具体

要求包括:

a) 电力智能交互文本训练语料样本标注应支持意图类别、槽位等信息的标注;

b) 电力智能交互文本训练语料样本标注应支持序列标注、指针标注等多种标注方式;

c) 标注可通过线上标注(样本+标注平台)和线下标注(线下小工具和线下文本txt、csv、Json)

实现;

d) 序列标注应采用B、I、E、O、S 标签列表,宜采用BIO、BIOES 标签方案进行标注;

e) 已完成标注的电力智能交互文本训练语料文件应按照规定的命名格式命名。

7.2 意图标注要求

电力智能交互文本训练语料样本意图标注应满足下述要求:

a) 在电力智能交互文本训练语料样本标注前应对所有样本数据进行整体综合分析,且结合具体电

力业务场景中涉及到的电力专业词汇及其相关词汇,定义意图类别数和意图类别名称以用于电

力智能交互文本训练语料标注;

b) 电力智能交互文本训练语料样本意图类型的确定需要结合具体的应用场景和待标注样本数据,

且确定的意图类型明确、全面,满足应用需求;

c) 若一条电力智能交互文本训练语料样本可标注为多个意图类别时,应根据应用场景将该条样本

标注为一个可能性最大的意图类别,必要时可由多位标注人员共同确定待标注样本的意图类

T/CES 156—2022

4

别;

d) 每条电力智能交互文本训练语料样本都应标注出其意图类别,若一条语料意图不属于已定义的

意图类别中的任何一类则可将该语料删除,或者新增一个意图类别以将语料样本中不属于已定

义意图类别的语料样本均归类于该意图类别;

e) 标注时应做到准确标注意图类,且标注完成后需要专业核查人员进行核查;

f) 应用场景,如:标注语料样本“请查询用户××的电费余额是多少”为“电费余额查询”意图

类别。

7.3 槽位标注要求

电力智能交互文本训练语料样本槽位标注应满足下述要求:

a) 在电力智能交互文本训练语料样本标注前应对所有样本数据进行整体综合分析,且结合具体电

力业务场景中涉及到的电力专业词汇及其相关词汇,定义槽位的类别数和类别名称以用于标注

电力智能交互文本训练语料样本;

b) 一条待标注的电力智能交互文本训练语料样本中有可能存在多个槽位,应标出所有的槽位信

息;

c) 一条电力智能交互文本训练语料样本中可能不存在槽位信息,应允许槽位信息为空;

d) 电力智能交互文本训练语料样本中的槽位信息可能存在槽位信息重叠,对存在重叠的槽位信息

可以标注出其中之一,也可以将重叠的槽位信息均标注出来,此时需要根据实际需求确定对重

叠槽位信息内容的标注方式;

e) 标注槽位信息要准确、全面,且标注完成后需要专业核查人员进行核查;

f) 应用场景,如:“用户00535000123 查询一下当前电费余额”,需要标注的槽位信息为:

"00535000123"、"当前",标注结果:{"text": "用户00535000123 查询一下当前电费余额", "意图

类别": "电费余额查询", "槽位": {"用户": "00535000123","时间": "当前"}}。

7.4 标注完成的语料样本命名与存储要求

电力业务标注任务中涉及到的所有电力智能交互文本训练语料样本被标注完成后将其从标注工具

中导出,且导出的标注信息文件多为Json、csv 等存储格式。针对这些导出的包含标注信息的文件进行

存储时应满足下述要求:

a) 文件命名。从标注工具中导出的电力智能交互文本训练语料样本标注信息文件命名应由两部分

组成,第一部分与对应语料样本文本命名一致,第二部分为“-bz”,具体如:针对某电力业务

场景的××项目_聊天机器人语料_2022-11-08_1-bz.json。

b) 存储格式。从标注工具中导出的电力智能交互文本训练语料样本标注信息文件格式可以根据需

求由导出时的Json、csv 等存储格式转换为其他符合需求的存储格式如txt 等。

c) 内容格式。从标注工具中导出的电力智能交互文本训练语料样本标注信息文件内容组织形式是

标注工具设置的内容形式,此时应根据算法模型需求将标注工具设置的内容组织形式转换为电

力智能交互算法模型所需的内容组织形式。

8 标注流程

8.1 总体要求

电力智能交互文本训练语料样本标注应包含语料样本检查、安全管控、标注工具选择、语料样本标

注、标注结果收集和标注结果检查等环节,具体如图2 所示。

T/CES 156—2022

5

图2 样本标注流程

8.2 语料样本检查

在电力智能交互文本训练语料样本标注前应按照第6 章要求对待标注电力智能交互文本训练语料

样本进行检查,应根据电力业务需求和电力智能交互文本训练语料样本的数量采用全量检查或抽样检

查,方式如下:

a) 全量检查应对指定范围内的所有电力智能交互文本训练语料样本进行逐条检查。

b) 抽样检查可采用随机抽样或分层抽样,方式如下:

1) 随机抽样,即:针对不同电力业务场景的电力智能交互文本训练语料样本采用随机抽样进

行检查;

2) 分层抽样,即:针对同一电力业务场景的电力智能交互文本训练语料样本数据,根据语料

样本类型不同采取分层抽样的方式进行检查。

8.3 安全管控

应满足对标注环境及标注人员的安全管控要求。具体要求包括:

a) 标注过程应在内网环境下的指定机器中进行,机器应开启防火墙,安装杀毒软件,并禁用USB

接口功能;机器中的所有数据文件需定期做好数据备份,不得擅自拷贝、传输,防止数据丢失

或泄;

b) 标注人员应经过语料标注工作培训获得相关单位资格认证并签署语料样本标注保密协议后才

可上岗操作。

8.4 标注工具选择

标注工具的选择应满足标注需求。具体要求包括:

a) 选择的标注工具易安装、易操作;

b) 选择的标注工具可以标注出电力智能交互文本训练语料样本的意图类别和槽位信息等内容,且

可以对txt、csv、Json 等存储格式的电力智能交互文本训练语料样本文件进行内容解析(内容

解析即所选标注工具可读取出txt、csv、Json 等语料样本文件中的内容并将内容存储于标注工

具中),解析完成后即可在标注工具内进行信息标注;

c) 所选标注工具能够解析当前标注任务中电力智能交互文本训练语料样本文件的所有文本存储

格式,否则需要重新选择标注工具或将该标注任务中不能被解析的电力智能交互文本训练语料

样本的存储格式转换成所选标注工具可以解析的存储格式;

T/CES 156—2022

6

d) 所选标注工具在完成标注任务后可以将标注信息导出并直接或经过格式转换后用于电力智能

交互模型训练。

8.5 语料样本标注

根据电力业务需求和电力智能交互文本训练语料标注任务难易度可选择人工标注或半自动化标注。

8.5.1 人工标注

人工标注任务应按照试标注、批量标注顺序执行,具体要求如下:

a) 试标注:

1) 从标注任务的待标电力智能交互训练标注语料样本中抽取试标注语料样本。可采用随机抽

样或分层抽样方法抽取样本,抽取比例不宜低于待标注语料样本总量的1%。

2) 标注人员对抽取语料样本进行标注。

3) 标注项目负责人对标注结果进行确认。

4) 标注人员重复执行标注错误的标注任务,直至标注项目负责人确认无误。

b) 标注人员批量执行标注任务,且标注人员。

8.5.2 半自动化标注

半自动标注任务应按照电力智能交互文本训练语料样本构建、模型及规则构建、模型批量标注顺序

执行,具体要求如下:

a) 样本构建:

1) 从待标注电力智能交互文本训练语料样本中抽取训练语料样本和测试语料样本。可采用随

机抽样或分层抽样方法抽取语料样本,训练语料样本与测试语料样本占语料样本总量的比

例均不宜低于1%,训练语料样本与测试语料样本的比例宜为7∶3,训练语料样本与测试语

料样本应无交集。

2) 标注人员通过人工方式标注电力智能交互文本训练语料样本和测试语料样本。

3) 标注项目负责人对标注结果进行确认。

4) 标注人员重复执行标注错误的标注任务,直至标注项目负责人确认无误。

b) 模型及规则构建:

1) 使用标注后的电力智能交互文本训练语料样本建立标注模型,或者根据标注数据定义规

则;

2) 使用标注后的电力智能交互测试语料样本测试标注模型,且可采用召回率、精确率等指标

评估模型标注准确度。

c) 使用标注模型或规则批量执行标注任务,并通过人工对模型或规则标注的电力智能交互语料样

本进行检查、修改和完善。其中标注模型可以是深度学习模型、聚类模型等。

8.6 标注结果收集

标注结果收集应满足以下具体要求:

a) 电力智能交互文本训练语料样本标注结果应由统一的人员进行回收和存放,防止文件外泄;

b) 电力智能交互文本训练语料样本标注结果收集人员应对语料样本标注结果的相关信息(包括任

务名称、任务类型、任务开始时间、任务结束时间、任务描述进行核对)进行检查,防止文件

遗漏;

c) 标注结果收集人员,宜按照电力业务的不同场景对完成标注的电力智能交互文本训练语料样本

进行安全保存。

T/CES 156—2022

7

8.7 标注结果检查

在电力智能交互文本训练语料样本标注结果收集后应按照第7 章要求对标注结果进行检查,应根据

电力业务需求和标注的电力智能交互文本训练语料样本数量采用全量检查或抽样检查,方式如下:

a) 全量检查应对指定范围内的所有电力智能交互文本训练语料样本进行逐条检查,且检查的内容

是标注的电力智能交互文本训练语料样本的意图类别和槽位信息是否正确,若存在问题则需要

人工修改正确并保存。

b) 抽样检查可采用随机抽样或分层抽样,方式如下:

1) 随机抽样,即:针对不同电力业务场景的电力智能交互文本训练语料样本采用随机抽样进

行检查;

2) 分层抽样,即:针对同一电力业务场景的电力智能交互文本训练语料样本,根据语料样本

类型不同采取分层抽样的方式进行检查。

T/CES 156—2022

8

附 录 A

(资料性附录)

电力智能交互文本训练语料样本标注示例

A.1 场景1:电费相关

例1:样本语料内容:用户00535000123 在2021 年的总电费是多少?

标注结果内容:{"text": "用户00535000123 在2021 年的总电费是多少?", "意图类别": "电费开

支","槽位": {"用户": "00535000123","时间": "2021 年"}}

例2:样本语料内容:用户00535000123 查询一下当前电费余额

标注结果内容:{"text": "用户00535000123 查询一下当前电费余额", "意图类别": "电费余额查询",

"槽位": {"用户": "00535000123", "时间": "当前"}}

场景1 中所有语料样本标注完成后,从标注工具导出所有电力智能交互文本训练语料样本的标注信

息文件,且文件内容组织形式可以转换成如下所示的格式(也可转换成其他的内容组织形式):

内容组织形式示例:[{"text": "用户00535000123 在2021 年的总电费是多少?", "意图类别": "电费

开支","槽位": {"用户": "00535000123", "时间": "2021 年"}},{"text": "用户00535000123 查询一下当前电

费余额", "意图类别": "电费余额查询", "槽位": {"用户": "00535000123", "时间": "当前"}},......]

A.2 场景2:电力知识查询

例1:样本语料内容:玻璃绝缘子的特点是什么?

标注结果内容:{"text": "玻璃绝缘子的特点是什么?", "意图类别": "绝缘子", "槽位": {"设备名称":

"玻璃绝缘子", "属性信息1": "特点"}}

例2:样本语料内容:在主配网线路中变压器存在的缺陷有哪些?

标注结果内容:{"text": "在主配网线路中变压器存在的缺陷有哪些?", "意图类别": "缺陷查询", "槽

位": {"设备名称": "变压器"}}

场景2 中所有语料样本标注完成后,从标注工具导出所有电力智能交互文本训练语料样本的标注信

息文件,且文件内容组织形式可以转换成如下所示的格式(也可转换成其他的内容组织形式):

内容组织形式示例:[{"text": "玻璃绝缘子的特点是什么?", "意图类别": "绝缘子", "槽位": {"设备名

称": "玻璃绝缘子", "属性信息1": "特点"}}, {"text": "在主配网线路中变压器存在的缺陷有哪些?", "意图

类别": "缺陷查询", "槽位": {"设备名称": "变压器"}},......]

A.3 场景3:电力安监

例1:样本语料内容:最近一个月内1 号操作室的电力调度员是否有没穿工作服的情况?

标注结果内容:{"text": "最近一个月内1 号操作室的电力调度员是否有没穿工作服的情况?", "意

图类别": "工作服", "槽位": {"地点": "1 号操作室", "时间": "最近一个月内", "人员": "电力调度员"}}

例2:样本语料内容:查看一下今年电力抢修任务1 中的抢修人员有没有佩戴绝缘手套?

标注结果内容:{"text": "查看一下今年电力抢修任务1 中的抢修人员有没有佩戴绝缘手套?", "意

图类别": "绝缘手套", "槽位": {"人员": "抢修人员", "任务": "任务1", "时间": "今年"}}

T/CES 156—2022

9

场景3 中所有语料样本标注完成后,从标注工具导出所有电力智能交互文本训练语料样本的标注信

息文件,且文件内容组织形式可以转换成如下所示的格式(也可转换成其他的内容组织形式):

内容组织形式示例:[{"text": "最近一个月内1 号操作室的电力调度员是否有没穿工作服的情况?",

"意图类别": "工作服", "槽位": {"地点": "1 号操作室", "时间": "最近一个月内", "人员": "电力调度员"}},

{"text": "查看一下今年电力抢修任务1 中的抢修人员有没有佩戴绝缘手套?", "意图类别": "绝缘手套",

"槽位": {"人员": "抢修人员", "任务": "任务1", "时间": "今年"}},......]

T/CES 156—2022

10

附 录 B

(资料性附录)

标注完成的电力智能交互文本训练语料样本应用示例

电力智能交互业务场景:“电费相关的意图识别模型训练”应用示例如下:

第一步:选择算法(机器学习算法或者深度学习算法);

第二步:确定算法模型需要的训练语料内容组织形式(内容组织形式即标注信息在文本文件中的组

织形式),如果在训练电力智能交互算法模型时需要输入的标注信息内容组织形式,如附录A 中所示

[{"text": "用户00535000123 在2021 年的总电费是多少?", "意图类别": "电费开支", "槽位": {"用户":

"00535000123", "时间": "2021 年"}},{"text": "用户00535000123 查询一下当前电费余额", "意图类别":

"电费余额查询", "槽位": {"用户": "00535000123","时间": "当前"}},........],则可以利用编程语言(如

Python)将从标注工具导出的文件内容组织形式转换为如上所示的内容组织形式,并进行电力智能交互

模型的训练;否则需要根据算法模型训练需求将标注信息转换为其他内容组织形式以用于电力智能交互

模型的训练;

第三步:利用训练好的模型对用户输入的新文本信息进行意图识别(即文本意图类别判断和槽位信

息提取),并用意图识别结果进行相关内容查询;

第四步:将查询结果转换成用户友好型格式展示给用户。

资源下载此资源下载价格为5金币立即购买,VIP免费

1.本站大部份文档均属免费,部份收费文档,经过本站分类整理,花了精力和时间,收费文档是为了网站运营成本等费用开支;
2.所有收费文档都真实可靠,为了节约成本,文档在网站前台不做预览,如果付费后,与实际文档不符合,都可以加微信号:pdftj88申请退款;
3.购买会员(或单次下载)即视为对网站的的赞助、打赏,非商业交易行为(不认同此观点请勿支付)请慎重考虑;
4.付费下载过程中,如果遇到下载问题,都可以加微信号pdftj88解决;
5.手机支付,尽量选择支付宝支付;
6.如图集或者标准不清楚,在本站找不到您需要的规范和图集,希望增加资料等任何问题,可联系微信号:pdftj88解决;

文档天下
  • 本文由 发表于 2025年6月25日 15:42:32
  • 转载请务必保留本文链接:https://www.998pdf.com/58783.html
图书

T/CES 146-2022 低压断路器健康管理

T/CES 146-2022 低压断路器健康管理 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可...
图书

T/CES 147-2022 电站用泡沫灭火剂技术规范

T/CES 147-2022 电站用泡沫灭火剂技术规范 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: