ICS 35.240.99
CCS L 60
团体标准
T/CES 157—2022
电力智能交互命名实体标注规范
Power intelligent interactive named entity annotation specification
2022-12-19 发布 2022-12-21 实施
中国电工技术学会 发布
T/CES 157—2022
I
目 次
前言................................................................................................................................................................... Ⅱ
1 范围............................................................................................................................................................... 1
2 规范性引用文件........................................................................................................................................... 1
3 术语和定义................................................................................................................................................... 1
4 缩略语........................................................................................................................................................... 1
5 总则............................................................................................................................................................... 2
6 样本基本要求............................................................................................................................................... 2
6.1 文本文件存储格式要求......................................................................................................................... 2
6.2 文本文件命名要求................................................................................................................................ 2
6.3 文本类样本质量要求............................................................................................................................. 2
6.4 文本样本描述文件................................................................................................................................ 2
7 样本标注要求............................................................................................................................................... 2
7.1 基本要求................................................................................................................................................ 2
7.2 单类词词性标注要求............................................................................................................................. 3
7.3 多类词词性标注要求............................................................................................................................. 3
7.4 实体抽取样本标注要求......................................................................................................................... 3
7.5 实体关系抽取样本标注要求................................................................................................................. 3
7.6 事件抽取样本标注要求......................................................................................................................... 3
7.7 标注文件命名与存储要求..................................................................................................................... 3
8 样本标注流程............................................................................................................................................... 3
8.1 总体要求................................................................................................................................................ 3
8.2 样本检查................................................................................................................................................ 3
8.3 安全管控................................................................................................................................................ 4
8.4 标注工具................................................................................................................................................ 4
8.5 样本标注结果收集................................................................................................................................ 4
8.6 样本标注结果检查................................................................................................................................ 4
9 标注任务....................................................................................................................................................... 4
9.1 基本要求................................................................................................................................................ 4
9.2 人名标注规范........................................................................................................................................ 5
9.3 职名标注规范........................................................................................................................................ 5
9.4 地名标注规范........................................................................................................................................ 5
9.5 组织机构名标注规范............................................................................................................................. 6
9.6 产品名标注规范.................................................................................................................................... 7
9.7 品牌标注规范........................................................................................................................................ 7
9.8 事件标注规范........................................................................................................................................ 8
9.9 时间结构标注规范................................................................................................................................ 8
9.10 数量结构标注规范............................................................................................................................... 9
9.11 数码标注规范...................................................................................................................................... 9
附录A(资料性附录) 分类表.................................................................................................................... 11
T/CES 157—2022
II
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1 部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由四川中电启明星信息技术有限公司提出。
本文件由中国电工技术学会标准工作委员会能源智慧化工作组归口。
本文件起草单位:国网信息通信产业集团有限公司、四川中电启明星信息技术有限公司、国网重庆
市电力公司。
本文件主要起草人:李强、宋卫平、邓芷珊、周孔均、张捷、赵峰、田鹏、李炳森、李欢欢、杨帆、
王刚强、杨智、谷波、胡州明、王红蕾、田富强、李立。
本文件为首次发布。
T/CES 157—2022
1
电力智能交互命名实体标注规范
1 范围
本标准规定了电力智能交互训练时命名实体(包括狭义和广义命名实体)标注的基本要求、流程和
规范。
本标准适用于进行电力智能交互命名实体模型开发时的样本标注和样本入库的统一管理,包括样本
的质量管控、样本标注的技术管控和流程管控。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 5271.28 信息技术 词汇 第28 部分:人工智能 基本概念与专家系统
GB/T 18521 我国地名分类与分类代码编制规则
3 术语和定义
下列术语和定义适用于本文件。
3.1
命名实体 named entity
唯一个体的专有名称。
3.2
样本数据 sample data
其具备的特征能够反映总体数据情况的一部分个体数据。
3.3
标注 annotation
采用人工或计算机自动方式对语料样本的属性或特征进行描述,可用于实用的目的,如客户服务或
资讯获取等。
3.4
标签 label
标识数据的特征、类别和属性等内容,可用于建立数据及深度学习训练要求所定义的机器可读数据
编码间的联系。
3.5
标注工具 annotation tool
标注人员执行标注任务生成标注结果的过程中使用的工具和软件。标注工具按照自动化程度分手
动、半自动和自动三种。
4 缩略语
下列缩略语适用于本文件。
T/CES 157—2022
2
XML:可扩展的标记语言(Extensible Markup Language)
5 总则
本文件共分为样本基本要求、样本标注要求、标注流程三部分。
6 样本基本要求
6.1 文本文件存储格式要求
文本数据应采用txt、csv、JSON、xls、xlsx、XML 的存储格式。
6.2 文本文件命名要求
文本文件名称应由四个部分组成:
a) 第一部分为项目命名词或文本来源;
b) 第二部分为当前文本文件的专业信息;
c) 第三部分为原始源文件生成时的日期,日期格式:YYYY-MM-DD;
d) 第四部分为文件唯一性编号,从1 开始计数;
e) 这四部分用下划线连接,且文件名称长度和扩展名在内最大长度不超过100 个字符(包含中英
文字符和特殊字符)。
6.3 文本类样本质量要求
文本类样本质量应满足下述要求:
a) 内容应满足相关业务需求;
b) 应使用UTF-8 编码。
6.4 文本样本描述文件
每批次文本样本集应有一个描述文件,应满足下述要求:
a) 存储格式应为txt 格式。
b) 命名应由三个部分组成:
1) 项目命名词或样本来源;
2) 本文件创建的日期,日期格式:YYYY-MM-DD;
3) 文件唯一性编号,从1 开始计数;
4) 这四部分用下划线连接,且文件名称长度和扩展名在内最大长度不超过100 个字符(包含
中英文字符和特殊字符)。
c) 文档内容应描述本样本集的基本信息,应包括样本所属项目、样本来源、创建日期、样本上传
单位及联系人、样本量、样本用途等信息。
7 样本标注要求
7.1 基本要求
应满足标注对象范围、标注方式、标注文件命名要求。具体要求包括:
a) 文本类样本标注应支持词、句子、整个文本等不同范围的标注;
b) 文本类样本标注应支持序列标注、指针标注、多头标注等多种标注方式;
T/CES 157—2022
3
c) 序列标注应采用B、I、E、O、S 标签列表,宜采用BIO、BIOES 标签方案进行标注。
7.2 单类词词性标注要求
对于单类词,在标注时应确定其词性。
7.3 多类词词性标注要求
对于多类词,应满足多种多类词标注规则。
7.4 实体抽取样本标注要求
实体抽取样本标注应满足下述要求:
a) 样本标注前应定义实体语义类型,包含实体名称与层次结构;
b) 若实体包含属性,应定义属性名称与属性值。
7.5 实体关系抽取样本标注要求
实体关系抽取应满足下述要求:
a) 样本标注前应定义实体语义类型与关系;
b) 关系定义应包含关系类型与相关实体信息,起始实体与目标实体,关系为单向或双向等信息。
7.6 事件抽取样本标注要求
事件抽取样本应满足下述要求:
a) 样本标注前应定义实体语义类型与事件类型;
b) 事件抽取样本应包含事件;
c) 文本样本应具有正确的词性分析,事件触发词宜为名词或动词;
d) 若事件具有属性,应定义属性名称与属性值。
7.7 标注文件命名与存储要求
标注文件应由两部分组成,第一部分与对应标注文本命名一致,第二部分为“-bz”,应保存为txt
格式。
8 样本标注流程
8.1 总体要求
样本标注应包含样本检查、安全管控、标注工具选择、标注任务开展、标注结果收集和标注结果检
查环节。
8.2 样本检查
在样本标注前应按照本文标注样本要求对待标注样本进行检查,应根据业务需求和样本的数量采用
全量检查或抽样检查,方式如下:
a) 全量检查应对指定范围内的所有样本进行逐条检查。
b) 抽样检查可采用随机抽样或分层抽样,方式如下:
1) 随机抽样,即:针对不同业务类型的数据样本采用随机抽样进行检查;
2) 分层抽样,即:针对同一业务类型的样本数据,根据样本类型不同采取分层抽样的方式进
行检查。
T/CES 157—2022
4
8.3 安全管控
应满足对标注环境及标注人员的安全管控要求。具体要求包括:
a) 标注过程应在内网环境下的指定机器中进行,机器应开启防火墙,安装杀毒软件,并禁用USB
接口功能;机器中的所有数据文件需定期做好数据备份,不得擅自拷贝、传输,防止数据丢失
或泄漏;
b) 标注人员应经过标注工作培训并签署样本标注保密协议后才可上岗操作。
8.4 标注工具
标注工具的选择应满足标注需求。具体要求包括:
a) 选择的标注工具易安装、易操作;
b) 选择的标注工具可以标注出电力智能交互训练语料样本的命名实体内容,且可以对txt、csv、
Json 等存储格式的电力智能交互训练语料样本文件进行内容解析(内容解析即所选标注工具可
读取出txt、csv、Json 等语料样本文件中的内容并将内容存储于标注工具中),解析完成后即
可在标注工具内进行信息标注;
c) 所选标注工具能够解析当前标注任务中电力智能交互训练语料样本文件的所有文本存储格式,
否则需要重新选择标注工具或将该标注任务中不能被解析的电力智能交互训练语料样本的存
储格式转换成所选标注工具可以解析的存储格式;
d) 所选标注工具在完成标注任务后可以将标注信息导出并直接或经过格式转换后用于电力智能
交互模型训练。
8.5 样本标注结果收集
标注结果收集应满足以下具体要求:
a) 样本标注结果应由统一的人员进行回收和存放,防止文件外泄;
b) 标注结果收集人员应对样本标注结果的相关信息(包括任务名称、任务类型、任务开始时间、
任务结束时间、任务描述进行核对)进行检查,防止文件遗漏;
c) 标注结果收集人员,宜按照样本类型(图像视频,语音和文字)和标注方式(图像标注包括图
像分类、图像目标检测、图像分割;文本标注包括文本分类、文本标注;音频标注包括音频分
类、音频标注)进行分类保存。
8.6 样本标注结果检查
在样本标注结果收集后应按照本文第7 章要求对标注结果进行检查,应根据业务需求和样本标注的
数量采用全量检查或抽样检查,方式如下:
a) 全量检查应对指定范围内的所有样本进行逐条检查。
b) 抽样检查可采用随机抽样或分层抽样,方式如下:
1) 随机抽样,即:针对不同业务类型的数据样本采用随机抽样进行检查;
2) 分层抽样,即:针对同一业务类型的样本数据,根据样本类型不同采取分层抽样的方式进
行检查。
9 标注任务
9.1 基本要求
应根据业务需求和命名实体分类进行标注。
T/CES 157—2022
5
9.2 人名标注规范
在电力行业的命名实体中,人名一类的命名实体在电力行业中的占比较大。在查询相关设备负责人;
相关职能部门联系人;相关项目联系人等电力智能交互功能中人名一类的命名实体十分重要。
人名相关定义:
狭义人名即个人专有名称,如:李华。广义人名指含有姓或名的个人称谓,如:大志先生。人名全
称:指应有的姓、名的全称。人名简称,指省略了应有的姓、名构件或部分的所有人名称谓方式。人名
扩展:与人名右紧邻、被人名直接或间接修饰,并与人名一起表示人称的词或紧密短语。如:小明妈妈。
9.3 职名标注规范
在电力行业的命名实体中,职名一类的命名实体在电力行业中必不可少,在电力行业中大致分为技
术通道和行政通道,在电力智能交互功能中对于职名的命名实体识别可以区分不同人的职能身份。
9.3.1 职名定义及相关说明
职名:职务、职称、职业、职位名称的合称。
职务名称:组织机构中有职权的岗位名称。如国网山东省电力公司的组织架构中的:总经理、党委
书记、工会主席、总师、总经理助理等。
职业名称:表明所从事行业的人的职能身份名称。如:电工、查表员、程序员、秘书、会计等。“公
司职员”、“职工”、“白领”等不表明所从事行业,“商业”、“教育”、“体育”等不表明人的职
能身份,这些都不是职业名称。
职称名称:有统一规范的职业级别的细分名称。如:中级电力工程师、初级电气工程师等。
职位名称:表示某机构的某个岗位的名称。职位名规则:机构名+职务名:国家电网公司总经理;
或机构名+职称名:中国电科院研究员。
职名并不属于命名实体范畴,虽然它能充当命名实体的构件和属性;但由于它和命名实体联系密切
且具有重要的情报价值,所以将职名特别地在命名实体标注中同时予以标注。
9.3.2 职名分类、构件、代码、归类标准、标注原则与式样
职名可分为职业名称、职务名称、职称名称。根据各自定义,职务名称不必须表明所从事行业、职
业,但必须标志一定的职权,如:秘书长。职业名称则必须表明所从事行业和人的职能,且不表明职权,
如:秘书。职称是职业的技术等级细分,与职务差别比较明显,但有时与职业不易区分。如:图书馆员
本身既是职业名称,又是一级职称名称。若不明确指出职称、职业与职称同名的情况统一视为职业名称。
详见表A.1。
9.4 地名标注规范
在电力行业的命名实体中,地名一类的命名实体同样重要,在反馈相关场地、相关职能部门所在地、
相关项目所在地等场景中,地名类命名实体可以快速精确地反应相关地址,为电力智能交互的信息获取
提供保障。
9.4.1 地名相关定义
地名:人们对各地理实体赋予的专有名称。
标准地名:使用规范的语言文字书写的地名全称。
地名简称:经过官方认可或约定俗成的地名的简单称谓。
地名别名:某一地理实体的标准地名及其简称以外的其他现行名称。
现今地名:目前正在使用的地名。
T/CES 157—2022
6
历史地名:过去曾经使用过、目前已不再使用的地名。
地名扩展:与地名右紧邻、被地名直接或间接修饰,并与地名一起表处所的词或紧密短语。如:长
江以南、李村村西小河。
9.4.2 地名分类、构件、归类标准
根据该项目研究目的,可以按照地名的文字特征、地名所指代地理实体的空间位置、地名所指代地
理实体的地理属性、地名的使用时间、地名的表示方式五项指标作为地名类别划分的标准。
以上对地名的分类方法能够将地名按照地名通名的类别聚类,在此基础上可以对地名专名、地名饰
名进行统计分析。
9.5 组织机构名标注规范
组织机构是按照一定的宗旨和系统建立起来的集体,在电力行业中有从上至下一整套的组织机构将
整个电力行业串联起来,因此在电力行业的智能交互中,组织机构一类的命名实体的占比也是较大的,
且在电力行业的智能交互中可以发挥较大的信息提取功能。
9.5.1 组织机构名相关定义
组织机构:是按照一定的宗旨和系统建立起来的集体。主要包括机关、企事业单位、社会团体、民
办非企业单位、国际组织及其内部机构(其他组织定义参照附录A)。组织一般侧重于整体指向,机构
一般侧重于局部指向,这点区别是相对。
组织机构名:人们给组织机构赋予的专有名称。
标准组织机构名:使用规范的语言文字书写的组织机构名全称。
组织机构名简称:经过官方认可或约定俗成的组织机构名的简单称谓。
组织机构别名:某一组织机构的标准组织机构名及其简称以外的其他现行名称。现今组织机构名:
目前正在使用的组织机构名。
历史组织机构名:过去曾经使用过、目前已不再使用的组织机构名。
组织机构名扩展:与组织机构名右紧邻、被组织机构名直接或间接修饰,并与组织机构名一起表组
织机构的词或短语。如:国家电网四川省电力公司事业部
9.5.2 组织机构名构件分类、归类标准及其标注式样
组织机构名内部构件可分为组织机构通名、组织机构专名和组织机构饰名三大类。组织机构通名是
表示该组织机构类型的构件,如组织机构名中的“公司/集团有限公司/大学/政府/养老院/联合会/局”
等,它与组织机构按功能属性分类的结果具有一定的对应关系。组织机构专名和组织机构饰名是含有相
同通名的组织机构命名实体的区别性构件。其中,可作为组织机构的简称而独立运用的区别性构件成为
组织机构专名。如:国家电网有限公司、清华大学。反之称为组织机构饰名,是组织机构名中通名、专
名以外的语词构件。如“北京大学”。
组织机构通名可按照组织机构类型分类,详见表A.2。
组织机构专名可按照其文字特征分类,详见表A.3。
组织机构饰名可按语义功能分类,详见表A.4。
9.5.3 组织机构标注原则
组织机构标注原则如下:
a) 组织机构名标注的总原则是选取有助于提高组织机构名自动识别、自动聚类能力和检索效率的
内容进行标注,同时为信息抽取做必要准备。
T/CES 157—2022
7
b) 在不打乱原文语法关系的前提下,将紧邻织机构名且表组织机构的文字标注出来。
c) 组织机构名识别语料标注范围为组织机构名、组织机构名扩展及旬内组织机构名属性。组织机
构名和组织机构名扩展分别标注。旬外组织机构属性暂不标注。
d) 组织机构名需根据相应分类、编码、格式对组织机构名整体及其通名、专名、饰名进行全面标
注。
e) 非命名实体的组织机构名扩展原则上不做细标。
f)当两层以上组织机构名嵌套出现时,通常后者隶属于前者,此时其间隶属关系缺省不予标注,
但各层需分别标注为组织机构名。
g)通名不能作为一级机构整体标注,必须与其前一级机构进行整体标注。参见组织机构名通名分
类编码使用规则。
h) 组织机构名简称、别称及历史组织机构名部分分别整体标注,组织机构名简称、别称内部暂不
作细标,历史组织机构名内部细标。现今组织机构名、组织机构名全称缺省不标。
i) 组织机构名作为其他命名实体构件时,将每层组织机构名整体标注为构件,内部不细标。
j) 当其他命名实体充当组织机构名构件时,对该命名实体整体标注,内部不细标。
k) 当其中使用的是组织机构名的组织机构属性时,该属性缺省不标。
l) 两标原则:当组织机构饰名中的部分与其后组织机构通名构成最小指称、甚至词典词时:如果
构成的是词典词,则该词典词标为通名,将其前内容标注为组织机构饰名即可。该类词典词代
日后对词典进行深化标注时统一处理。
m) 如果构成的是最小指称,则将该组织机构饰名按照最小指称的分割位置分标成两部分,组织机
构通名与最小指称照常标注。
9.6 产品名标注规范
在电力行业中,产品的种类数不胜数,从最基础的电力、用于建设电网的组件如角钢塔、变压器、
高压线,甚至于输电线路本身都是一种资产,在电力行业的智能交互中,对于该类产品命名实体的识别
是极为重要的,例如在智能客服应用场景中查询剩余电量中的“电量”也是作为一种产品实体存在。
9.6.1 产品名相关定义
产品名:狭义产品名是指作为货物(可运输产品)、服务及资产(不可运输产品)名称 的狭义命
名实体。如:风力发电机。广义产品名是指含有产品专名或品牌、商标、规格等标志性产品饰名的一类
货物(可运输产品)、服务及资产(不可运输产品)的专有名称(有些 产品、商品、服务的名称本身
就是品牌)。
对于产品的货物、资产和服务三大门类十大部类,我们为所有产品设立产品公共属性, 为每个产
品门类设立门类属性,为每个产品部类设立部类属性,为产品部类下设的各类产品设立产品种类属性。
产品公共属性是指所有产品通常都具备的产品属性,产品门类属性是指该门类产品通常都具备的公共属
性之外的产品属性;产品部类属性是指该部类产品通常都具备的公共属性和门类属性之外的产品属性;
产品种类属性是指该类产品所具备的公共属性、门类属性和部类属性制外的产品属性。
9.6.2 货物饰名分类、归类标准及其标注式样
货物饰名是指货物专名中修饰货物通名的词或短语。详见表A.5。
9.7 品牌标注规范
“品牌”不是商标,更不是产品,是企业或品牌主体(包括城市、个人等)一切无形资产总和的全
息浓缩,而“这一浓缩”又可以以特定的“符号”来识别;它是主体与客体,主体与社会,企业与消费
T/CES 157—2022
8
者相互作用的产物。
品牌符号是区别产品或服务的基本手段,包括名称、标志、基本色、口号、象征物、代言人、包装
等。这些识别元素形成一个有机结构,对消费者施加影响。它是形成品牌概念的基础,成功的品牌符号
是公司的重要资产,在品牌与消费者的互动中发挥作用。
在命名实体标注研究中,品牌能够作为处理对象的只能是品牌符号,而且只能是品牌符号中的名
称、口号、代言人,更实际地讲,只是名称。而组织机构名是作为独立的命名实体进行标注,商标名本
身很少单独出现,多数是出现在产品名中,这样在产品名中商标已经被标注了。如果仍嫌不足,可以将
商标独立作为标注对象。
9.8 事件标注规范
在电力行业中,存在一系列的事件,这些事件往往参与在我们的日常生活生产中,例如电费涨价、
电力检修、电力政策改变。这些事件实体在电力行业的智能交互中往往扮演着重要角色,在电力智能交
互中识别事件实体往往可以捕捉到相关关键信息。
9.8.1 事件相关概念
事件名:主述结构的,文字连续的短语或句子。事件名具有嵌套性。
主语:具体事物,人/动物/植物/自然物及其部件:输电线路建立,电费涨价等。
机构团体:国务院实施电力体制改革,中国西电集团与国家电网有限公司部分子企业实施重组整
合。注:不一定是命名实体,即人名/地名/组织机构名。
述语:动词及其组成部分。
9.8.2 事件的命名方式
考虑字长的原因,事件不一定由事件名来命名。
命名方式:用文中一组强文本表示功能的词或短语来表示事件。
{参与者, 事件动词, (时间), (地点), (子事件)}
9.9 时间结构标注规范
在电力行业中,时间实体是很重要的一个部分,通过时间实体我们可以确定事件发生的时间,也可
以通过时间来检索相应时间所发生的事件。例如:2022 年10 月20 日15:00~17:00 某市某小区停电检
修,在该事件中,2022 年10 月20 日15:00~17:00 就是一个有关时间范围的实体,通过在智能交互中
提取该事件的此时间实体,我们可以确定该事件发生的事件,也可以通过对该时间的处理,通过检索该
时间段所发生的事件去定位到该事件的信息。
9.9.1 时间结构相关定义
时间结构:用纪时法(广义)纪录时间的完整实词短语。具有四个特征:①时序性:所表时间具有
指定性,指定该时间在时间之流中的位置;②规范性:通过通用、规范的纪时法表达时间,而不是通过
一般叙事来表达时间;③实词短语型:是不包含虚词的短语;④完整性:是文中完整的时间表达。
纪时法:纪年法、纪月法、纪日法、纪时法(狭义)等纪录时间的系统、规范的方法。
时间结构与时间性数量结构的区别:时间性数量结构是表达时间长短的数量结构。时间结构所表时
间具有指定性,即指定该时间在时间之流中的位置,而时间性数量结构表达时间不具有指定性,仅表示
时间长短。如:3 个月、两星期。
时间结构与时间词的区别:时间词是一个实词,时间结构是一个实词短语。
T/CES 157—2022
9
9.9.2 时间结构分类及归类标准
根据表达时间的特定程度,时间结构可分为绝对时间结构和相对时间结构。绝对时间结构是表绝对
时间的时间结构。如:2007 年、2007 年5 月5 日凌晨1 点。相对时间结构是表相对时间的时间结构。
该短语或者缺省绝对时间的限制,如:9 点50 分、5 月5 日;或者以相对时间代替绝对时间表达时间限
制,如:当年5 月、本月12 日。
时间结构根据表达形式可分为五类:①单点叙述式;②单点符号式;③起止叙述式;④起止符号式;
⑤多点缩略式。详见表A.6。
9.9.3 时间结构构件分类及其标注式样
时间结构构件分类及其标注式样详见表A.7。
9.10 数量结构标注规范
在电力行业中,数量、数目、顺序、量词等数量结构的数量实体也是其中一个重要的组成部分,如
电价、高压线的电压伏数、电表的用电度数,抑或是第几号杆塔、第几号输电线路,这些数量实体在电
力行业中随处可见。在电力行业的智能交互中,这些数量实体也发挥着不可替代的作用。
9.10.1 数量结构相关定义
数量结构:指形式完整的数量短语或含名数量短语。如:二十度电。
含数量短语:包含了被修饰核心名词的完整数量短语。如:二十度电左右。
数词:表示事物的数目或顺序的词。如:一、第一、−1.5。
量词:表示事物、动作或时空计量单位的词。如:个、位。
9.10.2 数词细分与示例
根据数词的构成特点及其与量词的搭配特点,将其分为三类:单纯数词、兼量数词和复合数词。复
合数词是由两个以上相邻的单纯数词构成的完整数词短语。数词细分结果详见表A.8。
9.10.3 数量结构分类
根据数量结构的构成特征,将数量结构分为定指数量结构(表确定值的完整数量结构)、概指数量
结构(表不确定值的完整数量结构)和含名数量结构(包含了被修饰核心名词的完整数量结构)三类。
详见表A.9。
9.11 数码标注规范
在电力行业中,设备有设备编号、员工有工作编号、部门也有部门编号,这些数码实体在实际生活
生产管理中发挥着不可替代的工作,尤其在存在同名人、同名项目的情况下,数码实体可以有效区分他
们的区别,在电力行业的智能交互中,数码实体提供的唯一性为电力行业的实际生活生产的管理提供了
有效帮助。我们可以通过数码实体获取指定唯一信息。
9.11.1 数码定义
数码是根据统一编制规则产生的,由数字(必备)辅以字母、符号、汉字等组成的,表达数字以外
含义的代码。
数码与数词的根本差别在于数码具有数字以外的含义或所指,可指人、指物、指事等,是一种代码。
如身份证号、学号、单位代码、电话号码、专利号码、国家标准号码、图书ISBN 号码、期刊ISSN 号
码等都是数码。
T/CES 157—2022
10
9.11.2 数码的分类
根据数码与其他命名实体间的构成关系,数码可分为两类。一类是数码本身就是其他命名实体或其
构件(专名、饰名或通名),例如,数码指人的化名,如:007;指组织,如91765(部队番号);指
地点,如:798;指产品,如101;指时间,如:2007-05-01。我们将这类充当其他命名实体或其构件的
数码称为别名数码。
另一类数码称为独立数码,是与其他命名实体不具有构成关系的数码。独立数码包括很多种类,如
身份证号、学号、单位代码、电话号码、专利号码、国家标准号码、图书ISBN 号码、期刊ISSN 号码
等。我们将根据具体应用需求来设定我们要标注的独立代码种类。
根据编制规则,典型独立数码的种类有以下三种:
a) 顺序码:又称系列码,是一种用连续数字代表编码对象的码,例如,用1 代表男性,2 代表女
性。
b) 区间码:区间码是把整个编码分成多个分组,形成多个区间,每个区间是一组,每组的码值和
位置都代表一定意义。典型的区间码是邮政编码。区间码又可分为以下三种类型:
1) 多面码。一个数据项可能具有多方面的特性。如果在码的结构中,为这些特性各规定一个
位置,就形成多面码。
2) 上下关联区间码。上下关联区间码由几个意义上相互有关的区间码组成,其结构一般由左
向由排列。
3) 十进制码。此法相当于图书分类中沿用已久的十进制分类码,它是由上下关联区间码发展
而成的。如610.736,小数点左边的数字组合代表主要分类,小数点右边的指出子分类。
c) 自检码:由原来的代码(本体部分)和一个附加码组成。附加码用来检查代码的录入和转录过
程中是否有差错,附加码又叫校验码,它和代码本体部分有某种唯一的关系,它是通过一定的
数学算法得到的。
9.11.3 数码标注规则
数码标注规则如下:
a) 别名数码依据各类命名实体的标注规范进行标注。
b) 独立数码进行整体标注,基本标注代码为:ma。对于未被列入标注范围的独立代码,均不予以
标注。
c) 当独立代码充当其他命名实体属性或与其他命名实体发生关系时,按照各自的标注范式进行标
注。
T/CES 157—2022
11
附 录 A
(资料性附录)
分类表
职名分类表见表A.1。
表A.1 职名分类表
职名类别 职名构件 定义、标准 标注示例
职务通称 表基本职务名称的词 主任、经理
业务饰词 表职权的业务范围 销售主任、业务经理
等级饰词 表职务级别的接首词 副主任、总经理
组织机构通名饰词 以组织机构通名表示职权范围的职务饰名事业部主任、公司董事长
职务
职务饰词
其他饰词 其他职务饰词 外聘专家、借调人员
职业通称 表基本职业名称的词 研发程序员、弱电电工
职业 组织机构通名饰词 以组织机构通名表示任职单位类型的饰词电力培训中心教师
职业饰词
其他饰词 其他职业饰词 兼职资料员
职称通称 表基本职称名称的词 主任助理
职称
职称饰词 职称通称的饰词 副主任、总经理
组织机构通名分类表见表A.2。
表A.2 组织机构通名分类表
类别 定义 归类标准 标注示例
企业单位通名 企业法人单位通名 依定义 国家电网
非企业单位通名 非企业法人单位通名 依定义 华北电力大学
部门通名 法人单位的下设部门通名 依定义 四川中电启明星人资部
按文字特征组织机构专名分类表见表A.3。
表A.3 按文字特征组织机构专名分类表
类别 定义 归类标准 标注示例 备注
词典词组织机构专名
由单一词典词充当的完
整组织机构专名
依定义 略
部分组织机构专名
已录入词典
汉语组织机构
专名
汉语或汉语义译组织机
构专名
专名词义、可望文
生义理解者
略 音译、义译结合者
少数民族组织
音译专名
中国少数民族语言组织
机构专名的音译名
依定义 略
汉
字
组
织
机
构
专
名
非词
典词
组织
专名
外语组织机构
音译专名
外语组织机构专名的音
译名
依定义 略
民族、国家代码可暂
代标为其国家汉字简
称,不知者可暂代标
“.”
非汉字组织机构专名
非汉字形式的组织机构
专名
依定义 SGCC —
T/CES 157—2022
12
按语义功能组织机构饰名分类表见表A.4。
表A.4 按语义功能组织机构饰名分类表
类别 定义 分类标准 示例
地名饰名 由地名充当的组织机构饰名
依定义(注:含表
组织机构属性的地名)
四川省电力公司
空间饰名 表空间范围、地点方位意义的组织机构饰名依定义 南方电网
时间饰名 表时间、时代意义的组织机构饰名 依定义 略
服务饰名 表经营性服务内容的组织机构饰名 华润电力
产品饰名 表企业相关产品的组织机构饰名 中国节能
企业行业饰名 表企业所属行业、领域的组织机构饰名
兼表行业、产品或
服务的饰名优先归入
企业产品或服务饰
名。符合“该企业生
产/提供的A 很好”句
式,则A 为产品或服
务饰名,否则为企业
行业饰名
国网山东省电力公司物资公司
非企行业饰名 表行业或领域的非企业组织机构饰名 物流与采购联合会
学科饰名
表事业单位、社会团体所涉及学科的组织机
构饰名
中国电工技术学会
技术饰名 表专业技术性社会团体的研究对象
兼表行业、学科、
技术的饰名,在行业
性社会团体命名实体
中优先入非企行业饰
名,其他情况优先入
学科或技术饰名
四川省电力行业协会
事务饰名
表机关、事业单位或其他组织机构下设部门
所管事务的组织机构饰名
依定义 国家抗灾保电总指挥部
成员饰名 表组织机构主要成员的组织机构饰名 依定义 中国电力电工协会
人才饰名
表组织机构服务对象或培养目标的组织机构
饰名
依定义 哈尔滨电工学院
人名饰名 由人名充当的组织机构饰名 依定义 略
组织机构名饰名 与该组织机构没有隶属关系的组织机构饰名依定义 上海电力大学同学会
隶级饰名 表组织机构隶属级别关系的组织机构饰名 依定义 重庆电力建设总公司
编号饰名 作为组织机构饰名的编号 依定义 上海电力外高桥一厂
符号饰名 指组织机构名中出现的标点符号 依定义 华润集团(电力)有限公司
其他饰名 未被列入组织机构饰名细类的其他饰名 依定义 广东恒健投资股份有限公司
物饰名分类表见表A.5。
表A.5 物饰名分类表
名称 定义 举例
货物用途饰名 表示货物使用的方向、场所、领域的饰名 电力互感器
货物功能饰名 表示货物自身功能、性能特征的饰名 变压器
货物化学属性饰名 表示货物化学属性的饰名 酸性蓄电池
质料饰名 表示货物材质、原料、配料、成分的货物饰名
瓷质绝缘子、玻璃绝缘子、
硅整流装置
T/CES 157—2022
13
表A.5 物饰名分类表(续)
名称 定义 举例
动能饰名 表示货物动力、能源来源的饰名 柴油发电机
颜色饰名 表示货物颜色的饰名 红色安全帽
包装饰名 表示货物包装形式的饰名 瓶装矿泉水
形状饰名 表示货物物理形状、构造特征的饰名
热轧带肋钢筋、嵌入式照明
灯、球轴承,滚子轴承
货物物理属性饰名
其他物理属性饰名 表示货物其他物理属性的饰名
中密度板、软木制品、硬质
纤维板、高纯阴极铜、实心
木、高速平带、同步齿形带
规格饰名 表示货物规格、型号的饰名
F248A 系列节能灯、5-7 号
燃料油
性能指标饰名 表示货物具体性能指标的饰名 60W、220V、50Hz 节能灯
货物指标饰名
系列饰名 非规格、性能指标的序列饰名 P系列分散染料
货物商标饰名
货物商标(商标是生产经营者在其生产、制造、
加工、拣选或者经销的商品或者服务上采用的,
区别商品或者服务来源的,由文字、图形或者其
组合构成的,具有显著特征的标志)
略
货物标牌饰名
货物品牌饰名 货物的非商标品牌、牌号 长虹电器
货物工艺饰名 表示货物生产、加工工艺的饰名
钢筋混凝土用热轧带肋钢
筋、注塑机械
货物等级饰名 表示货物质量等级的饰名 溶解级化学木浆
货物用法饰名 表示货物使用方法的饰名 含服舒咽片
货物字母饰名 不能归入以上各类的字母型、数字饰名
建筑(PVC)型材、PET 瓶
装茶饮料
其他货物饰名 其他货物饰名 半化学木浆、普通板材
时间结构表达形式分类见表A.6。
表A.6 时间结构表达形式分类
类名 归类标准 标注样例
单点叙述式 同时满足单点式和叙述式时间结构定义
2007 年2 月10 日
8 点半
单点式
单点符号式 同时满足单点式和符号式时间结构定义
2007-2-10
8:30
2007.3
五·一
起止叙述式 同时满足起至式和叙述式时间结构定义
2007 年~2008 年
3 月~5 月
起止式
起止符号式 同时满足起至式和符号式时间结构定义
8:30~10:00
2007.3~2007.4
2007.8~9
多点缩略式 据其定义 星期一、二
T/CES 157—2022
14
时间结构构件分类及其标注式样见表A.7。
表A.7 时间结构构件分类及其标注式样
类名 归类标准 举例
基本时序量词依定义 2007年
现今时序量词
时序量词 复合时序量词依定义 2007赛季
古代时序量词 依定义 清代、五更
纯汉字型 依定义 前二二一年、初五、第二周
完整时序数词
混合型 — 前221 年
汉字型 依定义
二零零七年、五·一、二○○七年、
8 点半、零七年
缩略时序数词
阿拉伯数字型—
2007 年、07 年、2007.3、2007-2-10、
8:30
干支时序数词 依定义 辛亥
时序数词
地支时序数词 依定义 子时
纪时法名称 依定义 公元、星期
历法名称 依定义 农历、阳历
帝号
王公即位年次纪年法中王公、皇
帝的名号
鲁僖公、赵惠文王
年号 年号纪年法中的年号 至和元年七月某日
国号 各种纪年法中的国号、朝代名民国二十五年、清顺治二年
时区 时区名称 东京时间15 点整
节气 二十四节气名 去年立秋
时节 季节与时节称谓 2004年仲春
节日 非事件性、非数字型节日名称2008 年春节
天色 天色纪时法中的天色名称 次日平明
月相 月相纪日法使用的月相称谓 七月望日
月份别称 十二个月份的别称 戊戌年桂月
生肖 — 马年
纪时专名
地质纪年 — 白坚纪
相对时间词 —
昨天、今天、去年、前年、大前年、
后年、大后年、明年
替代词 — 当地时间
相对纪时词 指代词 — 这周五
时间方位 —
初、中、未、底、终、来(以来)、
间、年间、期间、前、以前、上(上
上)、下(下下)
日区间词 — 凌晨、上午、晚上
隐讳词 — 上月某日
符号 — “~”、“-”、“.”、“·”
非汉字 — December 2003
T/CES 157—2022
15
数词细分表见表A.8。
表A.8 数词细分表
数词细分 定义 示例
基数词 表示数目多少的数词 5、5.1、1/2、2%、−1
序数词 表示顺序的数词 第一、首、二版、2nd
约数词 不以数字、数位表示数的数词,具有约略型、独立性多、若干、些微、许许多多
助数词
自身不独立表示数,只能辅助数字、量词等表示不确
定数量的数词
来、余、头两个、出头、左右
单
纯
数
词
残缺数词 表示数的不完整结构 三分之一
兼量数词 独立的数词本身兼表示数量、双义 俩、仁
整数复合数词 以整数为表示数主体的完整复合数词 四、五人
分数复合数词 以分数为表示数主体的完整复合数词 三分之一、二
小数复合数词 以小数为表示数主体的完整复合数词 一点几倍
序数复合数词 以序数词为表示数主体的完整复合数词 第一、二名、七、八名(名次)
兼量复合数词 以兼量数词为表示数主体的完整概复合数词 俩、仁人
定模复合数词 包含数字、数位的定模型数词 千千万万、成百上千
区域复合数词 以“~”、“-”连接表示数的范围的复合数词 1~10、4-6
乘接型数量结构
数字之间以“*”或“×”连接表示特定比例关系的复
合数词
180×90×45
比例型数量结构 数字之间以冒号连接表示特定比例关系的复合数词 2:0
复
合
数
词
其他复合数词 其他复合数词 999、八八六十四
数量结构细分表见表A.9。
表A.9 数量结构细分表
数量结构细分 定义 示例
基数定指数量结构 表示确定数量的完整数量结构 五十个
定指数量结构
序数定指数量结构 表示确定数量顺序的完整数量结构 第三位、三版、首名
基数概指数量结构 以基数词为表数主体的完整概指数量结构七八个
序数概指数量结构 以序数词为表数主体的完整概指数量结构第三四名,第三、四名
约数概指数量结构 以约数词为表数主体的完整概指数量结构多名、数年、近几年、斤把重
概指数量结构
定模型数量结构 以定模为表主体的完整概指数量结构 千千万万名、一片片、一片一片
含名数量结构 包含了被修饰核心名词的完整数量结构 20人左右、30 人出头
评论