团 体 标 准
T/TAF 268.3—2025
生成式人工智能个人信息保护技术要求
第 3 部分:训练数据构建
Technical requirements of personal information protection in generative
artificial intelligence—Part 3: Dataset construction
2025-02-10 发布 2025-02-10 实施
电信终端产业协会 发布
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是T/TAF268—2025《生成式人工智能个人信息保护技术要求》的第3部分。T/TAF 268—2025已经发布了以下部分:
——第1部分:总则;
——第2部分: 隐私声明告知;
——第3部分:训练数据构建;
——第4部分:模型规制控制;
——第5部分:二次开发管理;
——第6部分:输出阶段管理;
——第7部分:个人权利响应;
——第8部分:供应链管理。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由电信终端产业协会提出并归口。
本文件起草单位:中国信息通信研究院、中兴通讯股份有限公司、北京快手科技有限公司、上海合合信息科技股份有限公司、北京微梦创科网络技术有限公司、联通华盛通信有限公司、北京卡路里科技有限公司、上海声网科技有限公司、OPPO广东移动通信有限公司、科大讯飞股份有限公司、广州视睿电子科技有限公司、蚂蚁科技集团股份有限公司、珠海魅族科技有限公司、荣耀终端股份有限公司、北京三快在线科技有限公司、厦门美柚股份有限公司、维沃移动通信有限公司、阿里巴巴(中国)有限公司、广东小天才科技有限公司、北京理想汽车有限公司、广州虎牙信息科技有限公司、北京转转精神科技有限责任公司、上海得物信息集团有限公司、友盟同欣(北京)科技有限公司、华为终端有限公司、北京小桔科技有限公司、北京象信智能科技有限公司、北京猿力教育科技有限公司、高通无线通信技术(中国)有限公司、北京智者天下科技有限公司。
本文件主要起草人:屈蕾蕾、武林娜、王淞鹤、潘万鹏、谷晨、落红卫、宋宏宇、廖超豪、任资政、康宇、刘觅、王海涛、曹昉赫、张天若、陈宝金、钱雷、李根、李腾、王士进、高建清、刘胜宇、尹志超、林冠辰、石玉珍、朱玲凤、李絁芩、李辰淑、赵晓娜、吴斌、黄鹏华、徐曼、贾科、黄天宁、周裕亮、刘晓杰、胡梦云、马海龙、刘备、车天博、李晨瑜、杨欢、姚栋、贾紫薇、阮玲宏、董继征、孙铁、许锐、黄如鑫、李荣、王磊、周辰、陈岑、王江胜、杨弋。
引 言
近年来,生成式人工智能实现跨越式发展,能够以十分接近人类的思考方式进行信息处理和内容生成,解决更加多元化的主题任务,在文本生成、数据分析、代码编写、图像生成等领域均表现出极为突出的可靠性、高效性与逻辑性。
目前,生成式人工智能广泛应用于虚拟助理、智能客服、语音助手等人机交互场景,能够为用户解答疑问、安排日程、处理问题,而良好交互体验的实现需要以获得大量用户数据为基础,在推动技术产业变革的同时也为用户个人信息保护带来了风险与隐患。
面对新技术新应用带来的机遇和挑战,为了平衡创新发展和精准治理,完善生成式人工智能数据治理体系,亟需针对生成式人工智能的个人信息保护问题提出技术要求,督促指导企业建立健全相关制度、强化技术能力。
T/TAF 268—2025旨在对生成式人工智能的个人信息保护问题提出技术要求,拟由8部分构成。
——第1部分: 总则 。 目的在于规定生成式人工智能服务个人信息保护的术语、总体原则和个人信息保护框架。
——第2部分: 隐私声明告知 。 目的在于提出向服务使用者进行隐私声明告知时的个人信息保护技术要求。
——第3部分: 训练数据构建 。 目的在于提出生成式人工智能数据集构建过程中的个人信息保护技术要求。
——第4部分:模型规制控制 。 目的在于提出生成式人工智能模型训练阶段个人信息保护方面的规制控制要求。
——第5部分: 二次开发管理 。 目的在于提出面向开发者提供二次开发应用时,个人信息保护相关的管理要求。
——第6部分:输出阶段管理 。 目的在于提出生成式人工智能服务在内容输出时对输出阶段管理的个人信息保护要求。
——第7部分:个人权利响应 。 目的在于提出服务提供者对于服务使用者个人权利响应要求。
——第8部分:供应链管理 。 目的在于提出供应链管理中所应满足保护个人信息安全的技术要求和管理措施。
生成式人工智能个人信息保护技术要求
第 3 部分:训练数据构建
1 范围
本文件规定了生成式人工智能训练数据集构建过程中的个人信息保护技术要求,内容主要涉及数据收集、数据标注、数据传输与存储等。
本文件适用于生成式人工智能服务提供者在构建训练数据集时涉及的个人信息保护要求,也适用于主管部门、第三方评估机构等组织对生成式人工智能服务个人信息保护进行评估。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35273—2020 信息安全技术 个人信息安全规范
T/TAF 268.1—2025 生成式人工智能个人信息保护技术要求 第1部分:总则
T/TAF 268.8—2025 生成式人工智能个人信息保护技术要求 第8部分:供应链管理
3 术语和定义
T/TAF 268.1—2025界定的术语和定义适用于本文件。
4 数据收集
在数据收集阶段,生成式人工智能服务提供者应遵循以下要求。
a) 进行数据收集前,应对数据的来源进行审核、过滤,不应使用不合法来源的数据进行模型训练、测试、优化,不应采取欺骗、误导、强迫等手段收集个人信息。
b) 应按照最小必要原则进行个人信息收集,若不收集个人信息即可满足模型需求,应避免收集个人信息。若不收集个人信息对模型影响较大,应在满足模型需求的最小范围内进行个人信息收集,且宜采取去标识化等措施对所收集的个人信息进行处理。
c) 当需要收集个人信息时,如适用《个人信息保护法》第五十五条相关情形,需要进行个人信息保护影响评估的,应对所需要收集的个人信息进行个人信息保护影响评估,评估利用特定个人信息进行模型训练优化对个人信息主体合法权益的影响。
d) 若通过使用自采训练数据等方式直接收集个人信息,应获得相应个人信息主体的授权同意,法律法规另有规定的情形除外(如《个人信息保护法》第十三条第二项至第七项所列情形)。若通过使用商业训练数据等方式间接获取个人信息,应对个人信息来源的合法性进行确认,且个人信息处理的目的、方式、范围不应超出个人信息提供方已获得的个人信息处理的授权同意范围(已经过匿名化处理的除外),还应遵守 T/TAF 268.8—2025 的相关规定。当涉及敏感个人信息时,还应遵守 GB/T 35273—2020 第 5.4 节和第 5.5 节的相关规定。
e) 若将用户的输入信息、使用记录直接用于生成式人工智能模型迭代优化或构造训练数据集,应
明确告知用户相关情况并征得其授权同意。同时, 应为用户提供相应的撤回同意方式。
5 数据标注
在数据标注阶段,生成式人工智能服务提供者应遵循以下要求。
a) 应加强数据标注过程中的安全防护,综合运用各类技术措施防范数据标注过程中的信息泄露风险,具体技术手段包括但不限于访问控制、身份认证、数字水印、限制截图、限制下载等。
b) 应制定明确、清晰的数据标注规则,规则中应包含个人信息安全风险内容的识别方法及参考示例。
c) 应采用日志留存等手段对数据标注过程中的关键操作进行监测记录,设置告警规则,及时定位将数据集内容泄露出去的行为。日志留存时间不应少于六个月。
6 数据传输与存储
在数据传输与存储阶段,生成式人工智能服务提供者应遵循以下要求。
a) 应加强数据传输与存储过程中的安全防护,防范个人信息泄露,具体技术手段包括但不限于访问控制、数据加密、权限管理等。
b) 应加强对通信密钥、存储密钥、密码算法、传输通道、数据接口等关键安全配置的安全管理,并定期评估相应安全配置的有效性。
c) 应制定全面、明确、合理的数据分类分级体系,根据数据的敏感程度采用差异化的安全防护措施。涉及通过网络传输敏感个人信息时,应采用安全的密码算法和传输通道。
d) 应全面梳理涉及传输个人信息的数据接口和存储个人信息的系统、介质,做好数据隔离,配备技术管控措施,对相关数据操作形成日志记录,设置告警规则。
e) 有关用户个人信息传输与存储的其他情况,还应遵守 GB/T 35273—2020 第 6 章的要求。

评论