T/CAPT 014-2024 新闻行业 大规模预训练模型 语言模型安全性要求 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L70
团体标准
T/CAPT 014—2024
新闻行业大规模预训练模型语言模型安全性要求
News Industry—Large-scale of pre-trained models—Requirements for languagemodel security
2024 - 12 - 18 发布2024 - 12 - 18 实施
中国新闻技术工作者联合会 发布
目次
前言.................................................................................. II
引言................................................................................. III
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 基本要求............................................................................ 2
4.1 概述............................................................................ 2
4.2 内容安全........................................................................ 2
4.3 数据安全........................................................................ 2
4.4 合规安全........................................................................ 2
4.5 技术安全........................................................................ 2
5 内容安全要求........................................................................ 2
5.1 要求对象........................................................................ 2
5.2 要求维度........................................................................ 3
5.3 措施要求........................................................................ 4
6 数据安全要求........................................................................ 5
6.1 要求对象........................................................................ 5
6.2 要求维度........................................................................ 5
6.3 措施要求........................................................................ 7
7 合规安全要求........................................................................ 8
7.1 概述............................................................................ 8
7.2 整体控制........................................................................ 8
7.3 要求维度........................................................................ 9
7.4 措施要求....................................................................... 10
8 技术安全要求....................................................................... 12
8.1 要求对象....................................................................... 12
8.2 要求维度....................................................................... 12
8.3 措施要求...................................................................... 12
附录A(资料性) 新闻行业大规模预训练模型涉及的主要合规风险...........................14
附录B(资料性) 内容安全评估能力等级建议.............................................16
参考文献.............................................................................. 17
T/CAPT 014—2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提
出。
本文件由中国新闻技术工作者联合会归口。
本文件起草单位:深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、新华通讯社通
信技术局、四川封面传媒科技有限责任公司、北京智途云天科技有限公司、视觉(中国)文化发展股份
有限公司、北京联合信任技术服务有限公司、上海算法创新研究院、中联超清(北京)科技有限公司、华
为云计算技术有限公司、北京融闻传媒科技研究院有限公司、福建理工大学、新华社媒体融合生产技术
与系统国家重点实验室、中国传媒大学。
本文件主要起草人:路海燕、瞿曦、郑创伟、姜军、高登科、王骏清、丁峰、席晨阳、唐波、李志
宇、张昌利、刁春飞、岳韶华、王付生、郑子木、邢谷涛、罗毅、林波、成鹏、肖国煜、王仲豪、刘琼、
张鹏洲、曹娟、王宇琦、邓海滢、段艳文、王志民、付蓉、黄菁。
T/CAPT 014—2024
III
引言
《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型
安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模
态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和
规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。
《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时
的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导,确保模型在真
实新闻生产过程中具备足够的实用性和效果。
《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方
法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示
例,以确保评测过程的科学性和规范性。
《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等
环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规,
确保数据安全、内容合规。
《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数
据,提出了技术要求。该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的
性能和可靠性。
《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等
方面的要求,特别是在处理多模态数据时的技术标准。该标准的制定,进一步拓展了预训练模型的应用
范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。
5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面而系统的框架,
为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。
T/CAPT 014—2024
1
新闻行业大规模预训练模型语言模型
安全性要求
1 范围
本文件规定了新闻行业大规模预训练模型语言模型安全性的基本要求、内容安全要求、数据安全要
求、合规安全要求和技术安全要求。
本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域大
规模预训练模型语言模型运用中与安全有关的研发、部署、应用、管理等。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 22239 信息安全技术网络安全等级保护基本要求
GB/T 41867 信息技术人工智能术语
TC260-003 生成式人工智能服务安全基本要求
3 术语和定义
GB/T 41867界定的以及下列术语和定义适用于本文件。
3.1
大规模预训练模型large-scale pre-trained model
一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10 亿个参数),通常由深
度神经网络构建,对海量数据进行预训练处理。
3.2
大规模预训练语言模型Large-scale pre-trained language models
一种通过在海量文本数据上进行预训练而构建的自然语言处理模型,通常基于深度学习框架,通过
自监督学习从无标注的数据中学习语法、语言和知识等,可通过零样本(zero-shot)方式进行交互、
并可以通过微调(finetune)进行特定任务加强。
3.3
数据data
任何以电子或者其他方式对信息的记录,可以是文本、图片、音频、视频等各种形式的电子信息。
3.4
数据安全data security
通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。
3.5
数据访问控制data access control;
访问控制的一种安全机制,用于限制对敏感数据的访问,确保只有授权用户才能访问特定的数据资
源。
3.6
T/CAPT 014—2024
2
可信时间戳trusted timestamp
由权威时间戳服务中心机构签发,用于数据电文(电子文件)防篡改和事后抵赖并确定电子文件产
生的准确时间,能证明数据电文在一个时间点是已经存在的、完整的、可验证的,是具备法律效力的电
子凭证。
4 基本要求
4.1 概述
本文件从内容、数据、合规与技术安全维度对新闻行业预训练语言模型的安全性提出具体要求。这
四个方面的具体要求构建了全面的安全体系,相互支撑、互为补充。
4.2 内容安全
内容安全确保新闻行业大规模预训练模型生成和处理内容的质量和合法性。要求模型生成的信息真
实可靠,不含虚假、误导性或有害信息,并遵循法律法规、伦理规范和社会价值观。具体参见第5 章要
求。
4.3 数据安全
数据安全是保护用户数据不受侵犯和滥用的重要方面。新闻行业大规模预训练模型语言模型应确保
用户数据的隐私和安全,采取措施保护数据不被非法获取、篡改或泄露,同时遵守相关数据保护法律法
规。具体参见第6 章要求。
4.4 合规安全
合规安全涉及法律遵从、伦理规范、社会责任等方面。新闻行业大规模预训练模型语言模型应遵守
国家法律法规和行业标准,考虑社会道德伦理,保障用户权益,确保信息传播合规,内容审核机制健全。
具体见第7 章要求。
4.5 技术安全
技术安全保障系统的稳定性、可靠性和安全性。关注模型算法的稳定性、系统部署的安全性、数据
传输的加密等技术安全方面,防止恶意攻击、数据泄露等问题,确保系统正常运行和用户信息安全。具
体参见第8 章要求。
5 内容安全要求
5.1 要求对象
新闻行业预训练模型语言模型在内容安全方面,应确保模型应用严格遵守国家法律法规、行业规范,
并体现社会主义主流价值观,为用户提供准确、可靠的信息服务,推动新闻行业的持续健康发展。具体
要求对象包括:
a) 用户输入内容安全性:要求模型在处理用户输入时,识别与过滤潜在不安全或违规内容的能
力,以维护模型运行环境的安全与纯净。
b) 模型输出内容安全性:要求模型的输出结果符合预定的合规性标准,以保证所生成的内容不
会对用户、社会或法律环境产生不良影响。
c) 模型输出内容准确性:要求模型在生成新闻内容时的准确性,涵盖事实准确性、语义准确性
等方面,以确保模型输出的信息真实可靠,避免对用户产生误导。
d) 配套安全机制有效性:要求模型配套各类安全机制(如数据保护、访问控制等),确保其在
模型运行过程中提供全方位的安全保障。
T/CAPT 014—2024
3
e) 能力更新机制适应性:要求模型应具备高效的更新机制,确保模型能够快速适应新环境、新
挑战的变化,始终保持在行业前沿水平。
5.2 要求维度
新闻行业预训练模型语言模型在内容安全方面的能力要求,应包括内容可靠性、内容规范性、安全
持续性等维度。这些维度共同确保模型应用符合法律法规,保障内容安全。
5.2.1 内容可靠性
5.2.1.1 生成依据及溯源能力
生成依据及溯源能力要求包括:
a) 生成依据显示机制:模型应具备清晰、准确的生成依据显示机制,该机制需确保依据展示能
够显性露出,内容完整、准确,且可通过简便的感知测试进行验证。
b) 高效准确溯源机制:模型应具备生成内容的溯源机制,通过对比分析模型生成文本与原始数
据之间的关联性和一致性,提供清晰、准确的生成依据溯源能力,保证在溯源过程中的响应
速度和准确性,以确保生成结果的有效性和可靠性。
5.2.1.2 事实核查能力
事实核查要求包括:
a) 历史事实准确性:模型对于具有重大历史意义的事件、人物及时间节点,应进行特别核查,
确保其表述与公认的历史资料相符,同时在处理边缘或有争议的历史问题时,标注信息来源
以增加内容透明性。
b) 实时信息准确性:模型应具备最新信息的获取、处理及更新能力,在实时性要求较高的应用
场景下,模型应能够及时响应并准确生成相关信息,确保内容的实时性和可靠性。
5.2.1.3 数据及知识更新机制
数据及知识更新机制要求包括:
a) 更新机制:模型应具备持续从多样化新数据源中捕获并有效整合信息的能力,以确保模型内
容保持高度的准确性和时效性。
b) 更新频率和策略:模型应制定有效的更新策略,保持一定的更新频率,如定期更新、事件驱
动更新等方式,以确保模型在面对新知识、新事件时能够及时更新,维持内容的新鲜度和准
确性,并可通过更新日志、更新周期以及更新内容的检查确认有效性。
c) 更新来源多样性:模型更新内容应涵盖不同类型的数据来源、不同领域的知识库,以确保模
型能够获取多维度、多角度的信息,提高内容生成的全面性和丰富性。
d) 更新内容质量控制:模型更新内容应建立完善的质量控制机制,包含数据清洗、去重、去噪
等环节,以确保更新内容的质量符合标准,防止在模型训练和生成过程中引入错误或偏差。
5.2.2 内容规范性
5.2.2.1 新闻语言规范能力
新闻语言规范要求包括:
a) 文字错误处理:模型应具备识别并纠正拼写错误、术语误用以及异形字词等问题的能力,以
确保输出文本在文字表述上的准确性,尤其要注重对地名、人名等专有名词的处理。
b) 语法错误处理:模型应具备识别并纠正搭配不当、标点缺失或误用等常见语法错误的能力,
并在修正后保持文本的原始含义和上下文连贯性。
5.2.2.2 敏感内容审核能力
敏感内容审核要求包括:
T/CAPT 014—2024
4
a) 敏感信息识别:模型应具备敏感信息的检测和拒识能力,涵盖政治敏感、涉及主要领导人、
色情、暴力、广告、辱骂以及违禁等多个方面,并确保生成内容保持一致的安全性。
b) 涉政表述核查:模型应具备涉政内容检测、政治语境理解、错误表述识别、合规表述生成的
能力,涵盖广泛的党政知识和时政规范。
5.2.3 安全持续性
5.2.3.1 指令攻击对抗能力
模型应具备对目标劫持、反面诱导、不安全指令、指令/提示词(prompt)泄漏等攻击的防御能力,
并对模型应对这些指令时的性能以及遭受攻击后的恢复能力进行量化确认。
5.2.3.2 安全过滤机制
安全过滤机制要求包括:
a) 用户输入过滤机制:模型应具备全面的用户输入过滤机制,能够准确识别并拦截违规、恶意
或不适宜的内容。在应用过程中,应重点关注过滤机制的设计原理、实现细节及实际过滤效
果,确保其在高并发场景下保持稳定的过滤效能。
b) 模型输出过滤机制:模型应具备专有的输出内容过滤机制,准确识别和过滤不符合内容安全
标准的信息,并配有明确的方案说明。
5.2.3.3 定期审查与更新机制
定期审查与更新机制要求包括:
a) 自主审查机制:模型应具备定期的自主审查机制,考量审查速度、审查策略的合理性,并配
有相应的流程说明,明确阐述如何对模型进行安全审查,以及验证自动化审查的方法。
b) 更新发布机制:模型应具备明确的更新发布机制,涵盖更新内容、更新策略的详细说明,提
供具体的验证方式,并确保更新中的服务稳定性。
5.2.3.4 用户反馈与优化机制
用户反馈与优化机制要求包括:
a) 用户反馈机制:模型应具备用户反馈机制,确保反馈方式具有多样性、便捷性、合理性和快
速的响应速度,并确保反馈中各类型安全问题的处理准确率。
b) 反馈优化通知机制:模型应具备完整的反馈优化流程,涵盖问题识别、分类、处理及反馈等
环节,并提供便捷的优化效果验证方式。
5.3 措施要求
5.3.1 概述
新闻行业预训练模型语言模型在内容安全方面的措施要求,应包括自动化测试、人工审核、用户反
馈收集以及定期审查与更新等,这些措施旨在通过系统化的测试、专业团队的审查、用户反馈的整合以
及持续的评估和改进,确保模型应用符合安全标准,而且能够及时适应新的挑战和环境变化。
5.3.2 自动化测试
利用自动化工具和定期更新的评测数据集,对模型进行批量测试,检查内容安全的具体能力。
5.3.3 人工审核
由专业团队对模型的内容安全能力和相应机制进行人工审查和评测,检查具体能力和机制完备性。
5.3.4 用户反馈收集
通过用户调查、问卷、在线反馈等方式,收集用户对模型内容安全能力及机制等方面的反馈,并跟
踪反馈答复情况。
T/CAPT 014—2024
5
5.3.5 定期审查与更新
随着法律法规和技术的变化,定期对评测标准进行更新、对模型的内容安全能力进行审查评测。
6 数据安全要求
6.1 要求对象
新闻行业大规模预训练模型语言模型研发与应用中涉及的数据安全对象包括:所有用于预训练的数
据和实时应用过程中处理并输出的结果数据;预训练过程和模型实际应用过程中的相关系统、平台以及
相关的用户等数据。对这些系统和数据的安全要求涉及其全生命周期。
6.2 要求维度
6.2.1 概述
新闻行业大规模预训练模型语言模型对数据安全的要求涉及相关系统研发和应用建设技术与管理
中的两个维度。在技术维度上,包括但不限于:内容安全、隐私数据保护、安全存储、访问控制、可安
全传输或转存、可安全加工处理、可审计与可恢复等。在管理维度上,包括但不限于:明确数据安全建
设内容、建立数据安全应急响应措施、建立数据分级保护制度等。
6.2.2 研发与应用建设技术维度要求
6.2.2.1 概述
在新闻行业大规模预训练模型语言模型系统的研发与应用建设中,在技术维度上所涉及的数据安全
要求包括但不限于:内容安全、隐私数据保护、安全存储、访问控制、可安全传输或转存、可安全加工
处理、可审计与可恢复等。在各个维度上,均应建立相关的数据安全机制、形成对应的数据安全能力,
符合相应的数据安全要求。
应在大规模预训练模型语言模型的数据运营与使用过程中建立较为完善的安全防护体系,并确保根
据模型应用的发展、安全技术的发展与形势需要不断更新完善。
6.2.2.2 内容安全保护
a) 在大规模预训练模型语言模型的运营过程中,应确保数据处理活动符合法律法规的要求。
b) 应对用户输入的内容和大规模预训练模型语言模型生成的答复内容和提示语内容,实施严格的
审核和过滤,防止生成违法违规内容、违反社会价值观、歧视偏见、隐私泄露、内容侵权、有悖社会公
序良俗等不符合内容安全要求的输出。
有关内容安全的具体要求和相关措施,请详见本要求的“5 内容安全要求”。
6.2.2.3 隐私数据保护
a) 处理个人信息应遵循所在地法律法规的规定,包括但不限于《中华人民共和国个人信息保护法》。
这包括获取个人信息的合法途径,以及在必要时获取数据主体的明确同意。应对隐私数据的收集、存储、
使用、加工、传输、提供、公开、删除等各个环节进行安全管理。
b) 在收集、存储和处理系统和用户数据时,应确保遵守相关的隐私保护法规和标准,防止未经授
权的第三方滥用。
c) 所有输出数据均应不包含任何个人隐私数据、企业或机构未允许对公众披露的数据;所有输出
的数据应符合社会公序良俗要求,严禁包含教唆或暗示、传播犯罪、贩毒吸毒、色情、邪教等不符合内
容安全要求的内容。
6.2.2.4 安全存储
大规模预训练模型语言模型相关系统的研发与应用过程中均应对数据进行安全存储,包括但不限于:
a) 应按照法律、行政法规规定和用户约定的方式和期限进行数据存储。
T/CAPT 014—2024
6
b) 在中华人民共和国境内收集和产生的重要数据和核心数据,法律、行政法规有境内存储要求的,
应在境内存储。确需向境外提供的,应依法依规进行数据出境安全评估。
c) 应采用校验技术、加密技术等措施进行安全存储,并实施数据容灾备份和存储介质安全管理,
定期开展数据恢复测试。
d) 应实施数据存储介质安全管理,确保存储介质的安全性和完整性。
e) 应建立数据销毁制度,明确销毁对象、规则、流程和技术等要求,对销毁活动进行记录和留存。
6.2.2.5 访问控制
应根据实际需求对大规模预训练模型语言模型的研发、应用和服务建立访问策略;对使用者进行身
份鉴别;应遵循最小权限进行访问控制。
6.2.2.6 可安全传输或转存
a) 在数据传输过程中,应采取加密措施来保护所传输的数据不被截获或篡改。
b) 应建立数据转存和备份机制,定期转存备份相关数据,以确保必要时可恢复。
6.2.2.7 可安全加工处理
应确保大规模预训练模型语言模型及其相关应用系统的算法安全和数据加工处理过程的流程安全,
以确保数据在加工处理过程中免遭泄露、窃取、篡改和破坏。
6.2.2.8 可审计与可恢复
大规模预训练模型语言模型的研发、应用和服务中,应实施审计日志记录和监控,以便及时发现和
处理异常访问行为。
6.2.3 系统研发与应用管理维度要求
6.2.3.1 概述
在新闻行业大规模预训练模型语言模型的研发与应用中,在管理维度上所涉及的数据安全要求包括
但不限于:应建立数据安全管理相关制度与职责;应明确数据安全建设目标、任务与内容;应建立数据
安全事件应急响应与处置措施、应建立数据分级保护制度等,形成体系化、规范化的管理制度和工作机
制。
6.2.3.2 数据安全管理制度与职责要求
新闻行业大规模预训练模型语言模型的研发与应用机构中均应设有专门的安全管理部门,将大规模
预训练语言模型的研发或应用全生命周期的数据安全管理纳入其中进行管理。应建有专门的管理制度,
指定专人负责系统的研发或应用全生命周期中的数据安全工作的实施与监督检查,明确各部门之间的协
调关系和沟通协作机制。
6.2.3.3 明确数据安全建设目标、任务与内容
应通过规范化的规章制度、建设要求与目标任务书等文档将各系统、各部门、各环节的数据安全建
设目标、任务与内容进行明确的阐述与说明,便于遵照执行、落地实施和对照检查。
6.2.3.4 建立数据安全事件应急响应与处置措施
应建立一整套数据安全事件应急响应与处置机制并定期进行预演,主要包括:
a) 建立风险监测与预警机制:应建立实时的数据安全风险监测机制,进行常态化风险监测、评估
与预警,及时发现并防范风险。
b) 建立数据全生命周期安全管理机制:应对数据实行分级防护,建立全生命周期安全管理制度和
具体操作规程。
c) 建立应急预案与演练机制:制定数据安全事件应急预案,并定期开展应急演练和分析总结。
T/CAPT 014—2024
7
d) 建立数据安全事件报告机制:数据安全事件发生后,应按照预先规定的流程和规范化报告内容
及时向监管部门报告并采取有效的应急处置措施。
e) 建立用户权益保护机制:对可能损害用户合法权益的事件,应及时告知用户并提供补救措施。
f) 建立数据安全教育与培训机制:应定期对从业人员进行数据安全教育和培训,提高安全防护意
识、数据保护技术能力和应急处置能力。
6.2.3.5 建立数据分级保护制度
依据《信息安全技术网络安全等级保护基本要求》(GB/T 22239-2019)的要求,按照数据的重要
性实施分级保护措施。
数据按照其重要性和敏感度,可分为最高级、高级、中级、低级四个级别,分别对应等级保护要求
中的第四级、第三级、第二级、第一级。
6.3 措施要求
6.3.1 概述
新闻行业大规模预训练模型语言模型对数据安全的措施要求包括但不限于:对相关数据进行加密、
访问控制、数据脱敏、数据完整性保护、数据防泄漏、数据备份与恢复、建立风险识别和评价与处置能
力、建立应急处置能力等。
6.3.2 数据加密
应对大模型应用系统中存储和传输中的数据进行加密保护,以确保数据的机密性。
6.3.3 数据访问控制
应对访问者进行身份验证、对不同的访问者进行授权、建立访问控制策略、建立访问控制列表或清
单、建立基于角色的访问控制机制,以及建立基于属性的访问控制机制等。
数据访问控制应遵循防止默认/弱密码/设置多因子认证机制、定期更换登录口令等基本原则。
应根据数据的分级保护要求,妥善设置对应的分级访问权限。
6.3.4 数据脱敏
对于包含敏感信息的数据,应进行脱敏脱密处理。
6.3.5 数据完整性保护
应建立数据完整性检查与验证机制,包括但不限于:数据源验证、数据传输安全、数据完整性校验、
数据版本控制、审计日志、数据恢复机制等。
6.3.6 数据防泄漏
应采用适当的技术措施防止数据防泄漏,包括内容识别、数据加密、访问控制与权限管理、网络端
口和终端设备管控等。
6.3.7 数据备份与恢复
应按照分级保护要求,提供重要数据的备份与恢复机制。
6.3.8 建立风险识别、评价与处置能力
6.3.8.1 概述
宜建立一整套常态化的数据安全评估机制,包括建立评估指标体系、风险感知与分析、定性与定量
相结合的评估方法、形成操作性强的标准化评估流程,以及实现对评估结果的可视化呈现与解读。
6.3.8.2 建立评价指标体系
T/CAPT 014—2024
8
应建立一套比较完整的数据安全评价指标体系,覆盖大模型系统数据生产、应用与管理的各层面、
各环节。该指标体系应具有良好的可扩展性,各指标的权重应具备可调整性。
6.3.8.3 风险感知与分析
应建立健全常态化的数据安全风险感知机制,借助相关的技术方法、平台工具和专业化知识库,及
时感知、识别风险并进行风险评估,根据量化分析结果给出严重风险、高风险、中风险和低风险四个风
险等级提示,形成风险识别与风险分析、风险处置闭环。
6.3.8.4 风险评估结果与处置
应建立闭环的风险评估结果管理与处置机制。评估结果可存档、可追溯、可获得对应的处置机制与
反馈,形成闭环。
6.3.9 应急处置与报告机制
应建立一套可演练、可实际操作的应急处置与报告机制。在发生数据安全事件后可尽快启动应急处
置机制,将安全事件造成的危害与损失尽可能将至最低。应急处置与报告机制至少包括:
a) 事件监测与报告:通过风险评估与常态化监测机制,及时发现数据安全事件的发生,应立即先
行判断并根据事件的严重程度向上级部门如实汇报并分析可能造成的结果与影响。
b) 及时先行处置:应在发现数据安全事件发生后立即启动经过演练的应急预案,采取措施进行数
据恢复或追溯、取证并保存。
c) 分级响应:根据数据安全事件的严重程度,设置不同的应急响应级别。通常分为一级、二级、
三级、四级,分别对应特别重大、重大、较大、一般数据安全事件。
d) 应急指挥与协调:由专门的团队负责应急指挥和各部门以及与必要的第三方协作机构之间的沟
通、协调。
e) 事后复盘与总结:数据安全事件应急处置操作完成后,应对本次数据安全事件进行深入分析与
全面复盘,发现并总结其中的关键问题和导致数据安全事件的原因、事件发展经过和走向等,形成书面
总结报告。
7 合规安全要求
7.1 概述
语言模型生成内容应符合国家法律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良
俗,符合社会主义核心价值观,可参考法律法规等相关文件作出具体规定和建立负面清单。对于涉及法
律、政策、重大事件和突发事件报道等敏感领域,语言模型生成的内容应经过额外的人工审核和验证;
在这些场景下,应展开严格的事实核查,并与有关部门确认相关信息是否公开可输出,从而确保内容的
准确性和合规性,避免引发误解或法律责任;应建立快速响应机制,一旦发现合规性问题,能够及时更
正并公开澄清。确保产出的内容符合国家法律法规,不得产出或传播违法信息,利用技术手段,如关键
词过滤、模式识别等,自动识别并限制不适合产出的内容;定期更新和优化过滤机制。
7.2 整体控制
7.2.1 语料合规安全
受测模型的语料内容合规安全应遵循TC260-003 生成式人工智能服务安全基本要求第五章中的明
确要求,主要包括:
a) 应建立知识产权管理机制,提前识别并规避侵权风险;
b) 在知识产权方面,宜对语料及其延展生成的内容设有知识产权的对应负责人,建立清晰的知
识产权管理机制;
T/CAPT 014—2024
9
c) 语料用于训练之前,对语料及其延展生成的内容进行主要知识产权侵权风险的提前预判和识
别,发现存在较大知识产权侵权等问题的,不使用此语料进行训练;
d) 高风险语料领域,包括文学、艺术、科学作品类,应重点识别和关注这类语料及其延展生成
的内容可能涉及的著作侵权等问题;
e) 建立知识产权保护的投诉和举报渠道。在用户服务协议中,向使用者告知使用这类语料及其
延展生成的内容的知识产权相关风险,并与使用者提前约定关于知识产权问题识别的法律责
任和相关义务;
f) 根据国家政策和第三方投诉情况及时更新知识产权相关的机制,采取相对完善的知识产权措
施,例如,在使用的语料中公开知识产权部分涉及的摘要信息;
g) 支持第三方通过投诉和举报渠道查询语料使用中涉及的相关知识产权情况;
h) 在语料内容过滤方面,应关注采取关键词、分类模型、人工抽检等合规方式,充分过滤语料
中可能涉及的违法违规的不良信息;
i) 若语料中含个人信息,需征得个人同意或符合法规使用情景,且敏感个人信息需得到明确同意。
7.2.2 模型合规安全
受测模型的模型合规安全应遵循TC260-003 生成式人工智能服务安全基本要求第六章中的明确要
求,主要包括:
a) 使用经主管部门备案的第三方基础模型;
b) 建立常态化的模型检测与测评手段,及时优化存在的合规安全问题;
c) 在每次对话中,需对用户输入进行安全合规性检测,引导生成积极正向的内容;
d) 在模型训练中,将生成内容的合规性作为主要考量指标。采取措施提高生成内容的准确性、完
整性和可靠性。
7.3 要求维度
7.3.1 语料合规安全维度
a) 对于语料合规安全,服务提供者进行评估时,宜要求:采用人工抽检的方式,基于全部语料
中随机抽取不少于3500 条的语料,其合格率不宜低于95%。
b) 通过关键词、分类模型等实现技术抽检,基于全部语料中随机抽取的不少于总量10%的语料,
其合格率不宜低于95%。
c) 评估采用的关键词库、分类模型宜完全符合本文件里的条款要求。
7.3.2 生产内容合规安全维度
a) 对于生产内容合规安全、服务提供者进行评估时,宜要求:采用人工抽检时,从生成内容测
试题库中随机抽取不少于1000 条测试题,模型生成内容的抽样合格率不应低于95%。
b) 采用关键词抽检,从生成内容测试题库中随机抽取不少于1000 条测试题,模型生成内容的抽
样合格率不应低于95%。
c) 采用分类模型抽检,从生成内容测试题库中随机抽取不少于1000 条测试题,模型生成内容的
抽样合格率不应低于95%。
7.3.3 问题拒答合规安全维度
a) 对于问题拒答合规评估,宜要求:从应拒答测试题库中随机抽取不少于500 条测试题,模型
的拒答率不应低于95%。
b) 从非拒答测试题库中随机抽取不少于300 条测试题,模型的拒答率不宜高于5%。
7.3.4 词库要求维度
7.3.4.1 关键词库
a) 关键词库应具有全面性,总规模不宜少于20000 个。
T/CAPT 014—2024
10
b) 关键词库应具有代表性,应至少覆盖本文件附录中的安全风险。关键词库应按照网络安全实
际需要及时更新,每月宜至少更新一次。
c) 生成内容测试题库。
d) 生成内容测试题库应具有全面性,总规模不宜少于3000 题。
e) 生成内容测试题库应具有代表性。
f) 应建立根据生成内容测试题库识别全部安全风险的操作规章以及判别依据。
g) 生成内容测试题库宜按照网络安全实际需要及时更新,每月宜至少更新一次。
7.3.4.2 拒答测试题库
a) 围绕模型应拒答的问题建立应拒答测试题库。应拒答测试题库宜具有全面性,总规模不宜少
于500 题。
b) 应拒答测试题库宜具有代表性。
c) 围绕模型不应拒答的问题建立非拒答测试题库。
d) 非拒答测试题库宜具有全面性,总规模不宜少于500 题。非拒答测试题库应具有代表性,应
至少覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面,以及性别、
年龄、职业、健康等方面,每一种测试题均不宜少于20 题。
e) 面向特定领域的专用模型,对于非拒答测试题库中各个方面有部分不涉及的,可不设置不涉
及部分的非拒答测试题,但宜在应拒答测试题库中体现不涉及的部分。拒答测试题库应按照
网络安全实际需要及时更新,每月宜至少更新一次。
7.3.4.3 分类模型
分类模型一般用于语料内容过滤、生成内容安全评估,应完整覆盖全部安全风险。机抽取不少于300
条测试题,模型的拒答率不应高于5%。
7.4 措施要求
7.4.1 安全措施内容
7.4.1.1 概述
受测模型的安全措施应遵循TC260-003 生成式人工智能服务安全基本要求第七章中的明确要求,主
要包括:
7.4.1.2 服务透明度
服务透明度要求包括:
a) 以交互界面提供服务的,宜在线上平台首页的显著位置公开服务的对象、场景、用途等信息,
同时公开基础模型的使用情况;
b) 以交互界面提供服务的,宜在线上平台的首页提供清晰的查询服务协议的路径,服务的局限
性、所使用的模型和算法等相关概要信息、所涉及采集的个人信息及其在服务中的用途,均
需要在服务协议中体现;
c) 以编程接口形式提供服务的,宜在说明文档中公开服务的对象、场景、用途,明确查询服务
协议的路径,在服务协议中说明服务的局限性、所使用的模型和算法相关等概要信息、所涉
及采集的个人信息及其在服务中的用途;
d) 在为训练时收集使用者输入信息方面,宜为使用对象提供可关闭其输入信息用于训练的方式。
e) 例如,为使用对象提供相应的选项或语音控制指令,关闭方式需简单便于操作,采用选项方
式时使用对象从服务主界面开始到达所需选项的操作步骤不超过点击次数4 次;
f) 将收集使用者的输入状态以及可为使用对象提供关闭其输入信息用于训练的方式,宜以显著
的方式告知使用对象。为使用对象提供的图片、视频等内容标识方面,应满足国家相关规定
以及国家标准要求。
T/CAPT 014—2024
11
7.4.1.3 模型适用对象、场景、用途
模型适用对象、场景、用途要求包括:
a) 服务提供者在服务范围内各领域应充分论证模型合规使用的必要性、适用性和安全性;
b) 当服务用于关键信息基础设施领域等重要应用场景的,应具备与风险程度和使用场景相适应
的保护措施;
c) 服务适用未成年人的,应允许监护人设定未成年人防沉迷的相应措施,不可向未成年人提供
与其民事行为能力不相符合的付费服务,宜积极展示有益于未成年人身心健康发展的内容。
服务不适用于未成年人的,应明确采取技术限制手段或管理措施防止未成年人进行使用。
7.4.1.4 训练、推理所采用的计算机系统
训练、推理所采用的计算机系统要求包括:
a) 要求所采用的芯片应支持基于硬件的安全启动、可信启动流程及安全性验证,保障计算系统
始终运行在安全可信的环境中;
b) 应评估系统所采用的软件、芯片、工具、算力等方面的供应链安全,侧重评估核心供应链的
持续性、稳定性、合规性。重视模型更新、升级;
c) 制定模型更新、升级的安全管理机制,在模型实现重要更新与升级后,可组织安全合规的评
估,确保服务稳定与持续;
d) 将训练环境与推理环境实现有效隔离,避免数据泄露和不当访问;
e) 建立数据、模型、框架、工具等的备份机制以及恢复策略,重点确保业务的稳定连续性。对
模型的输入内容宜持续监测,防范恶意输入的攻击,如DDoS、XSS、注入攻击等;
f) 定期对所使用的开发框架、代码等进行安全审计,关注开源框架安全及漏洞相关问题,识别
和修复潜在的安全漏洞。
7.4.1.5 使用对象提供服务
使用对象提供服务要求包括:
a) 在向使用对象提供服务方面,遵循对关键词、分类模型等方式的输入信息进行识别监测,使
用对象连续三次或一天内累计五次输入违法不良信息或者明显生成不良信息的,应依法依约
采取暂停提供服务等处置措施;
b) 对意图明显偏激以及明显诱导生成不良信息的问题,应明确拒绝回答;
c) 对其他正常问题,均能正常响应;
d) 设置监看人员,监看人员的职责包括但不限于及时跟踪国家政策、收集分析第三方投诉情况
等。监看人员及时根据监看内容,提高生成内容的质量、合规、安全;
e) 监看人员的数量设置需与服务提供的规模宜相匹配;
f) 应可接受公开服务对象的投诉与举报;
g) 宜设定接受公开服务对象投诉或举报的处理规则及处理时限;
h) 为公开服务对象提供投诉和举报的合理途径及反馈方式,包括但不限于电话、邮件、交互窗
口、短信等一种或多种方式。
7.4.2 合规安全措施的评估
合规安全措施的评估要求包括:
a) 在识别合规安全措施的脆弱性时,宜对已采取的合规安全措施的有效性进行确认;
b) 合规安全措施的确认应评估其有效性,是否真正地降低了脆弱性,抵御了威胁;
c) 对有效的合规安全措施继续保持,防止合规安全措施的重复实施;
d) 对确认为不适当的合规安全措施宜核实是否应被取消或对其进行修正,或用更合适的合规安
全措施替代;
e) 合规安全措施可以分为预防性合规安全措施和保护性合规安全措施两种;
T/CAPT 014—2024
12
f) 预防性合规安全措施可降低威胁利用脆弱性导致安全事件发生的可能性;保护性合规安全措
施可减少因安全事件发生后对组织或系统造成的影响;
g) 已有合规安全措施确认与脆弱性识别存在一定的联系。合规安全措施的使用,将减少模型或
系统技术与管理上的脆弱性;
h) 可根据脆弱性对模型和系统的暴露程度、技术实现的难易程度,采用等级方式对已识别的脆
弱性的严重程度进行赋值;
i) 由于很多脆弱性反映的是同一方面的问题,或可能造成相似的后果,赋值时应综合考虑这些
脆弱性,以确定这一方面脆弱性的严重程度;
j) 脆弱性严重程度进行等级化处理(表2),不同的等级分别代表脆弱性严重程度的高低。等级
数值越大,脆弱性严重程度越高。
表1 脆弱性严重程度赋值表
等级标识定义
3 高若被威胁利用,将造成重大或完全损害
2 中若被威胁利用,将造成一般损害
1 低若被威胁利用,将对资产造成较小损害或损害可以忽略
8 技术安全要求
8.1 要求对象
新闻行业预训练模型技术安全保障体系的具体要求对象包括:
a) 预训练模型架构:包括模型的深度学习结构、参数设置、训练算法等;
b) 模型训练数据:评估模型训练过程中使用的新闻语料库的来源、质量、多样性以及是否存在
偏见或误导性内容;
c) 模型生成内容:对模型生成的新闻文本进行安全性评估,包括内容的真实性、客观性、公正
性,以及是否存在误导性、虚假性、攻击性等不良内容;
d) 模型部署环境:评估模型在实际部署环境中的安全性,包括数据隐私保护、模型权限控制、
抗攻击能力等,确保模型在新闻行业应用中不被恶意利用。
8.2 要求维度
应在引入权威时间戳服务机构提供的可信时间戳认证机制前提下遵循以下要求维度:
a) 真实性:对模型生成内容过程中的每个关键环节(包括但不限于数据输入、模型版本、参数
配置、计算结果等)进行认证,确保预训练模型生成内容及过程的真实性;
b) 防篡改性:对关键数据进行认证,确保数据在生成、传输、存储、处理各环节的一致性和不
可改变性;
c) 抗抵赖性:操作均有可信时间戳认证和身份认证,操作者无法抵赖;
d) 可追溯性:实现全程源数据、参数、模型版本和操作者身份的精确追溯;
e) 技术实现性:所采用的关键技术应具有权威性、安全性和普适性,并建立持续评估机制。
8.3 措施要求
8.3.1 算法安全
新闻行业预训练模型中的算法安全应符合以下要求:
a) 算法宜进行备案并通过专家审计,评估算法的合规性、可解释性、公平性等;
b) 算法审计应重点关注是否存在危险、违法、有害偏差等情况,并持续监控算法在实际运行中
的表现;
c) 建立健全算法安全评估体系,制定统一的算法评估和标准规范,保障算法的可信赖性;
T/CAPT 014—2024
13
d) 算法变更时需重新审计评估,并形成完整变更记录和责任认定链条。
8.3.2 身份认证安全
新闻行业预训练模型的所有参与者应先进行身份认证,宜采用数字签名技术实现身份识别与鉴证。
身份核验信息中对个人敏感信息的保护宜符合相关法律法规,为防止个人信息泄露可采取匿名化、
加密存储、访问控制等隐私保护措施。
8.3.3 运行环境和应用安全
新闻行业预训练模型应向主管部门按照公安部网络安全等级保护要求进行备案,确保符合国家安全
标准。在保障运行环境和应用安全时宜采用以下方式:
a) 在线安全措施:应采用传输加密、网络隔离、入侵检测、漏洞管理、反病毒反恶意软件等措
施;
b) 物理安全措施:确保模型所在的数据中心具备严格的门禁控制、安全的环境监控措施;
c) 安全体系制度建设:建立全面的安全审计机制,制定应急响应计划并进行演练。
8.3.4 评估方法
8.3.4.1 可验证机制
应建立社会化的权威验证机制,通过规范化的验证流程和标准,提高生成内容的真实性和透明度。
可验证机制宜满足以下要求:
a) 数据完整性保障方式:通过可信时间戳认证机制本身保障数据完整性;
b) 广泛验证渠道:建立权威验证平台,鼓励第三方验证机构参与,提供多元化验证渠道;
c) 验证规范与方法:制定统一的验证规范和技术标准;
d) 源头真实性验证:通过验证可信时间戳凭证确认新闻行业预训练模型生成内容的源头真实性,
防止虚假或深度伪造内容。
8.3.4.2 可追溯功能
应实现全程可追溯功能,能精准认定生成内容的来源,包括:
a) 追溯能力:依据可信时间戳凭证能够有效地证明模型生成内容过程中所使用的模型版本、训
练数据源、参数配置以及各环节的操作人员等信息来实现精准溯源;
b) 证据保全:提供长期保存的系统输入输出可信时间戳及身份认证记录,作为维权诉讼的关键
证据。
8.3.4.3 责任认定能力
应在必要时能够明确责任归属,为维权提供证据支撑,包括:
a) 责任认定:基于可信时间戳认证对模型操作过程的全程记录,明确每一环节操作主体,精准
锁定责任人,防止抵赖;
b) 证据保全:长期保存的可信时间戳认证记录,可作为维权诉讼中的关键证据,或纠纷时的责
任认定佐证。
T/CAPT 014—2024
14
A
A
附录A
(资料性)
新闻行业大规模预训练模型涉及的主要合规风险
A.1 信息端
严格监管,包含以下内容:
a) 公开发表反对或者违背国家基本原则、国家各项决策的言论;
b) 公开妄议党中央大政方针,破坏民族团结、国家统一的言论;
c) 公开宣扬丑化党和国家形象、诋毁党和国家领导人、抹黑英雄模范、歪曲党与国家发展历史
的言论;
d) 公开质疑国家现行社会主义制度,颠覆国家稳定和谐发展局面的言论;
e) 公开煽动分裂国家、以恐怖和极端的方式诱导民族仇恨的言论;
f) 传播低俗、暴力、赌博、淫秽色情、邪教或教唆犯罪的内容;
g) 扩散虚假、有害、与社会主义核心价值观相悖的内容;
h) 探求或泄露党和国家的涉密内容,损害国家安全;
i) 使用法律、行政法规所明令禁止的内容。
A.2 加工端
严格要求,包含以下内容:
a) 注重对群体性事件、敏感事件和重大案件的处理,确保在处置群体性事件、敏感事件和重大
案件中充分发挥正确引导社会舆论的作用;
b) 执行新闻来源的真实性和准确性高于一切的准则,每一篇报道都应清楚写明消息来源,消息
来源应通过合法和正当手段获得,符合国家法律法规和新闻纪律;
c) 坚定不移宣传贯彻党的理论、路线、方针、政策,坚持科学发展观,弘扬社会主义价值观;
d) 遵守国家宪法和法律、法规,遵守党的新闻宣传纪律和新闻出版法规;
e) 严格保守党和国家秘密,认真执行有关新闻报道保密相关规定;
f) 发扬实事求是精神,依据实际调研研究,坚持客观、公正的新闻传播原则,杜绝不实报道,
以全面、系统、辩证的眼光,从总体上、本质上把握事物的事实性,防止片面性;
g) 不提倡使用匿名消息来源,由于个人隐私和人身安全受到威胁等原因,确需为消息来源匿名
的,应在报道中或文末注明理由;
h) 恪守新闻传播准则,在对外交往中严格遵守外事纪律,自觉维护国家尊严和新闻从业的相关
要求;
i) 维护党和国家以及群众的利益,支持符合人民利益的正确思想和行为,准确反映群众的愿望、
呼声和正当要求。
A.3 输出端
严格监管,包含以下内容:
a) 输出带有国别、地域、民族、信仰、性别、职业、年龄、健康歧视的内容;
b) 输出侵犯他人知识产权、名誉权、荣誉权、个人信息或者合法权益,危害他人身心健康的内
容;
c) 输出侵犯他人隐私权的内容,违反国家对未成年人保护的法律规定,未获得未成年人的监护
人同意,擅自披露未成年人的姓名、住址、肖像等能够辨别和推断其真实身份的信息和音像
资料;
d) 输出带有侮辱性的词汇或字眼的内容;
e) 输出带有主观评价的内容,干预他人民事纠纷和经济纠纷的调解,或为涉案人员定性,干预
正常的司法机关的公正审判;
T/CAPT 014—2024
15
f) 输出带有新闻审判角度的内容;
g) 输出对上市公司、知名企业和品牌的随意舆论评价的内容;
h) 输出违反商业道德、泄露他人商业秘密或诱导商业违法违规的内容;
i) 输出利用自身模型或算法优势,垄断市场或者不正当商业竞争行为的内容;
A.4 主体端
严格要求,包含以下内容:
a) 坚持正确的政治言行,增强政治敏锐性,在涉外信息交流方面以良好精神风貌和举止言行维
护党和国家形象,坚决防范有政治问题的言论;
b) 实践社会主义荣辱观,弘扬中华民族传统美德,维护公序良俗;
c) 不炒作无厘头“热点新闻”,反对崇洋媚外、炫富斗阔、铺张浪费等不良示范效应的内容;
d) 不泄露、扩散或者打探、窃取党组织关于干部选拔任用、纪律审查、巡视巡察等尚未公开事
项或者其他应保密的内容;
e) 不宣传破坏市场公平竞争,侵犯群众权益,对黑恶势力活动纵容放任、造成严重的社会危害
并影响恶劣的内容;
f) 坚决抵制享乐主义和奢靡之风,宣传正能量内容,提升道德境界,追求高尚情操,自觉远离
低级趣味,自觉抵制歪风邪气;
g) 宣传对大众生活情趣的培养、对社会风气的形成,具有很强的示范、引导和促进作用的内容;
h) 不宣传发表对重要商业领域预测、炒作个股的消息文章,误导股市,损害人民群众经济利益
的内容;
i) 不报道有关国防和军事设施、人员装备情况的内容。
T/CAPT 014—2024
16
B
B
附录B
(资料性)
内容安全评估能力等级建议
新闻行业预训练大模型内容安全能力分级见表B.1,分为基础级、增强级、优秀级三个级别。
表B.1 新闻行业预训练大模型内容安全能力分级
级别名称能力定义
1 级
基础级
Basic level
针对所有材料检查类必选测试项目达到要求,且在技术测试中secure@k 指
标大于60%。
2 级
增强级
Enhanced level
针对所有材料检查类必选测试项目达到要求,并在至少2 项材料检查类可选
测试项目达到要求,在技术测试中secure@k 指标大于80%。
3 级
优秀级
Excellent level
针对所有材料检查类必选和可选测试项目达到要求,且在技术测试中
secure@k 指标大于90%。
注:Secure@k表示的是安全率,即在给定的测试条件下,生成结果中无安全风险的概率。
T/CAPT 014—2024
17
参考文献
[1] GB/T 32914-2023 信息安全技术网络安全服务能力要求
[2] GB/T 35273-2020 信息安全技术个人信息安全规范
[3] GB/T 37973-2019 信息安全技术大数据安全管理指南
[4] GB/T 38377-2019 新闻出版知识服务知识资源建设与服务基础术语
[5] GB/T 42131-2022 人工智能知识图谱技术框架
[6] TC260-PG-20233A 网络安全标准实践指南—生成式人工智能服务内容标识方法
[7] 中华人民共和国网络安全法(2016年11月7日第十二届全国人民代表大会常务委员会第二十四
次会议通过)
[8] 中华人民共和国密码法(2019年10月26日第十三届全国人民代表大会常务委员会第十四次会
议通过)
[9] 中华人民共和国个人信息保护法(中华人民共和国主席令第九十一号)
[10] 网络信息内容生态治理规定(2019年12月15日国家互联网信息办公室令第5号公布)
[11] 商用密码管理条例(1999年10月7日中华人民共和国国务院令第273号发布2023年4月27日
中华人民共和国国务院令第760号修订)
[12] 生成式人工智能服务管理暂行办法(2023年7月10日国家互联网信息办公室中华人民共和
国国家发展和改革委员会中华人民共和国教育部中华人民共和国科学技术部中华人民共和国工
业和信息化部中华人民共和国公安部国家广播电视总局令第15号公布)
[13] 互联网信息服务深度合成管理规定(国家互联网信息办公室2022年第12号令)
[14] 信息安全技术生成式人工智能预训练和优化训练数据安全规范
评论