T/ZSA 264-2024 教学类多层级引导大模型技术要求 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L70
团体标准
T/ZSA 264-2024
教学类多层级引导大模型技术要求
Technical requirement for multi-level guidance of large models
2024-11-15 发布2024-11-16 实施
中关村标准化协会发布
目次
前言.............................................................................. II
引言............................................................................. III
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语和定义........................................................................... 1
4 缩略语............................................................................... 2
5 教学类多层级引导大模型技术要求....................................................... 2
5.1 准确性........................................................................... 2
5.2 语言理解能力..................................................................... 3
5.3 基础算力......................................................................... 3
5.4 生成能力......................................................................... 3
5.5 响应速度......................................................................... 4
5.6 安全性........................................................................... 4
5.7 资源公平性....................................................................... 4
6 教学类多层级引导大模型教学业务要求................................................... 4
6.1 教育资源覆盖性及有效性........................................................... 5
6.2 教育适应性....................................................................... 5
6.3 互动教学能力..................................................................... 5
6.4 引导教学能力..................................................................... 5
6.5 直接教学能力..................................................................... 6
6.6 知识点抽取....................................................................... 6
6.7 检索增强生成..................................................................... 6
参考文献............................................................................... 7
T/ZSA 264-2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中关村标准化协会技术委员会提出并归口。
本文件起草单位:北京一平方科技有限公司、清华大学、北京理工大学、北京石油化工学院、湖南
大学、苏州大学、中国电子学会、北京昇腾创新人工智能科技中心有限公司、飞诺门阵(北京)科技有限
公司、北京建筑大学、中关村标准化协会。
本文件主要起草人:刘春江、陈樟权、滕达、段浩斌、陈耀琪、陈龙、汤时欣、严子辉、刘钊、万
鑫、刘艳雯、张少晨。
T/ZSA 264-2024
III
引言
本文件的发布机构提请注意,声明符合本文件时,5.1、5.2、5.3、5.4 章节内容中涉及与基于大语
言模型的知识引导问答方法和装置相关的专利的使用。
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构承诺,他愿意同任何申请人在合理无歧视的条款和条件下,就
专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案。专利权人或专利申请人同意
在公平、合理、无歧视基础上,有偿许可任何组织或者个人在实施该中关村标准时实施专利。相关信息
可以通过以下联系方式获得:
专利持有人姓名:北京一平方科技有限公司
地址:北京市海淀区海淀西大街48 号五层431 号
邮箱: contact@shizhe-ai.com
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别专利的责
任。
T/ZSA 264-2024
1
教学类多层级引导大模型技术要求
1 范围
本文件规定了教学类多层级引导大模型的性能要求以及相应的业务能力要求。
本文件适用于基于人工智能与大数据技术构建的多层级引导教学大模型的开发与应用。
本文件不适用于非知识实训领域多层级引导大模型以及非多层级引导机制的大模型开
发与应用。
2 规范性引用文件
GB/T 43782-2024 人工智能机器学习系统技术要求
3 术语和定义
下列术语和定义适用于本文件。
3.1
大语言模型large language model (LLM)
一种基于深度学习技术的生成式人工智能算法模型,通过在大规模、多领域文本语料上
进行无监督预训练的方式得到。大语言模型一般具备超大规模参数量(通常数十亿至数万亿
参数),能够学习并模拟人类语言的复杂结构、语义和上下文关联,等语言理解和语言生成
的能力。大语言模型不仅能够完成基础的自然语言处理任务,如文本分类、命名实体识别、
情感分析等,还能在经过有微调训练后,精准执行如对话系统、文本生成、机器翻译及多模
态理解等高阶语言应用,是推动人工智能领域迈向高阶智能化水平的关键技术之一。
3.2
教学类多层级引导大模型educational multi-Level guided large model
教学类多层级引导大模型是一种专为教育领域设计的大语言模型,它利用大规模参数的
机器学习模型来逐层的拆解知识点和提供多层次的教学支持与个性化指导,避免出现仅提供
问题答案的情景。教学类多层级引导大模型能够根据不同学习者的阶段和需求调整其交互策
略,通过逐步提示、反馈和建议等方式促进学习过程,从而有效地提升教学质量和学习体验。
3.3
检索增强生成retrieval-augmented generation (RAG)
允许模型在生成文本响应时动态地从大规模文本资源库中检索相关信息,以增强其生成
能力和准确性。
3.4
余弦相似度cosine Similarity
是一种在人工智能领域广泛应用的衡量两个非零向量之间角度的度量方法。在机器学
习、信息检索、自然语言处理等领域,它被用来量化两个向量(例如,文档、词向量、特征
向量等)的相似度。
3.5
敏感词过滤sensitive word filtering
又称为敏感信息筛选或敏感内容审查,是指在文本数据处理过程中,通过技术手段自动
T/ZSA 264-2024
2
识别并屏蔽、替换或者删除预先定义好的一系列敏感词汇或表达方式的过程。这一技术
应用于用户输入和模型输出内容中,旨在保护用户免受非法信息的侵扰。
3.6
内容合规检测content compliance checking or content compliance screening
是指利用技术和人工审核相结合的方式,对大模型生成的内容进行审查,以确保这些内
容符合国家法律法规、社会道德规范以及平台自身的使用政策。其目的是防止和管理违法有
害信息的传播,包括但不限于色情、暴力、恐怖主义、谣言、侵权、假冒伪劣商品宣传等,
保障网络空间的安全、健康和有序发展。
3.7
网络令牌token
自然语言处理中,常指经过模型处理的基本语言单位,如单词、标点符号或特殊标记。
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
ASIC:应用特定集成电路(Application-Specific Integrated Circuit)
DPU:数据处理器(Data Processing Unit)
FPGA:现场可编程门阵列(Field-Programmable Gate Array)
GPU:图形处理器(Graphics Processing Unit)
HDD:硬盘驱动器(Hard Disk Drive)
LLM:大语言模型(Large Language Model)
RAM:随机存取存储器(Random Access Memory)
TPU:张量处理单元(Tensor Processing Unit)
CMMLU:综合中文基准评估测试集(ChineseMulti-modalLearningforUnderstanding)
5 教学类多层级引导大模型技术要求
5.1 准确性
教学类多层级引导大模型在CMMLU、C-Eval、MMLU、GSM8K、MATH、HumanEval、MBPP、
BBH 等公开模型能力测试集中,其准确性应满足如下要求:
a) 句子分类准确性,评估模型在给出的句子集合中正确分类句子的比例,应≥90%;
b) 命名实体识别准确性,评估模型在识别文本中专有名词(如物理知识、化学知识、
数学知识等)的准确率,应≥85%;
c) 情感分析准确性,评估模型在分析文本情感倾向(如积极、消极、中立)时的准确
性,应≥80%;
d) 模型幻觉问题和鲁棒性,同一问题的三次重复请求,模型回答的内容或含义应保持
一致。
T/ZSA 264-2024
3
5.2 语言理解能力
教学类多层级引导大模型准语言理解能力应满足如下要求:
a) 文本相似性评估,使用余弦相似度等指标衡量模型对两个文本内容相似性的判断能
力,余弦相似度≥0.85;
b) 问答系统准确率,评估模型在回答用户提问时的准确率,应≥80%,其中准确率是
指回答内容符合客户要求的数量与客户提问总数量的比值。
5.3 基础算力
教学类多层级引导大模型的基础推理运行算力单元见表1。
表1 基础算力单元
序号规格名称性能参数
1
GPU
并行显卡数量8
2 核心频率2230 MHz
3 显存频率21000 MHz
4 显存容量24 GB
5
中央处
理器
(CPU)
核心数8
6 线程数16
7 主频2.4 GHz
8 缓存级数3 级
9 运行内
存
(RAM)
内存容量32 GB
10 工作频率3200 MHz
11 存储硬
盘
(HDD)
存储容量1 TB
12 读写速度300 MB/s
注: AI 处理器可采用类型包括但不限于:GPU、TPU、DPU、FPGA、ASIC 等类型,以满足基础算力规模为准。
5.4 生成能力
教学类多层级引导大模型生成能力应满足如下要求:
a) 文本流畅性评估,通过人类评价的方式,评估模型生成文本的流畅性和可读性,评
分应达到4 分或以上,评分规则参见表2;
b) 内容相关性,评估模型生成文本与给定主题或上下文的关联程度,应≥70%。
表2 文本流畅性评分规则
评分等级语法段落词汇选择情境适应性创新性
1
严重语法错
误,表述极不
充分
结构混乱、逻
辑跳跃
词汇选择不当,频
繁出现不符语境用
词
- -
2
存在较多语
法错误或句
式结构简单、
单调。
表达上有断
续,部分内容
连接不自然。
虽然基本能理解其
意,但阅读体验不
佳,需要反复揣摩。
- -
T/ZSA 264-2024
4
表2(续)
3
文法基本正
确,大部分句
子结构合理。
整体文本具有
一定的连贯
性,局部仍有
欠缺。
词汇使用较为恰
当,但在复杂语境
下有时会出现表达
不清的情况。
- -
4
文本无明显
语法错误,句
子结构丰富
多变,表现出
良好的语言
组织能力。
内容层次分
明,段落间过
渡自然,逻辑
清晰。
词汇运用准确且有
一定丰富性,符合
目标语境,几乎无
需读者费力理解。
- -
5
文本严格遵
循语法规则,
不存在语法
错误。句子构
造丰富多样
且精确无误。
文本的逻辑条
理清晰明了,
各个段落之间
的过渡自然流
畅,相互支撑
形成紧密的整
体。
用词精准丰富,能
够准确传达各种语
境下的意义,并兼
顾生动性和准确
性。
能根据不同场
景灵活调整语
言风格,既能保
持准确严谨,又
能体现语言的
生动形象。
具备良好的推理和创
造能力,能体现创新表
达、可以进行拟人、比
喻、排比等写作手法,
具备文本的推理分析
能力。
注: 表中填写“-”表示该等级无相应评分要求。
5.5 响应速度
教学类多层级引导大模型响应速度应满足如下要求:
a) 平均响应时间,模型在接收到用户请求后,应在500 毫秒内给出响应;
b) 模型响应速度应不小于20tokens/s。
5.6 安全性
大语言模型应采用来源合法的公开数据集进行训练以保证数据源合规,具体要求如下:
a)数据清洗,训练数据应实施严格的数据脱敏和匿名化处理,避免间接泄露用户信息;
b)大语言模型安全性能指标如模型的稳定性、可靠性等应符合GB/T 43782-2024 中关
于稳定性和可靠性的要求;
c)数据安全管理,设计并实施数据生命周期管理策略,包括数据采集、存储、使用及
销毁过程中的安全管理;
d)后处理,大语言模型应具备对生成内容的敏感词过滤、内容合规检测等措施,保证
生成内容的正确合规。
5.7 资源公平性
教学类多层级引导大模型应保证教育资源公平性,具体要求如下:
a)教学机会均等,教学类多层级引导大模型应对所有用户提供相同质量的教学服务,
不受地域、经济条件、性别、种族、语言或身体条件的限制;
b)教学资源分配均等,所有用户都能够使用相同质量的教育资源和辅助工具,教学资
源不受地域、经济条件、性别、种族、语言或身体条件的限制。
6 教学类多层级引导大模型教学业务要求
T/ZSA 264-2024
5
6.1 教育资源覆盖性及有效性
教学类多层级引导大模型教育资源覆盖性及有效性应满足如下要求:
a) 学科领域覆盖,支持的一级学科领域数量应≥20个,包括但不限于数学、物理、化
学、生物、历史、地理、文学等;
b) 教学训练数据集数据量,用于模型训练的教学数据集的数据量应≥3TB;
c) 教学数据更新频率,教材、试题等教学数据应跟随各学科发展进行更新,更新频率
不小于1次/年。
6.2 教育适应性
教学类多层级引导大模型教育适应性应满足如下要求:
a) 语言风格适应性,模型应能够适应不同阶段用户的语言风格和知识水平,确保教学
内容与用户实际需求相匹配;
b) 知识水平适应性,模型应能够根据用户的知识水平和学习进度,提供个性化的教学
内容和教学难度;
c)教育阶段覆盖,应包含小学、中学在内的基础教育以及大学专业教育,成人职业教
育等在内的各教育阶段。
6.3 互动教学能力
教学类多层级引导大模型互动教学问答能力应满足如下要求:
a) 互动模式多样性,应支持多种互动教学模式,如问答、讨论、案例分析等,以满足
不同教学场景的需求;
b) 实时反馈机制,应提供实时的学习反馈和评价机制,帮助用户及时了解自己的学习
情况和进步情况。
6.4 引导教学能力
教学类多层级引导大模型引导教学能力应满足如下要求:
a)引导性教学场景设计,包括:
1)理解深度,模型应具备对不同复杂度(回忆、理解、应用、分析、评估、创造)
的问题进行分类,保证回答不超出理解能力边界;
2)教学引导性,模型在提供具体指导时应根据问题的复杂程度以及用户的理解力水
平,综合运用‘直接答案’、‘启发式探索提示’和‘引导自主发现’等多元化回复
策略。其中,各类引导方式的平衡参数设定为:直接答案输出占比30%,启发式提示
给予比例为50%,引导用户自我发现策略的应用占20%;
3)跨学科关联性,各学科知识点通过知识图谱建模后,平均关联路径长度应在3-8之
间;
4) 趣味性,教学回答应具备趣味性设计,激发用户的学习兴趣和好奇心。
b) 引导性交互设计,包括:
1) 提示与引导有效性,在实际教学场景中,模型应具备对具体问题进行多轮提示和
引导的能力,帮助用户逐步解决问题和完成任务,提示和引导次数不做具体要求;
2)个性化建议,模型应能根据用户的学习阶段、科目、问答得分情况,提供个性化
的方案,帮助用户针对性地提升知识水平和学习能力。
T/ZSA 264-2024
6
6.5 直接教学能力
教学类多层级引导大模型直接教学能力应满足如下要求:
a) 定义与解释,教学类多层级引导大模型应能提供清晰、准确的定义和解释,确保用户对基本概
念有准确理解,避免产生歧义或误解;
b) 案例说明,教学类多层级引导大模型应能使用具体案例来说明和阐释知识点,帮助用户建立直
观认识和深入理解;
c)鼓励提问与讨论,教学类多层级引导大模型应在具体对话场景中鼓励用户提出问题和参与讨论,
激发用户的学习兴趣和主动性;
d)反馈与建议及时性,教学类多层级引导大模型应提供及时、具体的反馈和建议,帮助用户纠正
错误、巩固知识。
6.6 知识点抽取
教学类多层级引导大模型应对抽取的知识点进行标签分类和图谱化,并进行向量化存储,标签分类
方式无具体要求。
问答知识点关联度,教学类多层级引导大模型知识点抽取总结能力要求算法能够正确提取问题所包
含的知识点,通过向量化计算后,知识点与问题的余弦相似度应≥0.8。
余弦相似度计算方法如下:
a)计算向量A,B的内积:
b)计算向量的模;
c)计算余弦相似度。
式中:
A——抽取知识点向量
B——用户问题向量
6.7 检索增强生成
教学类多层级引导大模型知识库拓展能力要求具备检索增强生成(RAG)的载入能力以加强确定性
的教育内容输出。
T/ZSA 264-2024
7
参考文献
1、《TC260 生成式人工智能安全基本要求》
2、《现代教育技术》
3、《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
评论