中 华人民共和国国家标准 化 指 导 性 技 术 文 件
GB/Z 177. 8—2026
人工智能终端智能化分级
第 8 部分 :音箱
Intelligencegrading ofartificialintelligenceterminal—
Part8:Speaker
2026-04-30发布
国家市场监督管理总局国家标准化管理委员会
发 布
前 言
本文件为规范类指导性技术文件 。
本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1部分 :标准化文件的结构和起草规则》的规定起草 。
本文件是 GB/Z177《人工智能终端智能化分级》的第 8部分 。GB/Z 177已经发布了以下部分 :
— 第 1部分 :参考框架 ;
— 第 2部分 :总体要求 ;
— 第 3部分 :移动终端 ;
— 第 4部分 :微型计算机 ;
— 第 7部分 :汽车座舱 ;
— 第 8部分 :音箱 ;
— 第 9部分 :耳机 。
请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。
本文件由全国信息技术标准化技术委员会(SAC/TC 28)提出并归 口 。
本文件起草单位 : 中国信息通信研究院 、中国软件评测中心(工业和信息化部软件与集成电路促进中心) 、中国电子技术标准化研究院 、联通(广东)产业互联网有限公司 、上海小度技术有限公司 、小米通讯技术有限公司 、华为技术有限公司 、中移(杭州)信息技术有限公司 、中国电子音响行业协会 、中国工业互联网研究院 、工业和信息化部电子第五研究所 、中国电器科学研究院股份有限公司 、中国电信股份有限公司广东研究院 、海思技术有限公司 、联想(北京)有限公司 、新大陆数字技术股份有限公司 、海信视像科技股份有限公司 。
本文件主要起草人 :苗力元 、陈磊 、高峰 、翟云 、孙文生 、朱学涵 、赵栩 、王寒冰 、高歌 、柴豪奕 、吕召彪 、高明亮 、黄荣升 、葛立全 、范 中 吉 、李 强 、吴 越 、郑 丛 珊 、麦 睿 楷 、史 浩 、陈 立 新 、杨 熙 冲 、甘 玉 珏 、马 新 翔 、张黎敏 、邹志铭 、史戈 、蔡春水 、张宏伟 。
引 言
人工智能技术的蓬勃发展 ,持续驱动新产品与新业态的涌现 ,并引领传统电子信息产品升级换代 。各类智能产品功能日益丰富 、迭代速度加快 ,为用户带来新颖的体验和显著的生产力提升 。然而 , 面对市场上层出不穷的智能产品 ,许多消费者难以准确辨别其优劣 ,无法购买到符合自身实际需求的智能产品 。
GB/Z 177 旨在确立终端智能化能力分级测评要素与测试方法 ,拟由九个部分构成 。
— 第 1部分 :参考框架 。 目的在于给出人工智能终端的参考框架 、分类和智能化能力要素 。
— 第 2部分 :总体要求 。 目的在于给出人工智能终端智能化能力通用等级判定和测试方法 。
— 第 3部分 :移动终端 。 目的在于给出人工智能移动终端智能化能力等级判定和测试方法 。
— 第 4部分 :微型计算机 。 目的在于给出人工智能微型计算机智能化能力等级判定和测试方法 。
— 第 5部分 : 电视接收机 。 目的在于给出人工智能电视接收机智能化能力等级判定和测试方法 。
— 第 6部分 : 眼镜 。 目的在于给出人工智能眼镜智能化能力等级判定和测试方法 。
— 第 7部分 :汽车座舱 。 目的在于给出人工智能汽车座舱智能化能力等级判定和测试方法 。
— 第 8部分 :音箱 。 目的在于给出人工智能音箱智能化能力等级判定和测试方法 。
— 第 9部分 :耳机 。 目的在于给出人工智能耳机智能化能力等级判定和测试方法 。
人工智能终端智能化分级
第 8 部分 :音箱
1 范围
本文件规定了音箱智能化关键能力等级划分和等级判定 ,给出了测试方法 。
本文件适用于指导音箱智能化升级 ,也为人工智能音箱的设计 、开发 、应用 、选型和测试提供参考 。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单)适用于本文件 。
GB/Z 177. 1—2026 人工智能终端智能化分级 第 1部分 :参考框架
GB/Z 177. 2—2026 人工智能终端智能化分级 第 2部分 :总体要求
3 术语和定义
GB/Z 177. 1—2026和 GB/Z 177. 2—2026界定的以及下列术语和定义适用于本文件 。
3. 1
语音唤醒 speech wakeup;voice trigger
处于音频流监听状态的语音交互系统 ,在检测到特定的特征或事件出现后 ,切换到命令字识别 、连续语音识别等其他处理状态的过程 。
[来源 :GB/T 36464. 2—2018,3. 13]
3.2
唤醒词 wakeword
用户唤醒设备并启动语音交互的特定词语或短语 。
3.3
语音识别 speech recognition
将人类的声音信号转化为文字或者指令的过程 。
[来源 :GB/T 21023—2007,3. 1]
3.4
语音合成 speech synthesis
通过机械的 、电子的方法合成人类语言的过程 。
注 : 该过程所产 生 的 语 音 称 为 合 成 语 音 , 和 人 的 发 音 器 官 产 生 自 然 语 音 相 区 别 , 有 时 也 叫 人 工 语 音 (artificial
speech) 。
[来源 :GB/T 21024—2007,3. 1]
4 缩略语
下列缩略语适用于本文件 。
App:应用软件(Application Software)
MOS:平均意见得分(Mean Opinion Score)
5 关键能力
5. 1 概述
根据音箱完成功能范围内各类任务的智能化水平及用户在任务执行过程中的参与程度 ,将音箱智能化水平划分为 1 级 (L1)至 3 级 (L3) ,等级越高 ,表明音箱的智能化水平越高 。 高等级能力涵盖全部低等级能力 。
本文件中所述能力均为端云协同能力 。
5.2 L1响应级
5.2. 1 感知
5.2. 1. 1 用户信息感知
用户信息感知能力包括以下内容 。
a) 应能够采集用户输入的音频信息进行唤醒 :
1) 在低噪环境(声音强度在 45 dB以下)中的语音唤醒成功率不低于 80% ;
2) 在高噪环境(声音强度在 45 dB~ 60 dB) 中的语音唤醒成功率不低于 65% ;
3) 唤醒时间不高于 1 s。
b) 应能够识别用户语音中的词句 ,且在低噪环境下的字错误率不高于 15% ,在高噪环境下的字错误率不高于 20% 。
5.2. 1.2 设备信息感知
应能够监测基本软硬件状态信息 ,包括 :
a) 音量设置和网络连接状态等硬件状态信息 ;
b) 系统运行状态和正在播放的内容等软件状态信息 。
5.2. 1.3 环境信息感知
应能够通过互联网感知环境信息 ,包括天气 、空气质量和自然灾害预警等 。
5.2.2 认知
5.2.2. 1 理解
应能够理解用户的单个简单指令 。
5.2.2.2 推理无要求 。
5.2.2.3 规划无要求 。
5.2.3 执行
5.2.3. 1 工具调用
应能够调用确定性工具完成单步骤任务 。
5.2.3.2 内容生成
无要求 。
5.2.3.3 表达输出
应能够将文字内容转换为语音进行输出 。
5.2.3.4 互联协同
无要求 。
5.2.4 记忆无要求 。
5.3 L2工具级
5.3. 1 感知
5.3. 1. 1 用户信息感知
用户信息感知能力包括以下内容 。
a) 应能够采集用户输入的音频信息进行唤醒 :
1) 在低噪环境(声音强度在 45 dB以下)中的语音唤醒成功率不低于 80% ;
2) 在高噪环境(声音强度在 45 dB~ 60 dB) 中的语音唤醒成功率不低于 65% ;
3) 唤醒时间不高于 1 s。
b) 应能够识别用户语音中的词句 ,且在低噪环境下的字错误率不高于 15% ,在高噪环境下的字错误率不高于 20% 。
c) 在特定场景中 ,应能够无需用户再次使用关键词唤醒就可连续进行对话 。
5.3. 1.2 设备信息感知
应能够监测基本软硬件状态信息 ,包括 :
a) 音量设置和网络连接状态等硬件状态信息 ;
b) 系统运行状态和正在播放的内容等软件状态信息 ;
c) 外联设备的类型 、能力和运行状态等外联设备信息 。
5.3. 1.3 环境信息感知
环境信息感知能力包括 :
a) 应能够通过互联网感知环境信息 ,包括天气 、空气质量和自然灾害预警等 ;
b) 应能够通过外联设备感知环境信息 ,包括温度 、湿度等 。
5.3.2 认知
5.3.2. 1 理解
理解能力包括 :
a) 应能够理解用户的单个简单指令 ;
b) 应能够理解用户的包含条件或多个步骤的复杂指令 ;
c) 应能够理解用户的简单意图 。
5.3.2.2 推理
应能够基于当前的会话上下文进行简单推理 ,如逻辑路径单一 、步骤较少的推理或短思维链等 。
5.3.2.3 规划无要求 。
5.3.3 执行
5.3.3. 1 工具调用
工具调用能力包括 :
a) 应能够调用确定性工具完成单步骤任务 ;
b) 应能够调用确定性组合工具完成预设且明确的多步骤任务 。
5.3.3.2 内容生成
应能够生成语音内容 ,且生成结果的 MOS不低于 4分 。
5.3.3.3 表达输出
应能够将文字内容转换为语音进行输出 ,且合成结果的 MOS不低于 4分 。
5.3.3.4 互联协同
互联协同能力包括 :
a) 应能够控制智能家居等外部设备 ;
b) 在多设备环 境 中 , 当 用 户 发 出 唤 醒 词 时 , 应 能 够 自 动 选 择 一 个 最 合 适 的 设 备 来 响 应 用 户的指令 。
5.3.4 记忆
5.3.4. 1 短期记忆
应能够记忆单个会话上下文内容 。
5.3.4.2 长期记忆
无要求 。
5.4 L3辅助级
5.4. 1 感知
5.4. 1. 1 用户信息感知
用户信息感知能力包括以下内容 。
a) 应能够采集用户输入的音频信息进行唤醒 :
1) 在低噪环境(声音强度在 45 dB以下)中的语音唤醒成功率不低于 80% ;
2) 在高噪环境(声音强度在 45 dB~ 60 dB) 中的语音唤醒成功率不低于 65% ;
3) 唤醒时间不高于 1 s。
b) 应能够识别用户语音中的词句 ,且在低噪环境下的字错误率不高于 15% ,在高噪环境下的字错误率不高于 20% 。
c) 在特定场景中 ,应能够无需用户再次使用关键词唤醒就可连续进行对话 。
d) 应能够通过声纹识别方式对用户身份进行识别 。
e) 在设备播报过程中 ,应能够持续监听并识别用户的语音输入 、中断当前播报并响应新指令的全双工交互 。
5.4. 1.2 设备信息感知
应能够监测基本软硬件状态信息 ,包括 :
a) 音量设置和网络连接状态等硬件状态信息 ;
b) 系统运行状态和正在播放的内容等软件状态信息 ;
c) 外联设备的类型 、能力和运行状态等外联设备信息 。
5.4. 1.3 环境信息感知
环境信息感知能力包括 :
a) 应能够通过互联网感知环境信息 ,包括天气 、空气质量和自然灾害预警等 ;
b) 应能够通过外联设备感知环境信息 ,包括温度 、湿度等 ;
c) 应能够通过内置传感器感知环境信息 ,包括异响等 。
5.4.2 认知
5.4.2. 1 理解
理解能力包括 :
a) 应能够理解用户的单个简单指令 ;
b) 应能够理解用户的包含条件或多个步骤的复杂指令 ;
c) 应能够理解用户的简单意图 ;
d) 应能够理解用户的复杂意图 ;
e) 当意图不明确时 ,应能够通过追问 、提供选项等方式进行意图澄清 ;
f) 应能够对多种感知信息进行融合理解 。
5.4.2.2 推理
推理能力包括 :
a) 应能够基于 当 前 的 会 话 上 下 文 进 行 简 单 推 理 , 如 逻 辑 路 径 单 一 、步 骤 较 少 的 推 理 或 短 思 维
链等 ;
b) 应能够综合不同来源和类型的信息进行复杂推理 , 如多重约束条件 、多步骤的推理或长思维链等 。
5.4.2.3 规划
规划能力包括 :
a) 应能够将复杂任务分解为可执行的子任务 ;
b) 应能够为分解后的子任务编排合理的执行序列 。
5.4.3 执行
5.4.3. 1 工具调用
工具调用能力包括 :
a) 应能够调用确定性工具完成单步骤任务 ;
b) 应能够调用确定性组合工具完成预设且明确的多步骤任务 ;
c) 应能够依据规划结果 ,动态选择和调用合适的工具完成任务 。
5.4.3.2 内容生成
应能够生成语音内容 ,且生成结果的 MOS不低于 4分 。
5.4.3.3 表达输出
应能够将文字内容转换为语音进行输出 ,且合成结果的 MOS不低于 4分 。
5.4.3.4 互联协同
互联协同能力包括 :
a) 应能够控制智能家居等外部设备 ;
b) 应能够在多 设 备 环 境 中 , 当 用 户 发 出 唤 醒 词 时 , 自 动 选 择 一 个 最 合 适 的 设 备 来 响 应 用 户的指令 ;
c) 应能够跨设备进行内容迁移 ;
d) 应能够多个设备同步播放内容 。
5.4.4 记忆
5.4.4. 1 短期记忆
应能够记忆单个会话上下文内容 。
5.4.4.2 长期记忆
应能够长期性地记忆内容 ,如用户基本信息 、偏好设置 、交互历史记录 、位置习惯 、日程与任务 、应用使用习惯 、设备状态历史 、生物特征模板 、跨应用行为关联等 。
6 等级判定
音箱具备指定级别的所有能力 ,则认为音箱达到该级别智能化 。测试方法见附录 A,其中用于测试的典型使用场景可参考附录 B,场景设计方法可参考附录 C。
附 录 A (规范性)测试方法
A. 1 测试环境
测试环境条件如下 :
a) 环境温度 :15 ℃ ~ 35 ℃ ;
b) 相对湿度 :20% ~ 75% ;
c) 大气压 :86kPa~ 106kPa;
d) 声音环境包括以下类型 :
1) 低噪环境 :待测设备传声器处的环境噪声声压级不超过 45 dB(A) ;
2) 高噪环境 :待测设备传声器处的环境噪声声压级为 45 dB(A) ~ 60 dB(A) 。
A.2 L1响应级
A.2. 1 感知
A.2. 1. 1 用户信息感知
A.2. 1. 1. 1 音频唤醒
A.2. 1. 1. 1. 1 语音唤醒成功率测试方法如下 :
a) 在 低 噪 环 境 下 , 距 离 待 测 设 备 正 前 方 3 m 处 播 放 语 料 , 在 待 测 设 备 传 声 器 处 测 得 声 压 级 为
60 dB(A) ,测试被唤醒情况 ,根据公式(A. 1)得出在低噪环境下的语音唤醒成功率 ;
R X 100% … … … … … … … … … … ( A. 1 )
式中 :
R — 唤醒成功率 ;
NC — 设备被唤醒次数 ;
N — 总测试次数 。
b) 在高噪环境下 ,重复步骤 a) ,得出在高噪环境下的语音唤醒成功率 。
A.2. 1. 1. 1.2 唤醒时间测试方法如下 :
a) 在低噪环境下 ,距离待测设备正前方 3 m 处播放唤醒测试语料 ,在待测设备传声器处测得声压级为 60 dB(A) ,测试被唤醒情况 ,根据公式(A. 2)得出唤醒时间 ;
T =tr - te … … … … … … … … … … ( A. 2 )式中 :
T — 唤醒时间 ;
tr — 首次响应时刻 ;
te — 语音输入结束时刻 。
b) 重复测试 ,取平均值作为唤醒时间结果 。
A.2. 1. 1.2 语音识别
语音识别能力测试方法如下 :
a) 在 低 噪 环 境 下 , 距 离 待 测 设 备 正 前 方 3 m 处 播 放 语 料 , 在 待 测 设 备 传 声 器 处 测 得 声 压 级 为
60 dB(A) ,测试语音识别情况 ,根据公式(A. 3)得出在低噪环境下的语音识别字错误率 ;
E 式中 :
E — 语音识别字错误率 ;
S — 替换(错误)的字数 ;
D — 删除(遗漏)的字数 ;
I — 插入(增加)的字数 ;
N — 测试语音总字数 。
b) 在高噪环境下 ,重复步骤 a) ,得出在高噪环境下的语音识别字错误率 。
A.2. 1.2 设备信息感知
设备信息感知能力测试方法如下 :
a) 通过语音指令或导出 日志等手段 ,查询音箱的音量设置和网络连接状态等硬件状态信息 ,验证音箱是否正确反馈 ;
b) 通过语音指令或导出 日志等手段 ,查询音箱的系统运行状态和正在播放的内容等软件状态信息 ,验证音箱是否正确反馈 。
A.2. 1.3 环境信息感知
通过互联网的环境信息感知能力测试方法如下 :
a) 输入天气 、空气质量和自然灾害预警等环境信息的查询指令 ;
b) 验证音箱是否返回正确的环境信息 。
A.2.2 认知
A.2.2. 1 理解
单个指令理解能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入单个简单指令 ;
b) 通过日志或者验证音箱是否执行操作的方式 ,验证音箱是否能正确理解指令 。
A.2.2.2 推理不涉及 。
A.2.2.3 规划不涉及 。
A.2.3 执行
A.2.3. 1 工具调用
单步骤工具调用能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入确定性 、单步骤任务的工具调用指令 ;
b) 验证音箱是否执行了相应动作 。
A.2.3.2 内容生成
不涉及 。
A.2.3.3 表达输出
语音合成能力测试方法如下 :
a) 使用音箱播放内容 ;
b) 验证音箱是否将文字内容合成语音并输出 。
A.2.3.4 互联协同
不涉及 。
A.2.4 记忆不涉及 。
A.3 L2工具级
A.3. 1 感知
A.3. 1. 1 用户信息感知
A.3. 1. 1. 1 音频唤醒
测试方法同 A. 2. 1. 1. 1。
A.3. 1. 1.2 语音识别
测试方法同 A. 2. 1. 1. 2。
A.3. 1. 1.3 连续对话
连续对话能力测试方法如下 :
a) 向音箱发起连续对话 , 即在上一次音箱给出回复后不输入唤醒词 ,直接输入下一条指令 ;
b) 验证音箱是否能在 3 轮及以上对话中保持上下文连贯性 ,且无需重复唤醒 。
A.3. 1.2 设备信息感知
设备信息感知能力测试方法如下 :
a) 通过语音指令或导出 日志等手段 ,查询音箱的音量设置和网络连接状态等硬件状态信息 ,验证音箱是否正确反馈 ;
b) 通过语音指令或导出 日志等手段 ,查询音箱的系统运行状态和正在播放的内容等软件状态信息 ,验证音箱是否正确反馈 ;
c) 通过语音指令 、App查看或导出 日志等手段 ,查询音箱外联设备的类型 、能力和运行状态等外联设备信息 ,验证音箱是否正确反馈 。
A.3. 1.3 环境信息感知
A.3. 1.3. 1 通过互联网的环境信息感知测试方法同 A. 2. 1. 3。
A.3. 1.3.2 通过外联设备的环境信息感知
通过外联设备的环境信息感知能力测试方法如下 :
a) 将外联设备(如温湿度计 、空气净化器)连接到音箱 ;
b) 向音箱输入温度 、湿度等环境信息的查询指令 ;
c) 验证音箱是否返回正确的环境信息 。
A.3.2 认知
A.3.2. 1 理解
A.3.2. 1. 1 单个简单指令理解
测试方法同 A. 2. 2. 1。
A.3.2. 1.2 复杂指令理解
复杂指令理解能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入复杂指令 ;
b) 通过日志或者验证音箱是否执行操作的方式 ,验证音箱是否能正确理解指令 。
A.3.2. 1.3 简单意图理解
简单意图理解能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入包含简单意图的指令 ;
b) 通过日志或者验证音箱是否执行操作的方式 ,验证音箱是否能正确理解用户意图 。
A.3.2.2 推理
单步或简单链式推理能力采用场景化测试方法 ,完成至少 3 种应用类型的能够覆盖该能力的场景(可参考附录 C) ,场景设计方法可参考附录 B,执行步骤如下 :
a) 向音箱输入需要单步推理/简单链式推理的指令 ;
b) 验证音箱是否执行相应操作 。
A.3.2.3 规划不涉及 。
A.3.3 执行
A.3.3. 1 工具调用
A.3.3. 1. 1 单步骤工具调用测试方法同 A. 2. 3. 1。
A.3.3. 1.2 多步骤工具调用
多步骤工具调用能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入多步骤工具调用任务指令 ;
b) 验证音箱是否执行了相应动作 。
A.3.3.2 内容生成
语音内容生成能力见 GB/T 45288. 2—2025 中 A. 2进行测试 ,得到 MOS。
A.3.3.3 表达输出
语音合成能力测试方法如下 :
a) 使用音箱播放内容 ;
b) 由测试人员根据自然度 ,对音箱合成语音的语音见 GB/T 36464. 1—2020 中 A. 8. 3 进行评分 ,得到 MOS。
A.3.3.4 互联协同
A.3.3.4. 1 设备控制
设备控制能力采用场 景 化 测 试 方 法 , 完 成 至 少 3 种 设 备 类 型 的 控 制 场 景 , 场 景 设 计 方 法 可 参 考附录 C,执行步骤如下 :
a) 连接智能家居设备 , 向音箱发送设备控制指令 ;
b) 验证设备响应状态与指令一致性 。
A.3.3.4.2 协同唤醒
协同唤醒能力测试方法如下 :
a) 布置多台音箱(如音箱 A靠近用户 ,音箱 B在远处) ,发出唤醒词 ;
b) 验证是否距离最近 、信号最优或其他符合需求的条件的音箱做出响应 。
A.3.4 记忆
A.3.4. 1 短期记忆
单会话上下文记忆能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 设计多轮对话场景 , 向音箱进行逐步输入 ;
b) 验证音箱是否基于历史对话正确回答后续问题 。
A.3.4.2 长期记忆
不涉及 。
A.4 L3辅助级
A.4. 1 感知
A.4. 1. 1 用户信息感知
A.4. 1. 1. 1 音频唤醒
测试方法同 A. 2. 1. 1. 1。
A.4. 1. 1.2 语音识别
测试方法同 A. 2. 1. 1. 2。
A.4. 1. 1.3 连续对话
测试方法同 A. 3. 1. 1. 3。
A.4. 1. 1.4 声纹识别
声纹识别能力测试方法如下 :
a) 多名测试用户分别录入声纹 ,检查音箱是否成功录入声纹 ,并通过 App/语音反馈确认 ;
b) 注册用户与非注册用户轮流发出相同指令 ,验证识别结果 。
A.4. 1. 1.5 全双工交互
全双工交互能力测试方法如下 :
a) 在音箱进行播报时 ,插入新指令 ;
b) 验证是否中断响应并执行新任务 。
A.4. 1.2 设备信息感知 测试方法同 A. 3. 1. 2。
A.4. 1.3 环境信息感知
A.4. 1.3. 1 通过互联网的环境信息感知测试方法同 A. 2. 1. 3。
A.4. 1.3.2 通过外联设备的环境信息感知测试方法同 A. 3. 1. 3. 2。
A.4. 1.3.3 通过内置传感器的环境信息感知
通过内置传感器的环境信息感知能力测试方法如下 :
a) 模拟需要音箱内置传感器进行感知的操作 ,如发出啼哭声 、家用报警器 、火警警报声 、动物叫声等异响 ;
b) 验证音箱是否给出相应的回应 、告警或 日志记录 。
A.4.2 认知
A.4.2. 1 理解
A.4.2. 1. 1 单个简单指令理解
测试方法同 A. 2. 2. 1。
A.4.2. 1.2 复杂指令理解 测试方法同 A. 3. 2. 1. 2。
A.4.2. 1.3 简单意图理解 测试方法同 A. 3. 2. 1. 3。
A.4.2. 1.4 复杂意图理解
复杂意图理解能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入包含复杂意图的指令 ;
b) 通过日志或者验证音箱是否执行操作的方式 ,验证音箱是否能正确理解用户意图 。
A.4.2. 1.5 意图澄清
意图澄清能力采用场 景 化 测 试 方 法 , 完 成 至 少 3 种 应 用 类 型 的 能 够 覆 盖 该 能 力 的 场 景(可 参 考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入包含需要用户澄清的意图的指令 ;
b) 验证音箱是否能通过进一步询问澄清意图的方式正确理解用户意图 。
A.4.2. 1.6 感知融合理解
感知融合理解能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 输入需要同时调用多种感知信息的指令 ;
b) 验证音箱是否能够融合多种感知信息执行任务 。
A.4.2.2 推理
A.4.2.2. 1 单步或简单链式推理
测试方法同 A. 3. 2. 2。
A.4.2.2.2 复杂链式推理
复杂链式推理能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入需要复杂链式推理的指令 ;
b) 验证音箱是否执行相应操作 。
A.4.2.3 规划
任务分解和编排任务执行序列能力采用场景化测试方法 ,完成至少 3 种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入需要多步骤完成的任务指令 ;
b) 验证音箱是否分解任务 、编排任务执行序列 ,并按照方案路径执行 。
A.4.3 执行
A.4.3. 1 工具调用
A.4.3. 1. 1 单步骤工具调用测试方法同 A. 2. 3. 1。
A.4.3. 1.2 多步骤工具调用测试方法同 A. 3. 3. 1. 2。
A.4.3. 1.3 自动选择工具调用
自动选择工具调用能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录 B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱输入需要多步骤完成的任务指令 ;
b) 验证音箱是否依据规划结果 , 自动选择和调用工具 。
A.4.3.2 内容生成
测试方法同 A. 3. 3. 2。
A.4.3.3 表达输出
测试方法同 A. 3. 3. 3。
A.4.3.4 互联协同
A.4.3.4. 1 设备控制
测试方法同 A. 3. 3. 4. 1。
A.4.3.4.2 协同唤醒
测试方法同 A. 3. 3. 4. 2。
A.4.3.4.3 内容迁移
内容迁移能力测试方法如下 :
a) 有两台设备 A 和 B,其中至少有一台为被测音箱 ;
b) 在 A进行内容播放 ,记录进度 ,通过语音指令或 App操作发起迁移至 B操作 ;
c) 验证 B是否立即接管播放 ,且进度同步 。
A.4.3.4.4 多设备同步播放
多设备同步播放能力测试方法如下 :
a) 使用两个或以上音箱同步播放一个音频内容 ;
b) 验证音箱播放进度是否同步 。
A.4.4 记忆
A.4.4. 1 短期记忆
测试方法同 A. 3. 4. 1。
A.4.4.2 长期记忆
长期记忆能力采用场景化测试方法 ,完成至少 3种应用类型的能够覆盖该能力的场景(可参考附录
B) ,场景设计方法可参考附录 C,执行步骤如下 :
a) 向音箱注入长期记忆内容 ,如用户基本信息 、偏好设置 、交互历史记录 、位置习惯 、日程与任务 、应用使用习惯 、设备状态历史 、生物特征模板 、跨应用行为关联等 ;
b) 向音箱输入涉及长期记忆内容的任务指令或意图 ,验证能否基于长期记忆内容完成任务执行 。
附 录 B (资料性)
典型使用场景
表 B. 1列举了智能音箱典型使用场景 。
表 B. 1 典型使用场景清单
附 录 C
(资料性)
测试场景设计方法
各应用类型的测试场景设计可参考表 C. 1覆盖能力 。
表 C. 1 能力覆盖方式示例
参 考 文 献
[1] GB/T 21023—2007 中文语音识别系统通用技术规范
[2] GB/T 21024—2007 中文语音合成系统通用技术规范
[3] GB/T 36464. 1—2020 信息技术 智能语音交互系统 第 1 部分 :通用规范
[4] GB/T 36464. 2—2018 信息技术 智能语音交互系统 第 2 部分 :智能家居
[5] GB/T 45288. 2—2025 人工智能 大模型 第 2 部分 :评测指标与方法

评论