中 华人民共和国国家标准 化 指 导 性 技 术 文 件
GB/Z 177.9—2026
人工智能终端智能化分级
第 9 部分 :耳机
Intelligencegrading ofartificialintelligenceterminal—
Part9:Earphone
2026-04-30发布
国家市场监督管理总局国家标准化管理委员会
发 布
前 言
本文件为规范类指导性技术文件 。
本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1部分 :标准化文件的结构和起草规则》的规定起草 。
本文件是 GB/Z177《人工智能终端智能化分级》的第 9部分 。GB/Z 177已经发布了以下部分 :
— 第 1部分 :参考框架 ;
— 第 2部分 :总体要求 ;
— 第 3部分 :移动终端 ;
— 第 4部分 :微型计算机 ;
— 第 7部分 :汽车座舱 ;
— 第 8部分 :音箱 ;
— 第 9部分 :耳机 。
请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任 。
本文件由全国信息技术标准化技术委员会(SAC/TC 28)提出并归 口 。
本文件起草单位 : 中国软件评测中心(工业和信息化部软件与集成电路促进中心) 、中国电子技术标准化研究院 、中国信息通信研究院 、小米通讯技术有限公司 、安徽艾德未来智能科技有限公司 、广东欧加通信科技有限公司 、华为技术有限公司 、荣耀终端股份有限公司 、联想(北京)有限公司 、中移(杭州)信息技术有限公司 、工业和信息化部电子第五研究所 、中国电器科学研究院股份有限公司 、科大讯飞股份有限公司 。
本文件主要起草人 :邓森屾、翟艳芬、高宏玲、翟腾、高歌、沈芷月、刘晓璇、陈磊、丛瑛瑛、翟云、丛若男、程璐、仇磊、麦睿楷、王鹏、谢腾、程海宁、蔡佳、杨熙冲、黄林森 。
引 言
人工智能技术的蓬勃发展 ,持续驱动新产品与新业态的涌现 ,并引领传统电子信息产品升级换代 。各类智能产品功能日益丰富 、迭代速度加快 ,为用户带来新颖的体验和显著的生产力提升 。然而 , 面对市场上层出不穷的智能产品 ,许多消费者难以准确辨别其优劣 ,无法购买到符合自身实际需求的智能产品 。
GB/Z 177 旨在确立终端智能化能力分级测评要素与测试方法 ,拟由九个部分构成 。
— 第 1部分 :参考框架 。 目的在于给出人工智能终端的参考框架 、分类和智能化能力要素 。
— 第 2部分 :总体要求 。 目的在于给出人工智能终端智能化能力通用等级判定和测试方法 。
— 第 3部分 :移动终端 。 目的在于给出人工智能移动终端智能化能力等级判定和测试方法 。
— 第 4部分 :微型计算机 。 目的在于给出人工智能微型计算机智能化能力等级判定和测试方法 。
— 第 5部分 : 电视接收机 。 目的在于给出电视接收机智能化能力等级判定和测试方法 。
— 第 6部分 : 眼镜 。 目的在于给出眼镜智能化能力等级判定和测试方法 。
— 第 7部分 :汽车座舱 。 目的在于给出人工智能汽车座舱智能化能力等级判定和测试方法 。
— 第 8部分 :音箱 。 目的在于给出人工智能音箱智能化能力等级判定和测试方法 。
— 第 9部分 :耳机 。 目的在于给出人工智能耳机智能化能力等级判定和测试方法 。
人工智能终端智能化分级
第 9 部分 :耳机
1 范围
本文件规定了耳机智能化关键能力等级划分和等级判定 ,给出了测试方法 。
本文件适用于指导耳机智能化分级 ,包括头戴式 、入耳式 、半入耳式 、开放式等常见形态 ,也为人工智能耳机的设计 、开发 、应用 、选型和测试提供参考 。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 , 注 日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单)适用于本文件 。
GB/T 45288. 2—2025 人工智能 大模型 第 2部分 :评测指标与方法
GB/Z 177. 1—2026 人工智能终端智能化分级 第 1部分 :参考框架
GB/Z 177. 2—2026 人工智能终端智能化分级 第 2部分 :总体要求
3 术语和定义
GB/Z 177. 1—2026和 GB/Z 177. 2—2026界定的以及下列术语和定义适用于本文件 。
3. 1
拾音 sound pickup
通过传声器采集声音信号的过程 。
3.2
语音识别 speech recognition
将人类的声音信号转化为文字或者指令的过程 。
[来源 :GB/T 21023—2007,3. 1] 3.3
主动降噪 activenoisecancellation
通过实时分析噪声特性 ,生成反相声波并抑制噪声成分 ,从而降低环境噪声干扰的技术 。
3.4
环境降噪 environmentalnoisecancellation
通过分离语音与环境噪声 ,识别并抑制非 目标噪声成分 ,从而提升通话场景下语音传输清晰度的
技术 。
注 : 环境降噪也称通话降噪 。
3.5
唤醒词 wakeword
用户唤醒设备并启动语音交互的词语或短语 。
3.6
主设备 hostdevice
能够与耳机建立连接 ,为耳机提供音频信号源 、控制指令交互 ,可发起连接请求 、配置耳机参数 ,并对相关功能进行控制的设备 。
4 缩略语
GB/Z 177. 1 和 GB/Z 177. 2 界定的以及下列缩略语适用于本文件 。
MOS:平均意见得分(Mean Opinion Score)
5 关键能力
5. 1 概述
本文件能力要素依据 GB/Z 177. 1 与 GB/Z 177. 2, 为符合耳机产品特点 ,不包含学习能力 ,且只对端云能力提出要求 ,将耳机的智能化水平分为 L1、L2、L3等级 。
5.2 L1响应级
5.2. 1 感知
5.2. 1. 1 用户信息感知
用户信息感知能力应满足下列要求 。
a) 语音信息 :具备感知用户语音输入信息的能力 ,具体要求如下 :
1) 安静环境下的语音识别准确率不低于 90% ;
2) 噪声环境下的语音识别准确率不低于 80% 。
b) 触控信息 :具备感知用户触控输入信息的能力 ,如敲击 、滑动等 ,触控操作准确率不小于 90% 。
5.2. 1.2 设备信息感知
设备信息感知能力应满足下列要求 。
a) 软硬件状态 :具备感知自身软硬件状态的能力 ,如电量 、充电状态 、连接状态 、系统版本等 。
b) 任务状态 :具备感知当前执行任务及相关参数的能力 ,如音乐播放 、通话等 。
5.2. 1.3 环境信息感知
网络信息 :应具备通过互联网感知环境信息的能力 ,如天气 、地理位置等 。
5.2.2 认知
5.2.2. 1 理解
单个简单指令 :应具备理解用户的单个简单语音指令的能力 , 响应时间不高于 1. 5 s。
5.2.2.2 推理无要求 。
5.2.2.3 规划无要求 。
5.2.3 执行
5.2.3. 1 工具调用
单步骤工具调用 :应具备基于基本协议实现基础工具功能调用的能力 ,如调整音量 、接听 、挂断 、播放 、暂停 、打开 APP等 。
5.2.3.2 内容生成
无要求 。
5.2.3.3 互联协同
无要求 。
5.2.3.4 表达输出
清晰语音输出 :应具备 清 晰 的 语 音 输 出 能 力 , 不 应 出 现 影 响 正 常 使 用 效 果 的 垃 圾 声 、碰 圈 声 和 异常声 。
5.2.4 记忆
5.2.4. 1 短期记忆
无要求 。
5.2.4.2 长期记忆
无要求 。
5.3 L2工具级
5.3. 1 感知
5.3. 1. 1 用户信息感知
用户信息感知能力应满足下列要求 。
a) 语音信息 :具备语音唤醒能力 ,具备感知用户语音输入信息的能力 ,具体要求如下 :
1) 安静环境下的语音唤醒准确率不低于 95% ;
2) 噪声环境下的语音唤醒准确率不低于 90% ;
3) 安静环境下的语音识别准确率不低于 90% ;
4) 噪声环境下的语音识别准确率不低于 80% 。
b) 触控信息 :具备感知用户触控输入信息的能力 ,如敲击 、滑动等 ,触控操作准确率不小于 90% 。
5.3. 1.2 设备信息感知
设备信息感知能力应满足下列要求 。
a) 软硬件状态 :具备感知自身软硬件状态的能力 ,如电量 、充电状态 、连接状态 、系统版本等 。
b) 任务状态 :具备感知当前执行任务及相关参数的能力 ,如音乐播放 、通话等 。
c) 佩戴状态 :具备感知用户佩戴状态的能力 。
5.3. 1.3 环境信息感知
环境信息感知能力应满足下列要求 。
a) 网络信息 :具备通过互联网感知环境信息的能力 ,如天气 、地理位置等 。
b) 环境声音 :具备感知环境声音信息能力 ,具备多频点噪声检测能力 。
c) 定向拾音 :具备定 向 拾 音 能 力 , 能 够 优 先 采 集 目 标 方 向 的 声 音 , 同 时 显 著 抑 制 非 目 标 方 向 的声音 。
5.3.2 认知
5.3.2. 1 理解
理解能力应满足下列要求 。
a) 单个简单指令 :具备理解用户的单个简单语音指令的能力 , 响应时间不高于 1. 5 s。
b) 复杂指令 :具备理解用户的复杂语音指令的能力 。
c) 简单意图 :具备理解用户的简单意图的能力 。
5.3.2.2 推理
单步或简单链式推理 :应具备单步推理能力或简单的链式推理能力 ,能够基于当前明确的上下文进行直接的推断 ,或解决规则清晰的逻辑问题 。
5.3.2.3 规划无要求 。
5.3.3 执行
5.3.3. 1 工具调用
工具调用能力应满足下列要求 。
a) 单步骤工具调用 :具备基于基本协议实现基础工具功能调用的能力 ,如调整音量 、接听 、挂断 、播放 、暂停 、打开 APP等 。
b) 多步骤工具调用 :具备调用确定性组合工具完成预设且明确的多步骤任务的能力 。
5.3.3.2 内容生成
内容生成能力应满足下列要求 。
a) 语音生成 :具备 基 于 用 户 需 求 生 成 语 音 内 容 的 能 力 , 生 成 内 容 按 照 GB/T 45288. 2—2025 中A. 2 要求的测试方法 ,MOS不低于 4分 。
b) 文本生成 :具备 基 于 用 户 需 求 生 成 文 本 内 容 的 能 力 , 生 成 内 容 按 照 GB/T 45288. 2—2025 中A. 2 要求的测试方法 ,MOS不低于 4分 。
5.3.3.3 互联协同
多设备连接 :应具备不少于 2 台设备同时连接的能力 。
5.3.3.4 表达输出
表达输出能力应满足下列要求 。
a) 清晰语音输出 :具备清晰的语音输出能力 ,不应出现影响正常使用效果的垃圾声 、碰圈声和异常声 。
b) 主动噪声控制 :具备主动降噪能力 , 能够实现降噪模式与通透或关闭等模式至少两档手动切换 ;具备环境降噪能力 。
注 : 开放式耳机不要求主动降噪能力 。
5.3.4 记忆
5.3.4. 1 短期记忆
单会话上下文记忆 :应具备对单次会话上下文内容的记忆能力 ,能够完成不少于 5 轮次对话 。
5.3.4.2 长期记忆
无要求 。
5.4 L3辅助级
5.4. 1 感知
5.4. 1. 1 用户信息感知
用户信息感知能力应满足下列要求 。
a) 语音信息 :具备语音唤醒能力 ,具备感知用户语音输入信息的能力 ,具体要求如下 :
1) 安静环境下的语音唤醒准确率不低于 95% ;
2) 噪声环境下的语音唤醒准确率不低于 90% ;
3) 安静环境下的语音识别准确率不低于 90% ;
4) 噪声环境下的语音识别准确率不低于 80% 。
b) 触控信息 :具备感知用户触控输入信息的能力 ,如敲击 、滑动等 ,触控操作准确率不小于 90% 。
c) 头部姿态信息 :具备感知用户头部姿态变化的能力 。
5.4. 1.2 设备信息感知
设备信息感知能力应满足下列要求 。
a) 软硬件状态 :具备感知自身软硬件状态的能力 ,如电量 、充电状态 、连接状态 、系统版本等 。
b) 任务状态 :具备感知当前执行任务及相关参数的能力 ,如音乐播放 、通话等 。
c) 佩戴状态 :具备感知用户佩戴状态的能力 。
5.4. 1.3 环境信息感知
环境信息感知能力应满足下列要求 。
a) 网络信息 :具备通过互联网感知环境信息的能力 ,如天气 、地理位置等 。
b) 环境声音 :具备感知环境声音信息能力 ,具备多频点噪声检测能力 。
c) 定向拾音 :具备定 向 拾 音 能 力 , 能 够 优 先 采 集 目 标 方 向 的 声 音 , 同 时 显 著 抑 制 非 目 标 方 向 的声音 。
d) 设备位置 :具备感知耳机位置的能力 。
5.4.2 认知
5.4.2. 1 理解
理解能力应满足下列要求 。
a) 单个简单指令 :具备理解用户的单个简单语音指令的能力 , 响应时间不高于 1. 5 s。
b) 复杂指令 :具备理解用户的复杂语音指令的能力 。
c) 简单意图 :具备理解用户的简单意图的能力 。
d) 复杂意图 :具备理解用户的复杂意图的能力 。
e) 意图澄清 : 当意图不明确时 ,具备通过追问 、提供选项等方式进行意图澄清的能力 。
f) 感知融合理解 :具备对两种以上感知信息进行融合理解的能力 。
5.4.2.2 推理
推理能力应满足下列要求 。
a) 单步或简单链式推理 :具备单步推理能力或简单的链式推理能力 ,能够基于当前明确的上下文进行直接的推断 ,或解决规则清晰的逻辑问题 。
b) 复杂链式推理 :具备复杂的链式推理能力 ,能够综合多来源信息进行深度推演 ,或解决深度研究等需要抽象思维和复杂策略的逻辑问题 。
5.4.2.3 规划
任务分解和编排执行序列 :应具备将复杂任务分解为可执行的子任务 ,并为分解后的子任务编排合理的执行序列的能力 。
5.4.3 执行
5.4.3. 1 工具调用
工具调用能力应满足下列要求 。
a) 单步骤工具调用 :具备基于基本协议实现基础工具功能调用的能力 ,如调整音量 、接听 、挂断 、播放 、暂停 、打开 APP等 。
b) 多步骤工具调用 :具备调用确定性组合工具完成预设且明确的多步骤任务的能力 。
c) 自动工具调用 :具备依据规划结果 , 自动调用适当的工具完成任务的能力 。
5.4.3.2 内容生成
内容生成能力应满足下列要求 。
a) 语音生成 :具备 基 于 用 户 需 求 生 成 语 音 内 容 的 能 力 , 生 成 内 容 按 照 GB/T 45288. 2—2025 中A. 2 要求的测试方法 ,MOS不低于 4分 。
b) 文本生成 :具备 基 于 用 户 需 求 生 成 文 本 内 容 的 能 力 , 生 成 内 容 按 照 GB/T 45288. 2—2025 中A. 2 要求的测试方法 ,MOS不低于 4分 。
5.4.3.3 互联协同
互联协同能力应满足下列要求 。
a) 多设备连接 :具备不少于 2 台设备同时连接的能力 。
b) 内容迁移 :具备实现跨设备内容迁移的能力 。
5.4.3.4 表达输出
表达输出能力应满足下列要求 。
a) 清晰语音输出 :具备清晰的语音输出能力 ,不应出现影响正常使用效果的垃圾声 、碰圈声和异常声 。
b) 主动噪声控制 :具备主动降噪能力 , 能够实现降噪模式与通透或关闭等模式至少两档手动切换 ;具备环境降噪能力 。
注 : 开放式耳机不要求主动降噪能力 。
c) 自适应降噪 :具备根据不同环境场景或耳道结构自动切换降噪模式或降噪深度的能力 。
5.4.4 记忆
5.4.4. 1 短期记忆
单会话上下文记忆 :应具备对单次会话上下文内容的记忆能力 ,能够完成不少于 5 轮次对话 。
5.4.4.2 长期记忆
内容长期记忆 :应具备对会话历史 、用户偏好的长期存储与调用能力 。
6 等级判定
按照 GB/Z177. 2对耳机进行测试 ,测试方法按照附录 A。依据委托方申请的目标智能化等级与本文件中对该等级所规定的关键能力逐项开展测试 , 当该等级对应的所有能力要求均达到时 ,则可判定该耳机达到了所申请智能化等级 。委托方可提供用于耳机测试的主设备 。
测试过程优先采用附录 B 的场景测试 ,至少选取二级应用场景中的 3 个进行测试 。选取的场景应覆盖对应等级的所有能力要求 ,若有些能力要求无法覆盖 ,则使用对应能力要求的测试方法进行测试 。若委托方认为本文中的场景与产品定位不匹配 ,可自行制定测试场景 ,但应经过测试机构的评审 , 同时覆盖对应等级的所有能力要求 。
附 录 A (规范性)测试方法
A. 1 测试环境
测试环境包括 :
a) 温度 :15 ℃ ~ 35 ℃ ;
b) 相对湿度 :25% ~ 75% ;
c) 气压 :86kPa~ 106kPa;
d) 安静环境 :环境声音强度范围 40 dB~ 50 dB;
e) 噪声环境 :环境声音强度范围 50 dB~ 75 dB;
f) 环境噪声频率范围覆盖 20Hz~ 20 kHz,融合白噪声 、人声片段 、交通环境音等 。
A.2 L1响应级
A.2. 1 感知
A.2. 1. 1 用户信息感知
A.2. 1. 1. 1 语音信息
语音识别准确率应按照下列测试方法进行 。
a) 在安静环境下 ,对耳机输入平均声压级为 60 dB的不同语音内容 ,测试耳机识别情况 。
b) 按照公式(A. 1)计算在安静环境下的语音识别准确率 :
P X 100% … … … … … … … … … … 式中 :
P2— 语音识别词准确率 ;
S — 替换(错误)的字数 ;
D — 删除(遗漏)的字数 ;
I — 插入(增加)的字数 ;
N — 测试语音总字数 。
c) 在噪声环境下 ,对耳机输入平均声压级为 60 dB的不同语音内容 ,测试耳机识别情况 。
d) 按照公式(A. 1)计算在噪声环境下的语音识别准确率 。
A.2. 1. 1.2 触控信息
触控准确率应按照下列测试方法进行 :
a) 对耳机进行多次其能够实现的触控操作 ,测试耳机执行情况 ;
b) 按照公式(A. 2)计算触控操作的准确率 。
P X 100% … … … … … … … … … … ( A. 2 )
式中 :
P3— 触控操作准确率 ;
N1— 触控操作正确响应次数 ;
N2— 总测试次数 。
A.2. 1.2 设备信息感知
A.2. 1.2. 1 软硬件状态
通过语音指令 、导出 日志 、直接读取等方法查询耳机的软硬件状态 ,如电量 、充电状态 、连接状态 、系统版本等 ,测试耳机能否反馈正确信息 。
A.2. 1.2.2 任务状态
通过语音指令 、导出 日志 、直接读取等方法查询耳机当前任务运行状态及其变化情况 ,测试耳机能否反馈正确信息 。
A.2. 1.3 环境信息感知
网络信息测试方法为 :输入天气 、地理位置等环境信息的查询指令 ,测试耳机能否反馈正确信息 。
A.2.2 认知
A.2.2. 1 理解
A.2.2. 1. 1 单个简单指令理解能力
采用场景化测试方法 ,在场景中测试耳机对单个简单指令的识别和解析能力 。
a) 向耳机输入单个简单指令的语句 。
b) 通过查看日志或者验证耳机是否执行操作的方式 ,测试耳机能否理解指令 。
A.2.2. 1.2 单个简单指令理解响应时间
单个简单指令理解响应时间应按照下列测试方法进行 :
a) 向耳机输入单个简单指令的语句 ,分别测试指令结束时的时间和耳机做出反馈的时间 ,计算时间差 ,得到单次指令响应时间 ;
b) 重复测试 5 次以上 ,取平均值作为单个简单指令的最终响应时间 。
A.2.2.2 推理不涉及 。
A.2.2.3 规划不涉及 。
A.2.3 执行
A.2.3. 1 工具调用
单步骤工具调用采用场景化测试方法 ,在场景中测试耳机单步骤工具调用的能力 。
a) 向耳机输入确定性 、单步骤任务的工具调用指令 ,如接听 、挂断 、播放 、暂停 、打开 App等 。
b) 测试耳机能否正确执行相应操作 。
A.2.3.2 内容生成
不涉及 。
A.2.3.3 互联协同
不涉及 。
A.2.3.4 表达输出
清晰语音输出测试方法 :通过耳机输出不同频率 、不同声压级的语音信息 ,测试耳机能否进行准确 、清晰的内容呈现 。
A.2.4 记忆
A.2.4. 1 短期记忆
不涉及 。
A.2.4.2 长期记忆
不涉及 。
A.3 L2工具级
A.3. 1 感知
A.3. 1. 1 用户信息感知
A.3. 1. 1. 1 语音信息
A.3. 1. 1. 1. 1 语音唤醒准确率应按照下列测试方法进行 。
a) 在安静环境下 ,对耳机输入平均声压级为 60 dB的唤醒词 ,测试耳机被唤醒的情况 。
b) 按照公式(A. 3)计算在安静环境下的语音唤醒准确率 :
P X 100% … … … … … … … … … … ( A. 3 )
式中 :
P1— 唤醒准确率 ;
N1— 设备被唤醒次数 ;
N2— 总测试次数 。
c) 在噪声环境下 ,对耳机输入平均声压级为 60 dB唤醒词 ,测试耳机被唤醒的情况 。
d) 按照公式(A. 3)计算在噪声环境下的语音唤醒准确率 。
A.3. 1. 1. 1.2 语音识别准确率测试方法同 A. 2. 1. 1. 1。
A.3. 1. 1.2 触控信息
测试方法同 A. 2. 1. 1. 2。
A.3. 1.2 设备信息感知
A.3. 1.2. 1 软硬件状态
测试方法同 A. 2. 1. 2. 1。
A.3. 1.2.2 任务状态
测试方法同 A. 2. 1. 2. 2。
A.3. 1.2.3 佩戴状态
改变耳机佩戴状态 ,如佩戴耳机 、取下耳机等 ,测试耳机能否准确检测到佩戴状态的变化 。
A.3. 1.3 环境信息感知
A.3. 1.3. 1 网络信息
测试方法同 A. 2. 1. 3。
A.3. 1.3.2 环境声音
改变耳机的环境声音及外部噪声 ,测试耳机能否反馈对环境声音的识别情况 。
A.3. 1.3.3 定向拾音
定向拾音应按照下列测试方法进行 :
a) 在耳机定向拾音的目标方向播放音频信息 ,测试耳机接收声音的强度和清晰度 ;
b) 在至少 2个不同角度播放同样声压级 、同样内容的音频信息 ,测试耳机接收声音的强度和清晰度 ;
c) 对比 a)和 b)接收的声音 ,判断强度和清晰度是否有明显差别 。
A.3.2 认知
A.3.2. 1 理解
A.3.2. 1. 1 单个简单指令测试方法同 A. 2. 2. 1。
A.3.2. 1.2 复杂指令
采用场景化测试方法 ,在场景中测试耳机对复杂指令的识别和解析能力 。
a) 向耳机输入复杂指令 。
b) 通过查看日志或者验证耳机是否执行操作的方式 ,测试耳机能否理解指令 。
A.3.2. 1.3 简单意图
采用场景化测试方法 ,在场景中测试耳机对简单意图的识别和解析能力 。
a) 向耳机输入包含简单意图的指令 。
b) 通过查看日志或者验证耳机是否执行操作的方式 ,测试耳机能否理解指令 。
A.3.2.2 推理
单步或简单链式推理采用场景化测试方法 ,在场景中测试耳机单步或简单链式推理的能力 。
a) 向耳机输入需要单步推理或简单链式推理的指令 ,指令类型可涵盖典型推理类型(如演绎 、归纳 、类比) 。
b) 测试耳机能否执行相应的操作并反馈正确结果 。
A.3.2.3 规划不涉及 。
A.3.3 执行
A.3.3. 1 工具调用
A.3.3. 1. 1 单步骤工具调用测试方法同 A. 2. 3. 1。
A.3.3. 1.2 多步骤工具调用
采用场景化测试方法 ,在场景中测试耳机多步骤工具调用的能力 。
a) 向耳机输入需要进行多步骤工具调用的任务指令 。
b) 测试耳机能否正确执行相应操作并输出预期结果 。
A.3.3.2 内容生成
A.3.3.2. 1 语音生成
语音生成能力应按照 GB/T 45288. 2—2025 中 A. 2 的测试方法 ,得到 MOS。
A.3.3.2.2 文本生成
文本生成能力应按照 GB/T 45288. 2—2025 中 A. 2 的测试方法 ,得到 MOS。
A.3.3.3 互联协同
多设备连接应按照下列测试方法进行 :
a) 将耳机与两个不同设备同时连接 ;
b) 执行需要切换设备的任务 ,测试耳机能否完成设备切换 。
A.3.3.4 表达输出
A.3.3.4. 1 清晰语音输出测试方法同 A. 2. 3. 4。
A.3.3.4.2 主动噪声控制
A.3.3.4.2. 1 主动降噪能力
主动降噪能力应按照下列测试方法进行 :
a) 佩戴耳机 ,关闭降噪功能 ,在噪声环境中播放音频 ,测试通过耳机输出的音频 ;
b) 佩戴耳机 ,打开降噪功能 ,在相同的噪声环境中播放相同音频 ,测试通过耳机输出的音频 ;
c) 对比 a)和 b)两种音频 ,根据所听到噪声是否有明显差距判断是否具备主动降噪能力 。 A.3.3.4.2.2 环境降噪能力
环境降噪能力应按照下列测试方法进行 :
a) 在噪声环境中 ,使用耳机发起通话任务 ,通过耳机输入人声 ,记录包含噪声和人声的音频 ;
b) 在通话接收方测试通过耳机输入的音频信号 ;
c) 对比 a)和 b)两种音频 ,根据所听到噪声是否有明显差距判断是否具备环境降噪能力 。
A.3.4 记忆
A.3.4. 1 短期记忆
采用场景化测试方法 ,在场景中测试耳机单会话上下文记忆的能力 。
a) 执行多轮对话测试任务 ,输入包含前文指代 、省略 、上下文依赖等语言内容 。
b) 测试耳机能否结合前一轮及当前语义信息作出连贯回应 。
A.3.4.2 长期记忆
不涉及 。
A.4 L3辅助级
A.4. 1 感知
A.4. 1. 1 用户信息感知
A.4. 1. 1. 1 语音信息
测试方法同 A. 3. 1. 1. 1。
A.4. 1. 1.2 触控信息
测试方法同 A. 2. 1. 1. 2。
A.4. 1. 1.3 头部姿态信息
在佩戴耳机的状态下 ,改变头部姿态 ,测试耳机能否正确识别用户的头部姿态变化并做出反馈 。
A.4. 1.2 设备信息感知
A.4. 1.2. 1 软硬件状态
测试方法同 A. 2. 1. 2. 1。
A.4. 1.2.2 任务状态
测试方法同 A. 2. 1. 2. 2。
A.4. 1.2.3 佩戴状态
测试方法同 A. 3. 1. 2. 3。
A.4. 1.3 环境信息感知
A.4. 1.3. 1 网络信息
测试方法同 A. 2. 1. 3。
A.4. 1.3.2 环境声音
测试方法同 A. 3. 1. 3. 2。
A.4. 1.3.3 定向拾音
测试方法同 A. 3. 1. 3. 3。
A.4. 1.3.4 设备位置
通过主设备查找耳机位置 ,测试能否正确执行查找指令 。
A.4.2 认知
A.4.2. 1 理解
A.4.2. 1. 1 单个简单指令测试方法同 A. 2. 2. 1。
A.4.2. 1.2 复杂指令
测试方法同 A. 3. 2. 1. 2。
A.4.2. 1.3 简单意图
测试方法同 A. 3. 2. 1. 3。
A.4.2. 1.4 复杂意图
采用场景化测试方法 ,在场景中测试耳机对复杂意图的识别和解析能力 。
a) 向耳机输入包含复杂意图的指令 。
b) 通过查看日志或者验证耳机是否执行操作的方式 ,测试耳机能否理解指令 。
A.4.2. 1.5 意图澄清
采用场景化测试方法 ,在场景中测试耳机是否具有意图澄清能力 。
a) 向耳机输入意图模糊的指令 。
b) 测试耳机能否进一步通过询问澄清用户意图 。
A.4.2. 1.6 感知融合理解
采用场景化测试方法 ,在场景中测试耳机的融合理解能力 。
a) 向耳机输入需要同时理解两种以上信息的任务指令 。
b) 通过查看日志或者验证耳机是否执行操作的方式 ,测试耳机能否理解指令 。
A.4.2.2 推理
A.4.2.2. 1 单步或简单链式推理
测试方法同 A. 3. 2. 2。
A.4.2.2.2 复杂链式推理
采用场景化测试方法 ,在场景中测试耳机复杂链式推理的能力 。
a) 向耳机输入深度研究等需要复杂链式推理的指令 ,指令类型可涵盖典型推理类型(如演绎 、归纳 、类比) 。
b) 测试耳机能否执行相应的操作并反馈正确结果 。
A.4.2.3 规划
采用场景化测试方法 ,在场景中测试耳机进行任务分级和编排任务执行序列的能力 。
a) 向耳机输入需要多步骤完成的任务指令 。
b) 测试耳机能否分解任务 、编排任务执行序列 。
A.4.3 执行
A.4.3. 1 工具调用
A.4.3. 1. 1 单步骤工具调用测试方法同 A. 2. 3. 1。
A.4.3. 1.2 多步骤工具调用测试方法同 A. 3. 3. 1. 2。
A.4.3. 1.3 自动工具调用
采用场景化测试方法 ,在场景中测试耳机自动工具调用的能力 。
a) 向耳机输入需要进行自动工具调用的任务指令 。
b) 测试耳机能否调用正确工具执行用户要求的操作并输出预期结果 。
A.4.3.2 内容生成
A.4.3.2. 1 语音生成
测试方法同 A. 3. 3. 2. 1。
A.4.3.2.2 文本生成
测试方法同 A. 3. 3. 2. 2。
A.4.3.3 互联协同
A.4.3.3. 1 多设备连接
测试方法同 A. 3. 3. 3。
A.4.3.3.2 内容迁移
内容迁移应按照下列测试方法进行 :
a) 将耳机与 A设备连接 ,在 A设备发出执行任务的指令或改变耳机设置 ;
b) 在 A设备执行完成后 ,将耳机与 B设备连接 ,在 B设备查看是否能够看到任务执行情况或耳机设置改变的状态 。
A.4.3.4 表达输出
A.4.3.4. 1 清晰语音输出测试方法同 A. 2. 3. 4。
A.4.3.4.2 主动噪声控制 测试方法同 A. 3. 3. 4. 2。
A.4.3.4.3 自适应降噪
打开耳机自适应降噪相关功能模块 ,在不同环境下或不同耳道结构下测试耳机的降噪功能 ,判断耳机能否在不进行任何操作的情况下 , 自动选择不同的降噪深度或降噪模式 。
A.4.4 记忆
A.4.4. 1 短期记忆
测试方法同 A. 3. 4. 1。
A.4.4.2 长期记忆
内容长期记忆采用场景化测试方法 ,在场景中测试耳机内容长期记忆的能力 。
a) 在不同时间与耳机进行会话 ,会话轮次不少于 10轮次 。
b) 间隔 24h后 ,在同一话题下与耳机进行会话 ,提及用户会话历史等信息 ,测试耳机是否结合之前信息以及当前语义做出连贯回应 。
c) 向耳机注入用户偏好信息 。
d) 向耳机输入涉及注入信息内容的任务指令或意图 ,验证耳机能否基于长期记忆内容完成任务执行 。
附 录 B (资料性)
典型应用场景
表 B. 1列举了智能耳机的部分典型应用场景 。
表 B. 1 典型应用场景清单
表 B. 1 典型应用场景清单 (续)
表 B. 1 典型应用场景清单 (续)
表 B. 1 典型应用场景清单 (续)
表 B. 1 典型应用场景清单 (续)
参 考 文 献
[1] GB/T 21023—2007 中文语音识别系统通用技术规范
[2] GB/T 21024—2007 中文语音合成系统通用技术规范
[3] GB/T 41867—2022 信息技术 人工智能 术语

评论