团 体 标 准
T/TAF 254—2024
移动智能终端 AI 能力评估方法
AI capability evaluation method for smart mobile terminals
2024-11-01 发布 2024-11-01 实施
电信终端产业协会 发布
前 言
本文件按照 GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由电信终端产业协会提出并归口。
本文件起草单位:中国信息通信研究院、荣耀终端有限公司、OPPO广东移动通信有限公司、华为终端有限公司、维沃移动通信有限公司、小米通讯技术有限公司、珠海市魅族科技有限公司、高通无线通信技术(中国)有限公司、翱捷科技股份有限公司、北京三星通信技术研究有限公司、中兴通讯股份有限公司、紫光展锐(上海)科技有限公司、博鼎实华 (北京)技术有限公司。
本文件主要起草人:翟梦冉、张沛、祖廷伟、聂大伟、曾勇波、李辰淑、袁蔚、李根、麦睿楷、罗敏、王健宇、刘跃、高立发、于磊、王江胜、朱景鹏、杨帆、刁浩然、张宇超、李维成、龙迪、吴越、张宏伟、高斌、李丛蓉、刘妍、李一冉、王轶哲。
移动智能终端 AI 能力评估方法
1 范围
本文件规定了移动智能终端AI能力评估方法。
本文件适用于支持大模型应用的手机等移动智能终端。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
T/TAF 255—2024 智能终端大模型应用评估规范
3 术语和定义
下列术语和定义适用于本文件。
3.1
人工智能 Artificial Intelligence
表现出人类智能(如推理和学习)相关的各种功能的功能单元和能力。
3.2
大模型 Large Model
指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个及以上的参数。
其中大型模型 :通常包含数十亿((10^9))到数百亿 ((10^{10})) 的参数。超大型模型 :通常包含数千亿((10^{11}))甚至更多的参数。
3.3
PR曲线 Precision-Recall Curve
评估分类模型性能的一种图表,横轴是召回率,纵轴是精确度。
3.4
意图式人机交互 Intent-based UI
通过理解用户的意图来提供更自然和高效的交互体验。
3.5
跨设备融合 cross-device integration
基于共享服务管理框架、跨设备协同决策中心,针对用户互联设备和单设备正在使用的服务向用户提供意图识别能力,实现能力开放与生态接入。
3.6
智能体 AI Agent
智能体,即人工智能(AI)代理是一个软件程序,它具备独立记忆,能够接受用户指令,可以与环境互动、收集数据,通过分析和学习这些数据执行自我决定的任务以满足预定的目标。终端智能体通过与软件、硬件、服务之间的交互,完成复杂任务,可以充当新的“服务入口”,基于相关信息向终端用户推荐服务(应用) 。
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
AP:平均精度(Average Precision)
ASR:语音识别(Automatic Speech Recognition)
CV:计算机视觉(Computer Vision)
IOU: 交并比(Intersection over Union)
NLP: 自然语言处理(Natural Language Processing)
NLU: 自然语言理解(Natural Language Understanding)
OCR:光学字符识别(Optical Character Recognition)
POI: 兴趣地点(Point of Interest)
TTS:语音合成(Text To Speech)
5 评估框架
移动智能终端AI能力评估框架见表1。
表1 评估框架
表1 评估框架(续)
6 端侧大模型
6.1 端侧大语言模型
6.1.1 模型体积
相近参数规模下,依照T/TAF 255—2024第7.1节中的方法进行测试。
6.1.2 内存占用
相近参数规模下,依照T/TAF 255—2024第7.2节中的方法进行测试。
6.1.3 响应时间
相近参数规模下,依照T/TAF 255—2024第7.3节中的方法进行测试首词响应时间、出词速率。
6.2 端侧 CV 模型
6.2.1 模型体积
相近参数规模下,依照T/TAF 255—2024第7.1节中的方法进行测试。
6.2.2 内存占用
相近参数规模下,依照T/TAF 255—2024第7.2节中的方法进行测试。
6.2.3 响应时间
相近参数规模下,依照T/TAF 255—2024第7.3节中的方法进行测试出图速率。
7 AI 基础能力
7.1 语言处理能力
7.1.1 ASR 能力
7.1.1.1 客观指标
7.1.1.1.1 字符错误率
分别在无背景噪声的安静场景和包含可控背景噪声的噪声场景下,输入ASR客观测试数据集,使被测设备的ASR功能进行识别并获取识别结果,记录原字符串的长度、替换掉的字符数量、删除掉的字符数量、额外插入的字符数量。按照公式(1)分别计算在安静场景和噪声场景下的字符错误率CER。
CER (1)
式中:
N——原字符串的长度;
S——为替换掉的字符数量;
D——删除掉的字符数量;
I——额外插入的字符数量。
7.1.2 TTS 能力
7.1.2.1 主观指标
7.1.2.1.1 发音
输入TTS主观测试数据集,使被测设备的TTS功能合成语音。通过主观MOS打分,对生成语音的发音清晰度、准确性、错/漏读进行打分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表2所示。
表2 TTS能力的发音主观评分标准
7.1.2.1.2 自然度
输入TTS主观测试数据集,使被测设备的TTS功能合成语音。通过主观MOS打分,对生成语音的语音语调自然度进行打分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表3所示。
表3 TTS能力的自然度主观评分标准
7.1.2.1.3 感情化
输入TTS主观测试数据集,使被测设备的TTS功能合成语音。通过主观MOS打分,对生成语音的感情化表现力和合理性进行打分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表4所示。
表4 TTS能力的感性化主观评分标准
7.1.3 NLU 能力
7.1.3.1 客观指标
7.1.3.1.1 BLEU
输入NLU客观测试数据集,使被测设备将该自然语言文本自动翻译成另一种自然语言文本。依照T/TAF 255-2024第7.1.4.3.2节中的方法计算BLEU。
7.1.3.2 主观指标
7.1.3.2.1 忠实度
输入NLU主观测试数据集,测试文本应包含简单句和复合句,使被测设备将该自然语言文本自动翻译成另一种自然语言文本。通过主观MOS打分,判断译文是否忠实地表达了原文的内容。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表5所示。
表5 语言翻译忠实度主观评分标准
7.1.3.2.2 流畅度
输入NLU主观测试数据集,测试文本应包含简单句和复合句,使被测设备将该自然语言文本自动翻译成另一种自然语言文本。通过主观MOS打分,判断译文是否流畅和地道。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表6所示。
表6 语言翻译流畅度主观评分标准
7.2 图像处理能力
7.2.1 OCR
7.2.1.1 客观指标
7.2.1.1.1 文本要素误检率
输入OCR客观测试数据集,使用OCR系统进行处理,记录OCR系统在每个图像上的输出结果。统计被测设备在没有文本的图像中错误地检测出文本单元的数量。按照公式(2)计算文本要素误检率FPR。
FPR (2)
式中:
FP——被测设备在没有文本的图像中错误地检测出文本单元的数量;
NNT——无文本图片总数量。
7.2.1.1.2 文本要素漏检率
输入OCR客观测试数据集,使用OCR系统进行处理,记录OCR系统在每个图像上的输出结果。统计被测设备在包含文本的图像中未检出文本单元的数量。按照公式(3)计算文本要素漏检率FNR。
FNR (3)
式中:
FN——被测设备在包含文本的图像中未检出文本单元的数量;
NT——所有样本中包含文本单元总数量。
7.2.1.1.3 F1 Score
输入OCR客观测试数据集,使用OCR系统进行处理,记录OCR系统在每个图像上的输出结果。统计被测设备在包含文本的图像中正确识别的字数。按照公式(4)~(6)计算F1 Score。
Precision (4)
Recall (5)
F (6)
式中:
H——识别正确的字符数量;
NR——识别的字符总数;
NT——测试样本中包含的总字符数。
7.2.2 目标检测
7.2.2.1 客观指标
7.2.2.1.1 精确度
输入目标检测客观测试数据集,使用目标检测系统进行处理。统计真正例数量、假正例数量,用公式(7)计算精确度Precision。
Precision (7)
式中:
TP—— 真正例数量;
FP—— 假正例数量。
7.2.2.1.2 召回率
输入目标检测客观测试数据集,使用目标检测系统进行处理。统计真正例数量、假负例数量,用公式(8)计算召回率Recall。
Precision (8)
式中:
TP—— 真正例数量;
FN—— 假负例数量。
7.2.2.1.3 平均精度
输入目标检测客观测试数据集,使用目标检测系统进行处理。
使系统输出每个检测到的目标的预测框和相应的置信度,根据置信度对预测框进行降序排序。对于每个预测框,计算它与真实框的IOU,即预测框和真实框重叠区域与它们联合区域的比例。设定一个IOU阈值, 当预测框与真实框的IOU大于该阈值时,该预测被认为是真正例,否则被认为是假正例 。按照置
信度从大到小的顺序,计算不同召回率下的精确率值,并绘制PR曲线,计算PR曲线下的面积即为平均精度AP。
7.2.2.1.4 平均精度均值
按照6.2.2.1.1中的测试方法分别计算被测设备目标检测模型能够检测的每个类别的平均精度,并按照如下公式(9)计算平均精度均值mAP。
mAP (9)
式中:
C ——被测设别目标检测模型能够检测的总类别数;
APi——每个类别的平均精度。
7.2.3 图像分类
7.2.3.1 客观指标
7.2.3.1.1 精确度
输入图像分类客观测试数据集,使用图像分类系统进行处理。统计真正例数量、假正例数量,用公式(7)计算精确度Precision。
7.2.3.1.2 召回率
输入图像分类客观测试数据集,使用图像分类系统进行处理。统计真正例数量、假负例数量,用公式(8)计算召回率Recall。
7.2.3.1.3 F1 Score
输入图像分类客观测试数据集,使用图像分类系统进行处理。基于6.2.3.1.1、6.2.3.1.2计算得到的精确度和召回率,用公式(10)计算F1 Score。
F (10)
式中:
Precision ——精确度;
Recall ——召回率。
8 AI 智能服务与应用
8.1 通话辅助
8.1.1 通话摘要
8.1.1.1 功能
检查被测设备设置中是否包含通话摘要相关设置,开启通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话,验证被测设备是否具备自动生成摘要或关键点的功能。
8.1.1.2 客观指标
8.1.1.2.1 响应时间
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要客观数据集进行测试。记录从开始对话到首个有效摘要文字出现的时间,并计算摘要生成的平均速度。
8.1.1.2.2 错误率(关键内容、代办事项)
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要客观数据集进行测试。记录关键内容和代办事项输出结果总条数、输出结果中错误条数,按照公式(11)计算错误率。通过计算关键内容、代办事项的错误率判断所生成的摘要关键内容、代办事项的准确性。
错误率=输出结果中错误条数/输出结果总条数 …………………………(11)
8.1.1.2.3 召回率(关键内容、代办事项)
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要客观数据集进行测试。记录通话中关键内容和代办事项总条数、关键内容和代办事项输出结果总条数,按照公式(12)计算召回率。
召回率=输出结果总条数/关键内容和代办事项总条数 …………………………(12)
8.1.1.2.4 重复率
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要客观数据集进行测试。记录通话中关键内容和代办事项总条数、关键内容和代办事项输出结果中重复内容总条数,按照公式(13)计算重复率。
重复率=输出结果中重复内容总条数/关键内容和代办事项总条数 …………………………(13)
8.1.1.3 主观指标
8.1.1.3.1 一致性
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要主观数据集进行测试。通过主观MOS打分,判断生成的摘要内容是否准确。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表7所示。
表7 通话摘要的一致性主观评分标准
8.1.1.3.2 相关性
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要主观数据集进行测试。通过主观MOS打分,检查生成摘要是否出现原文未提及内容。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表8所示。
表8 通话摘要的相关性主观评分标准
8.1.1.3.3 完整性
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。电话通话中,使用通话摘要主观数据集进行测试。通过主观MOS打分,检查生成摘要的完整程度。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表9所示。
表9 通话摘要的完整性主观评分标准
8.1.1.3.4 可读性
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。使用通话摘要主观数据集进行测试。通过主观MOS打分,检查生成摘要是否易于理解和接受、词语搭配是否正确。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表10所示。
表10 通话摘要的可读性主观评分标准
8.1.1.3.5 连贯性
开启被测设备通话摘要功能,通过拨打电话的方式与另一终端设备进行正常通话。使用通话摘要主观数据集进行测试。通过主观MOS打分,检查生成摘要的语法是否连贯、上下文是否流畅。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表11所示。
表11 文章摘要的连贯性主观评分标准
8.1.2 实时翻译
8.1.2.1 客观指标
8.1.2.1.1 语种支持数
打开实时翻译设置界面,记录支持的实时翻译语种类型数。
8.1.2.1.2 响应时间
开启被测设备实时翻译功能,通过拨打电话的方式与另一终端设备进行正常通话,近端和远端使用被测设备支持的不同语种进行通话。电话通话中,使用实时翻译客观数据集进行测试。记录对端语音结束时刻为 te ,记录开始进行语音翻译的时刻为 tr ,记录通话字数n,用公式(14)计算响应时间。
t (14)
8.1.2.1.3 BLEU
开启被测设备实时翻译功能,通过拨打电话的方式与另一终端设备进行正常通话,近端和远端使用被测设备支持的不同语种进行通话。 电话通话中, 使用实时翻译客观数据集进行测试。依照T/TAF 255-2024第7.1.4.3.2节中的方法计算BLEU。
8.1.2.2 主观指标
8.1.2.2.1 忠实度
开启被测设备实时翻译功能,通过拨打电话的方式与另一终端设备进行正常通话,近端和远端使用被测设备支持的不同语种进行通话。 电话通话中,使用实时翻译主观数据集进行测试。通过主观MOS打分,判断译文是否忠实地表达了原文的内容。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表12所示。
表12 实时翻译忠实度主观评分标准
8.1.2.2.2 流畅度
开启被测设备实时翻译功能,通过拨打电话的方式与另一终端设备进行正常通话,近端和远端使用被测设备支持的不同语种进行通话。 电话通话中,使用实时翻译客观数据集进行测试。通过主观MOS打分,判断译文是否流畅和地道。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表13所示。
表13 实时翻译流畅度主观评分标准
8.2 文本处理
8.2.1 文章摘要
8.2.1.1 客观指标
8.2.1.1.1 ROUGE-N
输入文本处理客观测试数据集,使被测设备生成文章摘要。依照T/TAF 255-2024第7.1.1.3.1节中的方法,将模型生成的结果和标准结果按n-gram拆分后,得到召回率,计算Rouge-N,评估生成文本与参考文本之间的相似度。
8.2.1.2 主观指标
8.2.1.2.1 一致性
输入文本处理主观测试数据集,使被测设备生成文章摘要。通过主观MOS打分,判断生成的摘要内容是否准确。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表14所示。
表14 文章摘要的一致性主观评分标准
8.2.1.2.2 相关性
输入文本处理主观测试数据集,使被测设备生成文章摘要。通过主观MOS打分,检查生成摘要是否出现原文未提及内容。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表15所示。
表15 文章摘要的相关性主观评分标准
8.2.1.2.3 完整性
输入文本处理主观测试数据集,使被测设备生成文章摘要。通过主观MOS打分,检查生成摘要的完整程度。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表16所示。
表16 文章摘要的完整性主观评分标准
8.2.1.2.4 可读性
输入文本处理主观测试数据集,使被测设备生成文章摘要。通过主观MOS打分,检查生成摘要是否易于理解和接受、词语搭配是否正确、上下文是否连贯流畅。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表17所示。
表17 文章摘要的可读性主观评分标准
8.2.1.2.5 精简性
输入文本处理主观测试数据集,使被测设备生成文章摘要。通过主观MOS打分,检查生成摘要表达是否简洁明了,避免使用复杂或冗长的句子。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表18所示。
表18 文章摘要的精简性主观评分标准
8.2.2 文本意图识别
8.2.2.1 客观指标
8.2.2.1.1 准确率
输入文本意图识别客观测试数据集,经被测设备识别文本中的信息,记录在每条文本的意图识别的结果。分别针对地址信息识别、快递单号识别、航班信息识别、列车车次识别、时间信息识别,统计被测设备正确识别的用户意图的次数、总文本条数,照式公式(15)计算准确率。
Accuracy (15)
式中:
Nture——正确答案的次数;
NTol ——总问题数。
8.2.2.1.2 召回率
输入文本意图识别客观测试数据集,经被测设备识别文本中的信息,记录在每条文本意图识别的结果。分别针对地址信息识别、快递单号识别、航班信息识别、列车车次识别、时间信息识别,统计被测设备正确识别的用户意图的次数、各种信息的文本条数,照式公式(16)计算召回率。
Recall (16)
式中:
TP——正确预测的该类意图的条数;
FN——没有识别出该类意图或错误识别该类意图的条数。
8.2.2.1.3 F1 Score
输入文本意图识别客观测试数据集,经被测设备识别文本中的信息,记录在每条文本意图识别的结果。分别针对地址信息识别、快递单号识别、航班信息识别、列车车次识别、时间信息识别,统计被测
设备正确识别的用户意图的次数、各种信息的文本条数,照式公式(16)~(18)计算 F1 Score。
Precision (17)
F x100% (18)
式中:
TP——正确预测的该类意图的条数;
FP——将不相关样本识别为该类意图的条数。
8.2.3 文本生成
8.2.3.1 客观指标
8.2.3.1.1 意图理解准确率
输入文本生成客观测试数据集,使被测设备生成文本。判断生成的文本是否能够正确理解用户的意图和文本生成需求,并生成对应的结果。根据公式(19)计算意图理解准确率。
W x100% + 0.8x x100% (19)
式中:
S——测试服务数量;
S1——精准理解的生成文本数量;
S2——模糊理解的生成文本数量。
8.2.3.2 主观指标
8.2.3.2.1 正确性
输入文本生成主观测试数据集,使被测设备生成文本。通过主观MOS打分,检查生成文本是否符合已有的社会普遍认知、公序良俗、价值判断。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表19所示。
表19 文本生成的正确性主观评分标准
8.2.3.2.2 相关性
输入文本生成主观测试数据集,使被测设备生成文本。通过主观MOS打分,检查生成文本与文本生成需求所表达的意图是否相关。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表20所示。
表20 文本生成的相关性主观评分标准
8.2.3.2.3 可读性
输入文本生成主观测试数据集,使被测设备生成文本。通过主观MOS打分,检查生成文本是否易于理解和接受、词语搭配是否正确。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表21所示。
表21 文本生成的可读性主观评分标准
8.2.3.2.4 逻辑性
输入文本生成主观测试数据集,使被测设备生成文本。通过主观MOS打分,检查生成文本上下文逻辑是否合理,与现有事实比较逻辑是否合理。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表22所示。
表22 文本生成的逻辑性主观评分标准
8.2.4 文本问答
8.2.4.1 客观指标
8.2.4.1.1 准确率
输入文本问答客观测试数据集,经被测设备进行文本问答。记录被测设备返回正确答案的次数、总问题数,按照公式(20)计算准确率。
Accuracy (20)
式中:
Nture——正确答案的次数;
NTol ——总问题数。
8.2.4.1.2 召回率
输入文本问答客观测试数据集,经被测设备进行文本问答。记录被测设备返回正确答案的次数、错误回答和未有效回答次数,按照公式(21)计算召回率。
Recall (21)
式中:
TP——正确答案的次数;
FN——错误回答和未有效回答次数。
8.2.4.1.3 响应时间
输入文本问答客观测试数据集,经被测设备进行文本问答。记录系统接收到问题的完整输入的时间点 T输出答案、系统输出答案结束的时间点T输入问题,按照公式(22)计算响应时间T响应时间。
T 响应时间=T 输出答案-T 输入问题 …………………………(22)
式中:
T输出答案——被测设备接收到问题的完整输入的时间点;
T输入问题 ——被测设备输出答案结束的时间点。
8.2.4.2 主观指标
8.2.4.2.1 正确性
输入文本问答主观测试数据集,经被测设备进行文本问答。通过主观MOS打分,检查生成回答是否符合已有的社会普遍认知、公序良俗、价值判断。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表23所示。
表23 文本问答的正确性主观评分标准
8.2.4.2.2 相关性
输入文本问答主观测试数据集,经被测设备进行文本问答。通过主观MOS打分,检查生成回答与问题需求所表达的意图是否相关。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表24所示。
表24 文本问答的相关性主观评分标准
8.2.4.2.3 可读性
输入文本问答主观测试数据集,经被测设备进行文本问答。对返回的答案的可读性进行主观评分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表25所示。
表25 文本问答的可读性主观评分标准
8.3 图像处理与生成
8.3.1 智能消除
8.3.1.1 主观指标
8.3.1.1.1 视觉质量
输入图像消除主观测试数据集,使被测设备生成智能消除后的图片。通过主观MOS打分,检查经过智能消除,补全后的图像整体在颜色、清晰度、噪点等方面对图片整体质量的影响。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表26所示。
表26 智能消除的视觉质量主观评分标准
8.3.1.1.2 结构完整性
输入图像消除主观测试数据集,使被测设备生成智能消除后的图片。通过主观MOS打分,检查经过智能消除,补全后区域元素的完整性以及结构、纹理等方面对图片整体质量的影响。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表27所示。
表27 智能消除的结构完整性主观评分标准
8.3.1.1.3 语义连贯性
输入图像消除主观测试数据集,使被测设备生成智能消除后的图片。通过主观MOS打分,检查经过智能消除,补全后区域的内容,对图片整体意境的影响。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表28所示。
表28 智能消除的语义连贯性主观评分标准
8.3.1.1.4 边缘细节
输入图像消除主观测试数据集,使被测设备生成智能消除后的图片。通过主观MOS打分,检查经过智能消除,补全后区域的边缘,对图片整体质量的影响。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表29所示。
表29 智能消除的边缘细节主观评分标准
8.3.2 文生图
8.3.2.1 主观指标
8.3.2.1.1 主题契合度
输入文生图主观测试数据集,使被测设备生成对应图像。通过主观MOS打分,检查生成的图像与给定文字描述在主题上的匹配程度 。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表30所示。
表30 文生图的主题契合度主观评分标准
8.3.2.1.2 构图合理性
输入文生图主观测试数据集,使被测设备生成对应图像。通过主观MOS打分,检查生成的图像与给定文字描述在主题上的匹配程度 。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表31所示。
表31 文生图的构图合理性主观评分标准
8.3.3 智能抠图
8.3.3.1 客观指标
8.3.3.1.1 无主体图抠图率
输入智能抠图客观测试数据集,经过被测设备进行智能抠图处理。记录测试样本总数、被抠图数量,计算无主体图中被抠图数量占测试样本总数的比例,即无主体图抠图率。
8.3.3.1.2 有主体图识别率
输入智能抠图客观测试数据集,经过被测设备进行智能抠图处理。记录测试样本总数、被抠图数量,计算被抠图数量占测试样本总数的比例, 即有主体识别率。
8.3.3.2 主观指标
8.3.3.2.1 边缘处理
输入智能抠图主观测试数据集,经过被测设备进行智能抠图处理。针对抠图边缘检测的准确性、清晰度、边缘过度效果进行主观MOS打分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表32所示。
表32 智能抠图的边缘处理主观评分标准
8.3.3.2.2 图像一致性
输入智能抠图主观测试数据集,经过被测设备进行智能抠图处理。针对图像经过抠图、填充后的色彩、明度、透明度等与原图的一致程度,进行主观MOS打分。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表33所示。
表33 智能抠图的图像一致性主观评分标准
8.3.4 图像风格化
8.3.4.1 主观指标
8.3.4.1.1 效果自然度
输入图像风格化主观测试数据集,使被测设备生成图像风格化后的图片。通过主观MOS打分,检查经过图像风格化后,风格化效果是否自然、合理、和谐。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表34所示。
表34 图像风格化的效果自然度主观评分标准
8.3.4.1.2 效果相似度
输入图像风格化主观测试数据集,使被测设备生成图像风格化后的图片。通过主观MOS打分,检查经过图像风格化后,风格效果是否与目标风格相似,是否与原图的关键特征(如: 主体、轮廓、形状、位置、结构等)相似。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表35所示。
表35 图像风格化的效果相似度主观评分标准
8.3.4.1.3 图像质量
输入图像风格化主观测试数据集,使被测设备生成图像风格化后的图片。通过主观MOS打分,检查经过图像风格化后, 图像细节丰富程度和画质清晰程度。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表36所示。
表36 图像风格化的图像质量主观评分标准
8.3.5 AI 扩图
8.3.5.1 主观指标
8.3.5.1.1 图像质量
输入AI扩图主观测试数据集,使被测设备生成图像扩展化后的图片。通过主观MOS打分,检查经过AI扩图,扩展后的图像整体像质一致性和衔接质量情况。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表37所示。
表37 AI扩图的图像质量主观评分标准
8.3.5.1.2 语义连贯性
输入AI扩图主观测试数据集,使被测设备生成图像扩展化后的图片。通过主观MOS打分,检查经过AI扩图,整体视觉效果是否连贯,是否突兀或不协调的区域。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表38所示。
表38 AI扩图的语义连贯性主观评分标准
8.3.6 图片问答
8.3.6.1 主观指标
8.3.6.1.1 相关性
输入图片问答主观测试数据集,使被测设备给出文字答案。通过主观MOS打分,检查回答与图片的主题或问题是否有关联。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表39所示。
表39 图片问答的相关性主观评分标准
8.3.6.1.2 准确性
输入图片问答主观测试数据集,使被测设备给出文字答案。通过主观MOS打分,检查是否符合问题的要求,是否有错误或遗漏或无用的信息。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表40所示。
表40 图片问答的准确性主观评分标准
8.3.6.1.3 语义连贯性
输入图片问答主观测试数据集,使被测设备给出文字答案。通过主观MOS打分,检查生成的回复前后文的关联性、逻辑性。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表41所示。
表41 图片问答的语义连贯性主观评分标准
8.3.6.1.4 可读性
输入图片问答主观测试数据集,使被测设备给出文字答案。通过主观MOS打分,检查生成回复是否易于理解和接受、词语搭配是否正确,语义是否连贯。采用多人评分,全部测试完成后,计算MOS平均值。单人评分标准如表42所示。
表42 图片问答的可读性主观评分标准
8.4 信息管理
8.4.1 图片/视频语义搜索
8.4.1.1 功能
检查被测设备是否具备语义检索本地图片/视频功能。即是否能够通过语音、文字等自然语言形式,查找本地特定图像/视频,无需在相册浏览大量照片, 即可找到对应的照片内容。
8.4.1.2 客观指标
8.4.1.2.1 准确率
开启被测设备语义检索功能。输入图片/视频语义搜索客观测试数据集,使用用户自然语言描述在设备上搜索图片/视频,统计检索内容中符合用户自然语言描述的图片/视频数量,按照公式(23)计算准确率。
Accuracy=Nture/ Ntotal …………………………(23)
式中:
Nture ——正确检索的图片/视频数量;
Ntotal ——图片/视频样本总数。
8.4.1.2.2 召回率
开启被测设备语义检索功能。输入图片/视频语义搜索客观测试数据集,使用用户自然语言描述在设备上搜索图片/视频,统计检索内容中符合用户自然语言描述的图片/视频数量,按照公式(24)计算召回率。
Recall=Nture/ Npredict …………………………(24)
式中:
Nture ——正确检索的图片/视频数量;
Npredict——预期能正确检索的总合数。
8.4.1.2.3 响应时间
开启被测设备语义检索功能。在保证图像/视频样本内容、数量等一致的前提下进行测试,记录语义检索开始时刻为ts ,记录语义检索结束的时刻为te ,按照公式(25)计算响应时间T。
T= te -ts …………………………(25)
式中:
te——语义检索结束的时刻;
ts——语义检索开始时刻。
8.4.2 文本语义搜索
8.4.2.1 客观指标
8.4.2.1.1 准确率
开启被测设备语义检索功能。输入文本语义搜索客观测试数据集,使用用户自然语言描述在设备上搜索本机文本内容,统计检索内容中符合用户自然语言描述的数量,按照公式(26)计算准确率。
Accuracy=Nture/Ntotal …………………………(26)
式中:
Nture ——正确检索的文本内容的数量;
Ntotal——文本内容样本总数。
8.4.2.1.2 召回率
开启被测设备语义检索功能。输入文本语义搜索客观测试数据集,使用用户自然语言描述在设备上搜索本机文本内容,统计检索内容中符合用户自然语言描述的数量,按照公式(27)计算召回。
Recall =Nture/Npredict …………………………(27)
式中:
Nture ——正确检索的文本内容的数量;
Npredict——预期能正确检索的总合数。
8.4.2.1.3 响应时间
开启被测设备语义检索功能。在保证文本样本内容、数量等一致的前提下进行测试,记录语义检索开始时刻为ts,记录语义检索结束的时刻为te,按照公式(25)计算响应时间T。
9 智能人机交互
9.1 意图识别人机交互
9.1.1 人机交互方式
意图识别支持语音、文字、图片等多模态输入输出方式,可智能识别用户意图,进行高效推理决策。测试通过语音、文字、图片等方式触发意图识别,记录能够成功识别用户意图的输入方式。
9.1.2 人机交互准确性
通过选择语音、文字、图片等信息,触发业务识别。选择语音、文本、图片目标样本,在各高频场景下进行人机交互测试。通过主观MOS打分,检查识别的业务是否符合预期。采用多人评分,全部测试
完成后,计算MOS平均值。单人评分标准如表43所示。
表43 人机交互准确性主观评分标准
10 智能体
10.1 智能体应用功能
智能体功能包括出行助理智能体、用机助理智能体等。针对智能终端声明支持的每项智能体应用,开展以下能力指标测试。
出行助理智能体是基于人工智能的出行垂类智能体,它可以帮助用户在出行过程中获取和管理信息,提供路线规划、导航指导、交通信息、地点搜索、天气预报等功能,以提升用户的出行体验和效率。
用机助理智能体是基于人工智能的手机使用辅助类智能体,它可以帮助用户更高效地使用手机,例如提供语音指令、应用管理、日程管理、信息查询、设备控制等功能,为用户提供便捷的手机使用辅助服务。
10.2 智能体应用能力
10.2.1 感知能力
检验智能体能够通过系统信息、用户信息、环境信息等多种感知通道,正确理解和处理信息,主动触发对应智能体功能或根据用户指令触发相应调用/优化等功能。
10.2.2 规划推理能力
检验智能体通过对感知信息学习记忆,理解用户意图,进行合理的任务规划、拆解的能力。
使用智能体-目标规划需求数据集作为输入,使被测设备根据需求进行目标设定、步骤规划和资源管理。通过主观MOS打分,评价智能体是否能够明确设定目标、规划出实现目标的具体步骤和行动计划并有效地管理和分配资源 。单人评分标准如表44所示。
表44 规划能力的主观评分标准
10.2.3 工具调用能力
根据规划推理出的用户需求,通过调用接口或SDK等系统或外部工具完成任务执行。评估智能体在使用内置工具或进行外部工具调用时,是否根据任务的具体需求选择合适的工具。当需要调用多种工具时,智能体应能依据用户需求,对工具进行合理编排与调用 。单人评分标准如表45所示。
表45 规划能力的主观评分标准
10.2.4 学习记忆能力
10.2.4.1 短期记忆
评估智能体应用是否具备有效的短期记忆功能,以处理及存储涉及当前对话会话的信息(上下文临时信息), 涉及对话会话期间的信息临时存储与快速检索。
10.2.4.1.1 短期记忆查询准确率
评估查询到的记忆痕迹是否准确。准备总数量为 N 的短期记忆查询需求;与智能体进行对话,逐一提交短期记忆查询需求,并记录智能体的响应;在对话过程中,记录智能体正确记录的信息数量 n。按照公式(28)计算短期记忆的查询准确率。
准确率=*100% …………………………(28)
10.2.4.1.2 短期记忆查询完整性
评估检索到的记忆痕迹是否完整。准备总数量为M的短期记忆查询需求,测试数据集包括对话中的问题、任务; 与智能体进行对话,逐一提交短期记忆查询需求,并记录智能体的响应;在对话过程中,记录智能体完整记录的信息数量m 。按照公式(29)计算短期记忆查询完整性。
完整性=×1009% …………………………(29)
10.2.4.2 长期记忆
评估智能体是否支持长期记忆痕迹检索能力。
准备总数量为 N 的长期记忆查询需求,数据集包括对话中的问题、任务,确保这些查询需求覆盖多知识领域和时间跨度;与智能体进行对话,逐一提交长期记忆查询需求,并记录智能体的响应和检索准确率。
检索准确率:评估检索到的痕迹是否准确,是否与原始输入匹配。按照公式(28)计算准确率。
10.2.5 目标任务完成能力
10.2.5.1 任务执行成功率
智能体在完成一项特定任务时的要求都得到满足并且是成功的,成功率是指成功执行的指令占所有指令的比例。提交智能体操作任务。记录智能体任务完成结果,按照公式(30)计算任务执行成功率F。
F=N/M* 100% …………………………(30)
式中:
F——任务执行成功率;
N——成功执行任务数量;
M——总任务数量。

评论