YY/T 1990-2025 人工智能医疗器械 细胞病理图像辅助分析软件 算法性能测试方法 , 该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
ICS 11. 040. 99
CCS C 30
中华人民共和国医药行业标准
YY/T 1990—2025
2025‑10‑30 发布2026‑11‑01 实施
人工智能医疗器械细胞病理图像辅助
分析软件算法性能测试方法
Artificial intelligence medical device—Computer assisted analysis software for
cytopathologic images—Algorithm performance test methods
国家药品监督管理局发布
YY/T 1990—2025
Ⅰ
目次
前言……………………………………………………………………………………………………………Ⅲ
引言……………………………………………………………………………………………………………Ⅳ
1 范围…………………………………………………………………………………………………………1
2 规范性引用文件……………………………………………………………………………………………1
3 术语和定义…………………………………………………………………………………………………1
4 算法性能测试要求…………………………………………………………………………………………1
5 算法性能测试方法…………………………………………………………………………………………4
附录A(资料性) 测试数据采集和标注示例………………………………………………………………11
参考文献………………………………………………………………………………………………………14
YY/T 1990—2025
前言
本文件按照GB/T 1. 1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由国家药品监督管理局提出。
本文件由人工智能医疗器械标准化技术归口单位归口。
本文件起草单位:中国科学院深圳先进技术研究院、山东省肿瘤医院、中国食品药品检定研究院、国
家药品监督管理局医疗器械技术审评检查大湾区分中心、华中科技大学同济医学院附属协和医院、海军
军医大学第一附属医院(上海长海医院)、哈尔滨血液病肿瘤研究所、深圳高性能医疗器械国家研究院有
限公司、深圳见康智能科技有限公司、玖壹叁陆零医学科技南京有限公司、上海杏脉信息科技有限公司、
上海联影智能医疗科技有限公司、北京透彻未来科技有限公司、北京市医疗器械检验研究院(北京市医用生
物防护装备检验研究中心)、上海市医疗器械检验研究院、北京京津冀国家技术创新中心、西安交通大学。
本文件主要起草人:秦文健、汝昆、刘东戈、赵苗青、李静莉、聂秀、何妙侠、刘宇、魏万旭、蔺亚妮、王辉、
王浩、赫家烨、孟祥峰、狄峰、何川、詹翊强、王美英、王瑞霞、刘重生、罗琳、李辰。
Ⅲ
引言
本文件作为方法标准,主要用于人工智能细胞病理辅助分析软件的算法性能测试,面向细胞病理图
像分割、细胞类型识别等场景。由于本领域的应用范围和技术尚在不断发展中,充分考虑适用性和风险
后提出的新的质量要求和评价方法不受本文件的限制。
YY/T 1990—2025
Ⅳ
1
YY/T 1990—2025
人工智能医疗器械细胞病理图像辅助
分析软件算法性能测试方法
1 范围
本文件描述了采用人工智能技术的细胞病理图像辅助分析软件的算法性能测试方法。
本文件适用于采用人工智能技术对细胞病理图像进行后处理的辅助分析软件。
本文件不适用于细胞病理图像采集、前处理及过程优化类软件。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
YY/T 1833. 1 人工智能医疗器械质量要求和评价第1 部分:术语
YY/T 1833. 2—2022 人工智能医疗器械质量要求和评价第2 部分:数据集通用要求
YY/T 1833. 3 人工智能医疗器械质量要求和评价第3 部分:数据标注通用要求
YY/T 1858—2022 人工智能医疗器械肺部影像辅助分析软件算法性能测试方法
3 术语和定义
YY/T 1833. 1、YY/T 1833. 2—2022、YY/T 1833. 3、YY/T 1858—2022 界定的以及下列术语和定
义适用于本文件。
3. 1
数字病理图像digital pathology image
通过数字传感技术与光学放大装置结合,在全自动显微镜或光学放大系统扫描采集得到的高分辨率
的数字化图像,并能在计算机显示器上观察所扫描的病理玻片图像。
3. 2
压力样本stress sample
在某算法模型的标定范围内,特征容量极大或者极小的样本,以确定算法模型的泛化性能、可靠性、
稳定性。
注:压力样本示例,如复杂细胞病变、异质性病变、稀有数据或引入细胞病理玻片不包含的噪声等病理图像。
[来源:YY/T 1858—2022,3. 8,有修改]
4 算法性能测试要求
4. 1 通则
算法性能测试过程按YY/T 1858—2022 中4. 1 的要求,建立测试文档,给出明确规范的测试计划;如
测试过程需要复测,应限定复测次数的上限(如不超过算法细胞分类数量),以避免算法对参考标准进行
2
YY/T 1990—2025
推测或针对性调优。
4. 2 测试环境
算法性能的测试环境按YY/T 1858—2022 中4. 2 的要求。
4. 3 测试资源
4. 3. 1 测试前数据准备
测试集的质量按YY/T 1833. 2—2022 的要求;测试集应独立于算法训练和调优过程,保证封闭性和
安全性;制造商可根据产品预期用途和临床应用场景,对测试数据进行限定。
在开始算法性能测试前,测试人员应先进行测试前数据准备。测试前数据准备流程见图1。
"A
- "A F
- "A
K "A
K
FK"A
0 >!
+ + K
"A
图1 测试前数据准备流程图
4. 3. 2 测试数据采集
4. 3. 2. 1 图像数据采集
鉴于扫描设备、扫描参数、细胞病理玻片制作等因素对细胞病理图像的数字采集过程产生影响,制造
商应对采集设备、采集过程、人员培训等条件提出要求并建立图像数据采集操作规范。
注1:附录A 中的A. 1 给出了图像数据采集的示例。
注2:细胞病理玻片扫描视野的选择由临床使用阶段细胞病理诊断的实际场景决定。
4. 3. 2. 2 文本数据采集
为确保测试数据的完整性,宜采集和病理图像数据形成唯一映射的患者非敏感临床数据(如细胞病
理玻片编号、年龄、诊断结论等)。
注:A. 2 给出了文本数据采集的示例。
4. 3. 2. 3 数据去标识化和数据合规性
测试数据按YY/T 1833. 2—2022 中4. 1. 2. 1 和4. 1. 2. 2 的要求,提供数据来源的合规性陈述,并保
证数据去标识化、患者隐私安全和患者利益。
注:A. 3 给出了数据去标识化的方法示例。
4. 3. 2. 4 测试数据样本量
算法性能测试过程对样本量的最低要求按照YY/T 1858—2022 中4. 3. 2 的要求进行计算。
注:测试样本量以患者为计算单元。
3
YY/T 1990—2025
4. 3. 2. 5 测试数据多样性
应保证测试数据具有充分的临床代表性,控制数据前瞻性采集和回顾性收集过程导致的偏倚,数据
应覆盖具有通用性的统计维度以验证算法模型效果的普适性,包括:
a) 患者维度,考虑个体差异和地域差异的影响;
b) 疾病构成维度,包括但不限于分型、分级、分期;
c) 场景维度,考虑不同的应用场景,如体检、筛查、门诊、手术和病理医学实验室等;
d) 细胞病理玻片制作维度,考虑不同染色试剂、染色方法、制片设备及制片方法;
e) 设备与配置维度,包括但不限于不同品牌、型号、不同分辨率及不同成像类型的病理成像
设备。
4. 3. 3 测试数据标注
本文件涉及的测试数据在标注时按YY/T 1833. 3 的要求。数据集制造责任方应提供标注规则的来源,
如世界卫生组织(WHO)、国内外公开发表的各类疾病的专家共识或诊断标准,确保标注标签准确、完整。
注:A. 4 给出了测试数据标注的示例。
4. 3. 4 扩增数据
算法性能测试过程中,如有必要产生扩增数据,按YY/T 1858—2022 中4. 3. 4 的要求执行,并且经人
工确认后对扩增数据进行交付使用。
4. 4 测试平台
如使用测试平台进行算法测试,测试平台按YY/T 1858—2022 中4. 4 的要求。
4. 5 测试指标与通过原则
测试人员应根据产品的预期用途、使用场景和算法需求,以及产品的技术特性和风险分析,明确制定
客观和可定量的测试指标。制造商应给出产品相对应各指标的标称值及允差或上下限。
对于产品应用场景测试指标,测试人员应根据产品预期用途和使用场景,确定适用的测试指标:
——若预期用途包含细胞分割和细胞分类两个方面的任务,则应用场景测试应选择适用于细胞病理
图像分割和细胞类型识别两个方面的指标;
——若预期用途仅为细胞分类,则应用场景测试指标应选择适用于评价细胞类型识别的指标。
对于产品算法质量特性指标,测试人员应根据产品的技术特性和风险分析,确定适用的整体评估指
标,作为算法质量特性的判定依据。
算法性能测试通过准则,应包括产品应用场景测试指标和算法质量特性指标。
4. 6 测试流程
测试人员按照YY/T 1858—2022 中4. 6 的要求,根据测试文档开展测试活动,并形成完整的测试
记录。
4. 7 测试结果
测试人员按照YY/T 1858—2022 中4. 7 的要求,形成测试结果的描述文档。
4
YY/T 1990—2025
5 算法性能测试方法
5. 1 算法应用场景的测试方法
5. 1. 1 细胞病理图像分割场景
5. 1. 1. 1 概述
细胞病理图像分割包括区域分割和细胞结构分割两个维度。区域分割是通过人工智能技术训练获
取识别细胞病理图像中正常细胞和疑似病变细胞区域或不同形态的细胞区域,具有自动区域分割的产品
输出的是感兴趣细胞区域分割图(segmentation of region of interest tissue,SROI),SROI 可用于可疑病变
细胞的定位、特定细胞形态和数量占比测量计算和细胞病变程度分析。细胞结构分割(segmentation of
cellular structure,Seg)是指细胞核、细胞膜和细胞质等结构的分割,细胞结构分割结果通常用于细胞数
量、轮廓大小和形态分布等量化指标计算。
5. 1. 1. 2 测试步骤
细胞病理图像分割场景测试的参考标准应满足4. 3. 2 和4. 3. 3 的所有内容后输出的分割标签,测试
人员在测试计划中应说明算法结果和参考标准结果的匹配方式和匹配阈值,匹配方式和匹配阈值的界定
应由产品制造商声称并提供。
在细胞病理图像分割场景下,算法性能测试按如下步骤进行:
a) 向待测算法输入测试集,输出算法结果,算法结果的格式宜与参考标准兼容;
b) 算法分割的目标与参考标准分割的目标性能指标,按5. 1. 1. 3 和5. 1. 1. 4 描述的公式进行评价
指标计算。
注1:以病变区域或目标对象为单元的,整个集合的计算结果取平均值作为最终结果。
注2:以病例为单元的,计算每个病例结果,然后对病例集合的计算结果取平均值作为最终结果。
5. 1. 1. 3 客观相似性评价指标
5. 1. 1. 3. 1 Dice 系数
客观相似性评价指标目标区域采用重合指标来评估分割模型,包括Dice 系数(Dice coefficient,Dice)、
Jaccard 一致性系数(Jaccard similarity coefficient)和平均交并比(mean Intersection Over Union,mIOU)。
Dice 系数表示算法预测出的目标和参考标准相交面积的两倍占两者目标总和的比值,表达式见
公式(1):
Dice =
2×| Spr ∩ Sgt |
| Spr |+| Sgt |
……………………………( 1 )
式中:
Spr——算法分割的目标;
Sgt——参考标准分割的目标。
5. 1. 1. 3. 2 Jaccard 系数
表示算法预测出的目标和参考标准之间的相似系数,用Jaccard 表示,表达式见公式(2):
Jaccard =
| Spr ∩ Sgt |
| Spr ∪ Sgt |
……………………………( 2 )
5
YY/T 1990—2025
5. 1. 1. 3. 3 平均交并比
表达式见公式(3):
mIOU =1k
Σi
= 1
k TPi
TPi + FPi + FNi
……………………………( 3 )
式中:
k ——像素类别;
TP ——真阳性像素数量;
FP ——假阳性像素数量;
FN ——假阴性像素数量。
5. 1. 1. 4 客观差异性评价指标
5. 1. 1. 4. 1 豪斯多夫距离
客观差异性评价指标采用豪斯多夫距离(Hausdorff distance,HD)、平均对称表面距离(average sym⁃
metry surface distance,ASSD),都是基于表面距离的评估指标,用于度量算法预测结果和参考标准分割
的最大差异。
HD 反映算法预测区域与参考标准区域之间的最大不匹配程度,表达式见公式(4):
HD( X,Y )= max {dXY,dYX}= max {max } x ∈ X min y ∈ Y
d ( x,y),max y ∈ Y min x ∈ X
d ( x,y) ………(4)
式中:
HD ( X,Y )——双向豪斯多夫距离;
X ——算法预测区域的分割边界;
Y ——参考标准区域的分割边界;
dXY ——从X 到Y 的单向豪斯多夫距离,用于表征算法预测区域边界到参考标准区域边界的
距离;
dYX ——从Y 到X 的单向豪斯多夫距离,用于表征参考标准区域边界到算法预测区域边界的
距离;
d ( x,y ) ——点x 到点y 的距离,x 和y 分别为X 和Y 中的任意点。
5. 1. 1. 4. 2 平均对称表面距离
用来衡量自动分割区域边界与参考标准区域边界之间的平均距离,用ASSD 表示,表达式见
公式(5):
ASSD( X,Y )=mean{{min } } y ∈ Y
d ( x,y )|x ∈ X ,{min } x ∈ X
d ( y,x )|y ∈ Y …………( 5 )
式中:
d ( x,y )——自动分割区域的边界点x 和参考标准分割区域边界点y 之间的欧氏距离;
mean ——对两个集合的所有距离求均值。
5. 1. 2 细胞类型识别场景
5. 1. 2. 1 概述
细胞类型的识别,包括观察目标细胞的数量及形态的变化,或对某些类型细胞群的量变或质变的准
6
YY/T 1990—2025
确识别,从而辅助医生进行疾病诊断。
细胞类型识别场景测试的参考标准应满足4. 3. 2 和4. 3. 3 的所有内容后输出的细胞标签,测试人员
在测试计划中说明算法输出的细胞分类范围及参考标准的细胞分类范围,以及每一类细胞与参考标准相
比达到的匹配阈值,细胞分类范围及每一种细胞匹配阈值的界定应由产品制造商声称并提供。
5. 1. 2. 2 测试步骤
在细胞类型识别场景下,算法性能测试按如下步骤进行:
a) 细胞类型识别场景的算法输出结果,是以每个分割截取后的细胞图像为维度输出具体的细胞类
型判断结果;
b) 向待测算法输入测试集,输出算法结果,算法结果的格式宜与参考标准兼容;
c) 比较算法预测细胞类型与参考标准分类,输出细胞类型识别的真阳性、假阳性、真阴性、假阴性
结果,构建混淆矩阵。二分类混淆矩阵见表1;
表1 二分类混淆矩阵
参考标准分类
阳性
阴性
算法模型
阳性
真阳性
(true positive,TP)
假阳性
(false positive,FP)
阴性
假阴性
(false negative,FN)
真阴性
(true negative,TN)
d) 本文件涉及的细胞类型识别实际多为多分类问题,建立多分类的混淆矩阵,进一步将多分类实际可
转化为二分类问题,参考标准分类为i 类与其他非i 类别的混淆矩阵简化,见YY/T 1833. 1—2022
表A. 1 和表A. 3;
e) 按照5. 1. 2. 3~5. 1. 2. 6 描述的公式进行评价指标计算。
注: 5. 1. 2. 3~5. 1. 2. 6 描述的公式中,TP、FP、TN、FN 代表的含义是从单个细胞的维度与参考标准比较得出的
结果。
5. 1. 2. 3 精确度
细胞类型识别的精确度用Pre 表示,表达式见公式(6):
Pre = TP
TP + FP × 100% ……………………………( 6 )
5. 1. 2. 4 召回率
细胞类型识别的召回率用Rec 表示,表达式见公式(7):
Rec = TP
TP + FN × 100% ……………………………( 7 )
5. 1. 2. 5 F1度量
F1度量表达式见公式(8):
F1= 2×(Pre× Rec )
Pre + Rec
……………………………( 8 )
7
YY/T 1990—2025
5. 1. 2. 6 平均精度均值
平均精度均值用mAP(mean average precision)表示,表达式见公式(9):
mAP =
Σi
= 1
k
APi
k ……………………………( 9 )
其中AP 的表达式见公式(10):
AP =Σi = 1
n - 1 (ri+ 1- ri) Pinter (ri+ 1 ) ……………………………(10)
式中:
k ——细胞类别的数量;
n ——Rec 采样点的数量;
ri + 1 - ri ——相邻Rec 的宽度;
Pinter (ri+ 1 ) ——第i+1个采样点的Rec对应的Pre;
AP ——Pre⁃Rec 曲线下面积。
5. 2 算法质量特性与测试方法
5. 2. 1 泛化能力
制造商应根据产品预期用途和应用场景,对产品研发使用的训练集与真实世界陌生样本之间的差异
进行分析,形成文档,作为配置测试集的依据。实际测试中,宜参照附录A 示例的数据采集和标注方法建
立多样性与变化性的独立测试集,对算法的泛化能力进行验证。
5. 2. 2 鲁棒性
5. 2. 2. 1 通用要求
制造商应根据产品风险分析、使用限制和临床部署环境特征,评估临床使用阶段各种可能干扰算法
性能的因素,收集真实世界数据或产生仿真数据,组成专用测试集,对算法性能依据5. 1 进行扩展测试,
分析各指标的变化情况,形成鲁棒性研究资料。
5. 2. 2. 2 面向硬件变化的对抗测试方法
测试人员宜考虑病理成像硬件设备兼容性、成像质量变化、细胞病理玻片制作参数变化的多样性等,
收集或模拟生成更多的数字病理图像数据,作为对测试集的扩充以满足多样性要求,验证算法面对病理
成像采集硬件设备的鲁棒性。参数设置宜考虑:光学分辨率、曝光时间、放大倍率、染色剂、染色设备等。
模拟生成的图像数据不应影响标注结论。面向硬件变化的对抗测试方法宜包括:
a) 跨成像设备测试:在不同品牌和型号的病理成像设备上进行测试,包括不同分辨率、不同扫描类
型的设备,以评估算法对于从不同硬件来源的图像数据的处理能力;
b) 成像质量变化测试:改变成像过程中的关键参数设置,如光学分辨率、曝光时间、放大倍率、焦点
位置、图像拼接等,来评估算法对于图像质量变化的适应性,这种测试帮助确定算法在实际应用
中遇到参数设定不一致时的鲁棒性;
c) 细胞病理玻片制作参数变化测试:由于染色剂和染色设备的差异可能对图像产生显著影响,应
通过模拟不同的染色剂和染色设备对图像进行处理,并评估算法处理这些图像的能力,从而测
试算法在面对实验参数变化时的稳定性;
8
YY/T 1990—2025
d) 跨硬件平台测试:测试算法在不同品牌、不同规格的硬件上的表现,包括CPU(中央处理器)、
GPU(图形处理器)、TPU(张量处理器)等不同类型的处理器;
e) 硬件资源限制下的性能:验证算法在不同的资源限制条件下(如内存大小、存储容量、处理速度)
的性能表现;
f) 跨设备兼容性:测试算法在来自不同制造商和不同技术规格的设备上运行的兼容性;
g) 模拟环境测试:使用虚拟机或容器技术在同一硬件上模拟不同硬件环境,测试算法在模拟环境
下的适应性。
5. 2. 2. 3 面向数据预处理(细胞病理图像处理和软件前处理)的对抗测试方法
测试人员宜通过考虑和应用各种数据预处理步骤(如背景去除、裁剪、增强等)来收集或模拟生成多
样化的图像数据,以此扩充测试集并验证算法的鲁棒性。这些步骤旨在模拟临床使用阶段中可能遇到的
数据预处理情况,同时确保模拟数据的标注结果保持一致,全面评估算法对前处理变化的适应性。主要
步骤包括:
a) 采用预处理操作:在真实采集图像数据集上施加包括背景去除、图像裁剪、图像增强、彩色/灰度
模式转换等多种软件前处理步骤,模拟生成图像数据,确保这些图像的标注结论与真实采集图
像数据集保持一致;
b) 评估算法性能:通过5. 1. 1. 3 和5. 1. 1. 4 评价细胞分割性能,以及5. 1. 2. 3~5. 1. 2. 6 评价细胞
类型识别性能指标来评估算法在经过预处理的图像数据集上的表现,与算法在真实采集图像数
据集上的性能进行对比分析。
5. 2. 2. 4 压力测试
5. 2. 2. 4. 1 压力样本的选取
测试人员宜从测试集中选取压力样本,并开展压力测试,压力样本不应影响医生判断。
细胞病理图像辅助分析算法的压力测试样本选取,举例如下:
a) 异质性病变样本;
b) 复杂病变的混合型样本;
c) 复杂的病理学表现样本。
5. 2. 2. 4. 2 压力测试的步骤
压力测试方法应包括以下步骤:
a) 性能评估:使用选定的压力样本对算法进行测试,关注算法在处理这些极端或复杂条件下的表
现,特别是其准确性、稳定性和处理速度等关键性能指标;
b) 结果分析:对测试结果进行深入分析,识别算法在处理特定类型的压力样本时可能遇到的问题
和挑战,如识别精度下降、处理时间增加等。
5. 2. 3 重复性
如适用,测试人员应对同一版本的算法使用相同的数据集依据5. 1 进行多次测试,测试次数不宜低
于3 次,并对算法多次运行的输出结果进行比较。
9
YY/T 1990—2025
5. 2. 4 一致性
5. 2. 4. 1 确定参考标准
由多位具有资深经验的病理医生组成的专家组对细胞病理玻片进行标注(如A. 4 的形式),形成参考
标准。确保专家组中至少包含3 位病理医生,并明确判定决策机制。
5. 2. 4. 2 样本量要求
选择的测试数据集样本量根据产品预期的特异度和敏感度来确定,用灵敏度计算阳性组的样本量,
用特异度计算阴性组的样本量,阳性组/阴性组的最大值是单次测试样本量的最低要求。
阳性组/阴性组样本量的估算表达式见公式(11):
n =
Z 2
1 - α/2 P ( 1 - P )
Δ2 ……………………………( 11 )
式中:
n ——阳性组/阴性组样本量;
Z1 - α/2 ——标准正态分布的分位数;
P ——灵敏度或特异度的预期值;
Δ ——P 的允许误差大小,一般取P 的95% 置信区间宽度的一半,常用的取值为0. 05~0. 10。
5. 2. 4. 3 测试方法选择
一致性测试按以下情形确定方法:
a) 对于预期用于分割的模型:采用5. 1. 1 描述的方法,通过比较算法输出结果与参考标准标签之
间的客观相似性和客观差异性来衡量一致性;
b) 对于预期用于分类的模型:采用5. 1. 2 描述的方法,建立混淆矩阵并计算Kappa 系数,来评估算
法分类结果与参考标准之间的一致性;
c) 对于预期用于分割和分类多任务的模型:采用5. 1. 1 和5. 1. 2 描述的方法,每个任务分别评估算
法结果与参考标准之间的一致性结果,若涉及相同测试指标需进行平均性能计算。
5. 2. 5 分析效率
5. 2. 5. 1 定义测试起止点
选定N 张细胞病理玻片,从分析第一张开始计时,到最后一张分析完毕,记录总分析时间,单张玻片
分析效率则为总时间除以N。分析效率测试的起止点,应满足以下内容:
a) 起点:数据开始导入算法的时刻;
b) 终点:对于大多数应用,终点为算法导出全部结果的时刻。对于辅助分析类产品,终点特定为生
成算法通知的时刻。
5. 2. 5. 2 明确临床典型病例要素
明确临床典型病例时考虑的要素应包括以下内容:
a) 规定参与测试的图像数量,如100 张玻片;
b) 明确细胞病理玻片的制片方式,如涂片、抹片或液基细胞学制片的方式;
c) 指定成像方式,如使用光学显微镜;
d) 确定染色方式,如巴氏染色、瑞氏染色。
10
YY/T 1990—2025
5. 2. 5. 3 执行测试
分析效率的测试方法按以下步骤进行:
a) 根据5. 2. 5. 2 描述的明确临床典型病例的要素,准备测试数据集;
b) 测量从起点到终点的总时间,确保测试环境稳定,以便结果具有可比性;
c) 分析处理时间,考虑其对临床流程的影响;
d) 与现有技术或手工处理时间进行比较,以评估算法带来的效率改进。
5. 2. 6 错误分析
5. 2. 6. 1 错误分析的方法内容
错误分析的方法应包括以下内容:
a) 分割场景的错误分析:对于图像分割任务,根据感兴趣区域(ROI)的尺寸,分析分割结果的准确
性。包括评估算法在不同尺寸的ROI 上的表现,以及识别可能导致分割错误的因素;
b) 多细胞分类场景的错误分析:在细胞分类任务中,对每一种分类结果进行详细分析,特别是假阴
性和假阳性结果;
c) 针对个体病例的性能评估:对每个病例进行算法性能指标的计算,从而评估算法是否存在对特
定病例的偏倚;
d) 在对抗测试和压力测试中的应用:在进行对抗测试和压力测试时,应采用上述方法进行错误分析。
5. 2. 6. 2 错误分析的测试步骤
错误分析的测试按以下步骤进行:
a) 数据准备:根据测试需要,准备相应的数据集,包括分割、分类任务的标准数据集,以及对抗测试
和压力测试所需的特定数据;
b) 执行测试:运行算法,收集错误数据(如分割不准确的区域、分类的假阴性和假阳性结果等);
c) 数据分析:利用统计和分析方法,对收集的错误数据进行分析,识别错误模式和原因;
d) 将分析结果整理,包括错误类型、频率、潜在原因,以及算法对不同病例的性能表现和偏倚分析。
11
YY/T 1990—2025
附录A
(资料性)
测试数据采集和标注示例
A. 1 图像数据采集
A. 1. 1 采集设备
图像采集设备参数的参考示例见表A. 1。
表A. 1 图像采集设备参数的参考示例
性能
光源
XY 载物台
物镜转换
物镜要求
(N.A. 值)
扫描模式
图片像素
注:N. A.(数值孔径)值:是判断物镜性能的重要因素,它与分辨率成正比。
指标
明场光源,具备高色彩还原度
带自动控制功能的XY 电动载物台
物镜数量≥2,建议配备10×或20×、40×物镜
10×
20×
40×
100×
单层智能对焦/多层智能对焦,能识别和跳过无样本的区域
一般不低于100 万像素,具有数字放大功能;显示器支持缩放图像
N.A.≥0.4
N.A.≥0.8
N.A.≥0.9
N.A.≥1.4
A. 1. 2 采集参数
扫描范围:满足诊断医生进行诊断及鉴别诊断为原则,保证扫描范围满足诊断需要。
扫描分辨率:满足病理医生诊断需求。
存储格式:满足任意人工智能算法的通用要求。
A. 1. 3 采集人员
经过规范化培训能够保证满足图像质量要求的数字病理图像扫描人员。
A. 1. 4 图像数据质量审核
图像数据质量审核依据数据集制造责任方引用的相关临床诊疗指南或专家共识;图像数据质量审核
一般包含主观评价和客观评价两个方面。
图像数据质量的主观评价由中级及以上职称的医生执行。
图像数据质量的客观评价包含但不限于如下内容:
a) 细胞病理玻片成像扫描范围的完整性;
b) 图像亮度、对比度和色彩空间;
c) 图像清晰度。
12
YY/T 1990—2025
数据集制造责任方对审核过程中发现的错误予以纠正,对无法纠正的错误数据采取退回或去除
操作。
A. 2 文本数据采集
制定文本数据的统一采集规则,采集内容包括但不限于如下内容:
a) 患者基本信息:姓名、病案号、性别、年龄、所在医院、检查日期、样本编号;
b) 电子病历项目:现病史(如治疗方式、服用药物)、既往史(如有无明确诊断)。
A. 3 数据去标识化和伦理隐私
A. 3. 1 内容
扫描人员使用高清扫片仪采集图像、工作人员在录入电子病历时会一并采集到病人信息,在样本进
入数据集时,去标识化信息包括:患者基本信息(姓名、病案号)。患者年龄、性别、检查日期、所在医院、病
史不需要去标识化。保留患者样本编号仅用作区分患者使用。
A. 3. 2 方法
使用合法稳定的工具读取关联文件内所携带的病人信息,参照拟遵循的要求,判定敏感字段信息,确
定后利用程序自动将需要去标识化的信息进行清洗;或采用人工删除敏感信息的方式进行去标识化
处理。
A. 3. 3 可追溯性
为满足数据后期与其他临床资料对照及后续跟进研究的需要、保证病例可追溯,在数据去标识化之
前对所提取的患者信息进行加密备份,用于后续追溯使用。
A. 4 测试数据标注要求
A. 4. 1 总则
本文件涉及的测试数据标注过程按YY/T 1833. 3 的规定,标注规则参照世界卫生组织(WHO)当前
对各个系统肿瘤的分类及诊断标准,以及国内外学术期刊公开发表的各类疾病的专家共识和标准,对数
据集每一个样本赋予准确的完整标签,包括分割标签、细胞标签。
分割标签:包括所有目标对象所在的分割区域,且不包含任何其他无关区域,如其他无关区域会影响
到目标对象的分割区域标注时,需同时输出无关区域的分割标签。
细胞标签:以细胞为目标的项目将细胞切割完整,包含完整的细胞核,标注精确的细胞边界。
A. 4. 2 标注操作规范
整体的标注和质控机制采用“两标一审一仲裁”模式,即一张数字病理图像由两名病理医生进行数据
标注,综合标注意见,由审核医生审核决定是否采用。考虑不同环节的工作量和人员资质的差异,为提高
标注的准确性,降低假阴性率,标注医生一般为主治以上病理医生,审核医生一般为具有专业权威性的高
年资主治或以上级别的医生。若标注医生和审核医生意见偏移,则移交更高级别仲裁专家予以裁定。数
据标注流程示意图见图A. 1。
13
YY/T 1990—2025
, E= "
"4
( 1 '
@@
=
" *
*
>
4 -
= > - =4
图A. 1 数据标注流程示意图
A. 4. 3 数据入库原则
数据采集处理完成后经过一系列质控环节,包括入库前检查、初步入库检查、标注过程检查,纳入测
试集(详见图A. 2)。入库前检查主要对数据相关指标进行固定规则的简易筛查(如图像分辨率等);初步
入库检查是由研究者对入库数据进行的进一步检查(如特定形态结构位置是否合乎要求);标注过程检查
是由标注者对可能影响标注的其他数据质量问题进行报告,最终由标注审核者进行裁决。数据入库流程
示意图见图A. 2。
FK
7
3 "AK
" 5=
"5 "5 "5
"5
BFKM
图A. 2 数据入库流程示意图
14
YY/T 1990—2025
参考文献
[1] 国家药品监督管理局医疗器械技术审评中心. 深度学习辅助决策医疗器械软件审评要点[Z]. 2019.
[2] 国务院关于印发新一代人工智能发展规划的通知(国发〔2017〕35 号)
[3] 人工智能辅助诊断技术管理规范(2017 版)(国卫办医发〔2017〕7 号)
[4] 人工智能辅助诊断技术临床应用质量控制指标(2017 版)(国卫办医发〔2017〕7 号)
[5] 国家药品监督局医疗器械技术审评中心. 人工智能医疗器械注册审查指导原则[Z]. 2022⁃03⁃07
[6] 国家药品监督管理局医疗器械技术审评中心. 病理图像人工智能分析软件性能评价审评要点
[Z]. 2023⁃07⁃10
[7] 刘恩彬,蔺亚妮,王慧君,等. 血液肿瘤的综合诊断[J]. 中华血液学杂志,2016,37(1):83⁃86.
[8] 《宫颈液基细胞学人工智能辅助诊断数据集标注规范与质量控制专家共识(2022 版)》编写组.
宫颈液基细胞学人工智能辅助诊断数据集标注规范与质量控制专家共识(2022 版)[J]. 中华病理学杂
志,2022,51(12):1205⁃1209.
[9] 中国病理医师协会数字病理与人工智能病理学组,中华医学会病理学分会数字病理与人工智
能工作委员会,中华医学会病理学分会细胞病理学组. 宫颈液基细胞学的数字病理图像采集与图像质量
控制中国专家共识[J]. 中华病理学杂志,2021,50(04):319⁃322.
[10] 白求恩精神研究会检验医学分会,中华医学会检验医学分会血液体液学组,中国医学装备协
会检验医学分会基础检验设备学组. 人工智能辅助外周血细胞形态学检查的中国专家共识[J]. 中华检
验医学杂志,2023,46(03):243⁃258.
[11] 中国医师协会检验医师分会造血与淋巴组织肿瘤检验医学专家委员会. 造血与淋巴组织肿
瘤检验诊断报告模式专家共识[J]. 中华医学杂志,2016,96(12):918⁃929.
[12] Palmer L,Briggs C,McFadden S,et al. ICSH recommendations for the standardization of nomen⁃
clature and grading of peripheral blood cell morphological features[J]. Int J Lab Hematol,2015,37(3):287⁃303.
[13] Kratz A,Lee SH,Zini G,et al. Digital morphology analyzers in hematology:ICSH review and
recommendations[J]. Int J Lab Hematol,2019,41(4):437⁃447.
[14] Aeffner F,Zarella MD,Buchbinder N,et al. Introduction to Digital Image Analysis in Whole⁃slide
Imaging:A White Paper from the Digital Pathology Association[J]. J Pathol Inform,2019,10:9.
[15] Abels E,Pantanowitz L,Aeffner F,et al. Computational pathology definitions,best practices,
and recommendations for regulatory guidance:a white paper from the Digital Pathology Association[J]. J
Pathol,2019,249(3):286⁃294.
[16] James B,Mary G,Christian W,et al. TNM classification of malignant tumors[M]. John Wiley
& Sons,2017.
[17] Niazi MKK,Parwani AV,Gurcan MN. Digital pathology and artificial intelligence[J]. Lancet
Oncol,2019,20(5):e253⁃e261.
[18] Colling R,Pitman H,Oien K,et al. Artificial intelligence in digital pathology:a roadmap to rou⁃
tine use in clinical practice[J]. J Pathol,2019,249(2):143⁃150.
[19] Center for Devices and Radiological Health in U. S. Department of Health and Human Services
Food and Drug Administration,Technical Performance Assessment of Digital Pathology Whole Slide Imag⁃
ing Device[Z]. 2015⁃4⁃20.

评论