团 体 标 准
T/TAF 265—2025
智算中心算力池化技术要求和
功能测试方法
Technical specification and functional testing method for computing
power pooling in artificial intelligence data center
2025-02-10 发布 2025-02-10 实施
电信终端产业协会 发布
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由电信终端产业协会提出并归口。
本文件起草单位:中国信息通信研究院、北京趋动智能科技有限公司、贵阳市大数据产业有限公司、中国联合网络通信有限公司、百度在线网络技术(北京) 有限公司。
本文件主要起草人:解谦、王鲲、曾晨曦、陈飞、吴金明、马蓁蓁、钟楚然、范灵俊、彭亚松、王菲、张舒帆、曾楚轩、邓诗贤、陈宁、焦希泉、崔凯。
引 言
随着 AI 产业化和产业 AI 化的深入发展,智算中心已经成为保障数字经济高质量发展的重要新型基础设施。智算中心能提供灵活人工智能算力资源,在人工智能、互联网、通信等领域均能发挥重要作用。
本文件针对智算中心人工智能算力资源池化技术的总体架构、总体要求、功能要求、通信网络要求、资源池部署与集成要求、兼容性要求、可靠性要求、安全要求和功能测试方法等进行规范,对于利用算力池化技术实现智算资源的虚拟化、整合、调度和高效利用,具有重要的现实意义。同时也为科学评估智算中心的算力池化能力等级提供了充分依据。
智算中心算力池化技术要求和功能测试方法
1 范围
本文件规定了人工智能算力资源池的总体架构、总体要求、功能要求、通信网络要求、资源池部署与集成要求、兼容性要求、可靠性要求和安全要求,给出了功能测试方法。
本文件适用于人工智能算力资源池的设计、建设、运维和验证。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
人工智能 artificial intelligence
<学科>人工智能系统相关机制和应用的研究和开发。
[来源:GB/T 41867—2022,3.1.2]
3.2
人工智能加速卡 artificial intelligence accelerating card
专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速设备。
[来源:GB/T 42018—2022,3.6]
3.3
物理计算资源 physical computing resource
为人工智能应用提供信息处理能力(如存储、计算等)的实体设备。
示例:人工智能服务器、人工智能加速卡和人工智能加速模组等。
[来源:GB/T 42018—2022,3.3]
3.4
虚拟计算资源 virtual computing resource
为人工智能应用提供信息处理能力(如存储、计算等)的逻辑设备。
示例:逻辑设备是物理设备的虚拟化形态,它与物理设备间存在映射关系。
[来源:GB/T 42018—2022,3.4]
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
API:应用程序编程接口 (Application Programming Interface)
ASIC:专用集成电路 (Application Specific Integrated Circuit)
CPU: 中央处理器 (Central Processing Unit)
FPGA:现场可编程逻辑门阵列 (Field Programmable Gate Array)
GPU: 图形处理单元 (Graphics Processing Unit)
GUI: 图形用户界面(Graphical User Interface)
KVM:基于内核的虚拟机 (Kernel-based Virtual Machine)
TCP/IP:传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol)
5 总体架构
人工智能算力资源池化指的是无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置,对物理计算资源进行抽象,软件化后形成一个统一的资源池,按需对计算资源进行有效调用的过程。人工智能算力资源池总体架构见图1。
图1 总体架构
其中:
——人工智能算力资源池:通过软件定义的方式将多种异构算力变成可动态管理的资源池;
• 运行时:一套兼容各类计算资源的 API 编程环境的运行环境,模拟 API 编程的运行时接口,实现与上层 AI 框架的对接和管理;
• 调度控制服务:资源池的核心管理、调度模块,实现对节点 IP 地址、物理计算资源信息、虚拟计算资源信息以及 AI 应用任务信息等的汇总管理;
• 异构算力池化服务:发现并管理节点上的物理计算资源,将物理计算资源池化,将计算能力提供给集群中各个物理节点, 以及各个物理节点上的虚拟机、容器;
• 异构算力资源:GPU、FPGA、ASIC 等多种计算资源;
• 运维管理:提供图形用户界面,实现资源池全方位管理与监控。
——人工智能应用:基于自然语言处理、计算机视觉、机器学习等技术实现的业务应用。
6 总体要求
智算中心算力池化技术总体要求如下:
a) 资源池应采用分布式架构、模块化设计,在架构及功能方面应具备良好的系统可扩展能力,使得系统在为用户提供服务的过程中能实现平滑扩展、持续运行;
b) 资源池应支持各类异构 AI算力资源;
注:AI算力资源包括GPU、FPGA 、ASIC等人工智能加速卡设备资源。
c) 资源池采用的软硬件应便于安装、升级, 并具有友好的管理界面;
d) 资源池应具备人工智能应用和计算资源的解耦能力,在同一集群的任意节点上运行人工智能应用均可调用人工智能算力资源池内的资源;
e) 资源池应具备提供细粒度算力资源的能力;
f) 资源池应对能耗进行有效的监控和管理,通过远程管理提高运维管理效率;
g) 资源池应支持业务不停机的灰度升级部署;
h) 资源池在运维管理方面应具备计算资源全局监控、告警、日志、数据统计、报表等能力。
7 基础功能要求
7.1 池化管理
智算中心算力池化管理功能要求如下:
a) 应支持 AI 应用与物理计算资源解耦合,AI 应用向资源池化软件调取虚拟计算资源,资源池化软件再匹配物理计算资源;
b) 应支持多台物理计算资源节点跨机资源聚合,为单一容器或虚拟机提供多卡虚拟计算资源;
c) 应支持运行在普通 CPU 节点的人工智能业务通过网络远程调用物理人工智能加速卡计算资源节点上的虚拟计算资源;
d) 应支持虚拟计算资源动态调整,调整时不应重新加载、重置、重启容器或虚拟机等运行环境。
7.2 池化调度
智算中心算力池化调度功能要求如下:
a) 应支持配置多种算力资源池任意调度策略,包括本地调度、本地优先、节点均衡/紧凑、设备均衡/紧凑等调度策略;
b) 应支持计算资源的全局调度策略设置,和面向具体 AI 任务的个性化调度策略设置;
c) AI 任务调度计算资源时,应支持指定物理计算资源节点、人工智能加速卡芯片型号;
d) 应支持指定具体芯片的调度策略。
7.3 提供任意规格算力资源
智算中心算力池化技术应能提供任意规格算力资源,具体要求如下:
a) 应支持为上层业务提供聚合多台计算资源节点上的物理计算资源的能力;
b) 应支持为上层业务提供的虚拟计算资源按照算力 1 %和显存 1 MB 两个维度进行任意切分,提供小算力资源。
7.4 虚拟算力资源隔离
应支持同一张人工智能加速卡上多任务虚拟计算资源并发运行,虚拟计算资源多任务隔离保护,异常虚拟计算资源任务不影响其他正常任务。
7.5 业务热迁移
业务热迁移时不应中断AI业务,迁移过程中不影响AI业务对计算资源的远程调用,能够有效保证业务连续性,减少上层业务宕机时间,提升用户使用体验。
7.6 横向扩展
智算中心算力池化技术横向扩展功能要求如下:
a) 应支持资源池平滑扩容、缩容, 支持添加和删除计算资源节点或者人工智能加速卡;
b) 应支持不终止任务的情况下,平滑扩容算力资源;
c) 应支持当任务启动未实际运行时,算力分配但未实际占用,任务实际运行时,资源动态挂载。
8 通信网络要求
8.1 管理网络
资源池使用基于TCP/IP的管理网络来承载整个系统的管理工作,用于资源池的管理及调度服务。通过管理网络,分布在各个节点的功能组件都保持与资源池控制模块同步。管理网络逻辑结构见图2。
算力节点1 算力节点2 算力节点n
图2 管理网络逻辑结构
分布式部署的各个功能组件应符合如下要求:
a) 资源池控制模块支持多副本、高可用的部署模式;
b) 各个功能组件启动的次序无要求;
c) 当某一个功能组件从错误中恢复之后,应能自动同步到正确状态。
8.2 数据网络
资源池可使用TCP/IP以太网络、RoCE RDMA、Infiniband RDMA、Shared Memory等多种后端数据网络实现AI应用所在环境与计算资源物理节点之间的数据传输,用于资源池业务运算数据的交互。数据网络逻辑结构见图3。
应用运行环境1 应用运行环境2 应用运行环境n
算力节点1 算力节点2 算力节点n
图3 数据网络逻辑结构
数据网络应符合如下要求:
a) 高带宽、低延迟;
b) 同时支持多种网络传输协议,优先使用高性能的传输方式;
c) 支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。
9 资源池部署与集成要求
9.1 资源池部署
资源池的各个服务组件,应支持集中式单机部署或者分布式多机部署,部署形式包括:
a) 安装操作系统后,直接以二进制(Binary)形式部署;
b) 以容器镜像方式部署。
9.2 资源池集成
资源池应具备适配多种Linux操作系统和云平台的能力, 同时支持基于KVM的虚拟机云平台和基于Docker的容器云平台。应支持原生容器,如提供完善的虚拟GPU资源调度插件,以实现和Kubernetes的平滑对接。
10 兼容性要求
10.1 网络兼容性
资源池应支持数据中心级各类网络协议类型。
示例:TCP/IP 以太网络、RDMA 网络(InfiniBand 和 RoCE)等。
10.2 GPU 设备兼容性
资源池应支持主流人工智能芯片厂家生产的、多种GPU型号设备。
示例:NVIDIA GPU、寒武纪 MLU、中科海光 DCU 等。
10.3 人工智能芯片 API 版本兼容性
资源池应支持主流人工智能芯片API。
示例:NVIDIA CUDA、寒武纪 Neuware、中科海光 DTK 等。
10.4 操作系统兼容性
资源池应支持人工智能应用主流操作系统基座。
示例:64 位 CentOS 6 /7 、64 位 Ubuntu 16/18/20 、openEuler 和 KylinOS 等。
10.5 基础架构平台兼容性
资源池应支持多种类型的基础架构平台。
示例:容器环境、kubernetes 环境、KVM 环境。
10.6 深度学习框架兼容性
资源池应支持各类主流深度学习框架。
示例:TensorFlow 、Pytorch 、PaddlePaddle 、MXNet、NVCaffe 、TensorRT 等。
11 可靠性要求
智算中心算力池化系统可靠性要求如下:
a) 资源池应支持组件分布式部署方式,控制台组件多副本部署,具备控制组件高可用;
b) 资源池应具备任务热迁移能力,保障服务不中断;
c) 资源池关键信息应具备自动或手动备份恢复能力;
d) 支持针对计算、网络的(服务器、交换机等)硬件资源故障的发现、告警。
12 功能测试方法
12.1 资源固定配置
资源固定配置测试方法如下。
a) 测试目的:
验证平台支持对虚拟计算资源量的固定配置。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 创建固定配置初始化环境,分配1个虚拟计算资源,指定算力和显存的资源量(最小颗粒度算力1 %和显存1 MB);
2) 执行测试任务时,指定虚拟计算资源的资源量分配有别于初始化环境的资源量;
3) 在GUI管理控制台查看实际分配给测试任务的虚拟计算资源量。
d) 预期结果:
1) 应符合6 e)、7.1 a)、7.3 b)要求;
2) 实际分配给测试任务的仍是初始化环境的虚拟计算资源量,并非测试任务执行时指定的虚拟计算资源的资源量。
12.2 资源动态申请
资源动态申请测试方法如下。
a) 测试目的:
验证平台支持按需动态调整虚拟计算资源的资源量。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 启动测试任务,分配初始虚拟计算资源的资源量(最小颗粒度算力1 %和显存1 MB),观察任务执行中的资源使用情况;
2) 动态调整虚拟计算资源的资源量,并观察任务执行中的资源使用情况。
d) 预期结果:
1) 应符合6 e)、7.1 a)、7.1 d)、7.3 b)要求;
2) 平台支持虚拟计算资源动态调整,不应重新加载、重置、重启容器运行环境。
12.3 远程调用
远程调用测试方法如下。
a) 测试目的:
验证平台支持业务应用基于网络调用远端服务器的人工智能加速卡资源执行计算。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 在CPU控制节点运行测试任务,并指定在远程人工智能加速卡计算节点执行计算;
2) 运行测试任务,观察并记录任务执行中人工智能加速卡使用情况。
d) 预期结果:
1) 应符合6d)、7.1 c)要求;
2) 平台支持运行在CPU控制节点的测试任务通过网络远程调用其他物理人工智能加速卡计算节点上的虚拟计算资源。
12.4 跨机多卡聚合
跨机多卡聚合测试方法如下。
a) 测试目的:
验证平台支持多台物理计算资源节点跨机资源聚合,为单一容器或虚拟机提供多卡虚拟计算资源。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少2个计算节点。
c) 测试步骤:
1) 在CPU控制节点运行测试任务,并指定在多个物理计算节点的各人工智能加速卡上执行计算;
2) 运行测试任务,观察并记录任务执行中各人工智能加速卡的使用情况。
d) 预期结果:
1) 应符合7.1 b)、7.3 a)要求;
2) 平台支持多个物理计算节点跨机资源聚合,为单一容器或虚拟机提供多卡虚拟计算资源。
12.5 资源超分
资源超分测试方法如下。
a) 测试目的:
验证平台支持单个物理人工智能加速卡能够分配超过物理资源上限的资源量给业务应用。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 分别为2个测试任务分配算力和显存资源,且分配给两个任务的资源量总和超过单张人工智能加速卡的物理资源上限;
2) 指定两个任务运行在同一张人工智能加速卡上;
3) 同时启动2个测试任务,观察任务执行中人工智能加速卡使用情况。
d) 预期结果:
1) 应符合7.2 d)要求;
2)两个测试任务均正常运行。平台的超分特性允许业务应用申请的资源量总和超过物理资源。
12.6 资源配额
资源配合测试方法如下。
a) 测试目的:
验证平台支持限制业务环境虚拟计算资源申请量上限。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 针对测试任务新建配额实例,设置可申请的算力或显存资源上限;
2) 启动测试任务时,申请超过配额限制的资源,观察任务执行情况。
d) 预期结果:
1) 应符合7.2 b)要求;
2) 测试任务执行失败,并提示申请的资源超过配额限制。
12.7 指定卡型号
指定卡型号测试方法如下。
a) 测试目的:
验证平台支持业务应用申请指定型号的人工智能加速卡资源。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少1个计算节点。
c) 测试步骤:
1) 为测试任务指定资源池中存在的人工智能加速卡型号;
2) 启动测试任务,并观察任务执行情况;
3) 为测试任务指定资源池中不存在的人工智能加速卡型号;
4) 启动测试任务,并观察任务执行情况。
d) 预期结果:
1) 应符合7.2 c)要求;
2) 当资源池中存在指定型号的人工智能加速卡时,测试任务可调用对应型号的资源并正常运行;
3) 当资源池中不存在指定型号的人工智能加速卡时,测试任务执行失败。
12.8 指定节点
指定节点测试方法如下。
a) 测试目的:
平台支持业务应用申请资源时,可指定虚拟卡资源所属节点。
b) 预置条件:
1)使用1个控制节点;
2)使用至少2个计算节点。
c)测试步骤:
1) 在CPU控制节点运行测试任务,并指定执行任务的计算节点;
2) 在GUI控制台查看测试任务调用的虚拟卡资源所属计算节点。
d) 预期结果:
1) 应符合7.2 c)要求;
2) 测试任务调用的虚拟卡资源所属节点为指定的计算节点。
12.9 任务亲和
任务亲和测试方法如下。
a) 测试目的:
验证平台通过任务亲和性可将不同AI任务在超分情况下分配在单张物理卡上。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 第一个容器中执行测试任务1, 100%算力,开启超分,并设置亲和性;
2) 第二个容器中执行测试任务2, 100%算力,开启超分,并设置亲和性;
3) 在GUI控制台查看两个测试任务的资源分配情况。
d) 预期结果:
1) 应符合7.2 b)要求;
2) 超分情况下,两个测试任务申请的虚拟计算资源来自同一个物理人工智能加速卡。
12.10 任务队列
任务队列测试方法如下。
a) 测试目的:
验证平台在资源池资源不足时,支持后续任务进入队列等待,并能够通过优先级设置控制队列中任务获取资源的顺序。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 执行测试任务1;
2) 执行测试任务2,设置较低优先级;
3) 执行测试任务3,设置优先级高于测试任务2;
4) 观察以上任务执行情况,以及GUI控制台任务队列情况。
d) 预期结果:
1) 应符合7.2 b)要求;
2) 测试任务1执行过程中,测试任务2和3 由于资源不足,在队列中等待;
3) 测试任务1执行完毕,由于测试任务3优先级高,会优先获取资源开始执行;
4) 测试任务3结束后,优先级相对低的测试任务2获取资源开始执行。
12.11 任务资源空闲超时自动释放
任务资源空闲超时自动释放测试方法如下。
a) 测试目的:
验证当平台检测到任务的资源空闲时,经过一定超时时间,会自动释放资源。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 设置测试任务资源空闲超时时间为30秒,并执行任务;
2) 执行测试代码调用虚拟计算进行简单计算;
3) 测试任务完成后等待约30秒,观察终端提示。
d) 预期结果:
1) 应符合7.1 d), 7.2 b)要求;
2) 等待约30秒后,终端提示虚拟计算资源被释放。
12.12 任务运行超时资源自动释放
任务超时资源自动释放测试方法如下。
a) 测试目的:
验证当平台检测到任务运行超时,会自动释放资源。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 设置测试任务运行超时的时间为30秒,并启动测试任务;
2) 等待任务执行30秒后,观察资源释放情况。
d) 预期结果:
1) 应符合7.1 d), 7.2 b)要求;
2) 测试任务执行30秒后,终端提示运行超时推出并释放资源。
12.13 逻辑资源组
逻辑资源组测试方法如下。
a) 测试目的:
验证平台支持逻辑资源组功能, 即业务需要通过授权才能使用不同逻辑资源组的资源。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少1个计算节点。
c) 测试步骤:
1) 创建一个逻辑资源组,并为其分配部分设备资源;
2) 授权一个组织关联逻辑资源组,并配置该组织内授权的客户端;
3) 使用授权客户端创建测试任务1并启动,观察任务执行情况;
4) 使用非授权客户端创建测试任务2并启动,观察任务执行情况。
d) 预期结果:
1) 应符合7.1 a)要求;
2) 测试任务1执行成功;
3) 测试任务2执行失败。
12.14 自定义资源规格
自定义资源规格测试方法如下。
a) 测试目的:
验证平台支持将算力和显存资源配比规格化,设置不同资源配比模版,业务应用申请资源时,只需指定所需规格即可。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少1个计算节点。
c) 测试步骤:
1) 创建自定义资源规格;
2) 启动测试任务时指定自定义资源规格,并尝试通过环境变量改变资源配置;
3) 在GUI控制台查看测试任务的实际资源分配情况。
d) 预期结果:
1) 应符合7.1 a),7.3b)要求;
2) 给测试任务分配的是自定义资源规格,而非环境变量申请值。
12.15 双类资源池
双类资源池测试方法如下。
a) 测试目的:
验证平台支持虚拟计算资源和物理人工智能加速卡双类资源池管理,可以动态的在物理人工智能加速卡和虚拟计算资源两种状态下切换。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少1个计算节点。
c) 测试步骤:
1) 选择一个计算节点的人工智能加速卡,关闭虚拟化,切换至物理人工智能加速卡资源;
2) 选择另一张人工智能加速卡,开启虚拟化;
3) 分别在以上物理卡和虚拟计算资源上运行测试任务,并在GUI控制台查看卡的使用状态。
d) 预期结果:
1) 应符合7.1 a)要求;
2) 人工智能加速卡可正常开启和关闭虚拟化;
3) GUI控制台可看到物理卡和虚拟计算资源均为已使用状态。
12.16 设备管理
设备管理测试方法如下。
a) 测试目的:
验证平台可以对人工智能加速卡进行管理。
b) 预置条件:
1) 使用1个控制节点;
2) 使用至少1个计算节点。
c) 测试步骤:
1) 进入GUI控制台的设备管理界面;
2) 选择一张人工智能加速卡,开启/关闭虚拟化;
3) 选择一张人工智能加速卡,启用/禁用设备。
d) 预期结果:
1) 应符合7.6 a)要求;
2) 平台可以查看并正常进行人工智能加速卡虚拟化的开启/关闭、人工智能加速卡的启用/禁用操作。
12.17 节点管理
节点管理测试方法如下。
a) 测试目的:
验证平台可以对人工智能加速卡节点进行管理。
b) 预置条件:
1) 进入平台GUI节点管理界面;
2) 使用至少2个计算节点。
c) 测试步骤:
1) 进入平台GUI节点管理界面;
2) 选择一个节点,进行启用/禁用操作;
3) 选择一个节点,查看节点详情。
d) 预期结果:
1) 应符合7.6 a)要求;
2) 平台可以正常进行节点的启用/禁用操作和查看节点详情。
12.18 日志收集
日志收集测试方法如下。
a) 测试目的:
验证平台支持日志收集功能。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 进入平台GUI的日志管理页面;
2) 指定任务等级、时段选择等查询条件,筛选或选择特定日志信息;
3) 导出日志。
d) 预期结果:
1) 应符合6 h)要求;
2) 可按查询条件正常筛选日志,并查看特定日志信息;
3) 可正常导出日志文件。
12.19 监控告警
监控告警测试方法如下。
a) 测试目的:
验证平台支持异常监控告警功能。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 进入平台GUI的监控中心页面;
2) 通过查询条件筛选告警记录,查看特定告警记录详情;
3) 进行告警规则启用/禁用、编辑;
4) 进行告警信息通知配置(站内消息/邮件)。
d) 预期结果:
1) 应符合6 f)、6 h)要求;
2) 可按查询条件筛选出告警记录,可查看特定告警记录详情;
3) 可正常进行告警规则启用/禁用、编辑;
4) 可正常进行告警信息通知配置(站内消息/邮件)。
12.20 组件管理
组建管理测试方法如下。
a) 测试目的:
验证平台支持对池化组件的管理功能。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 进入平台GUI的组件管理页面;
2) 查看组件状态;
3) 进行组件版本单节点/批量升级操作;
4) 进行组件单节点/批量配置。
d) 预期结果:
1) 应符合6 c) 6 g)要求;
1) 可正常查看所有池化组件的状态;
2) 可正常进行组件版本单节点/批量升级操作;
3) 可正常进行组件单节点/批量配置。
12.21 统计报表
统计报表测试方法如下。
a) 测试目的:
验证平台支持平台资源利用率监控统计功能和报表功能。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点。
c) 测试步骤:
1) 进入平台GUI统计中心页面;
2) 查看资源管理、任务调度、运维监控等统计报表数据。
d) 预期结果:
1) 应符合6 f)、6 h)要求;
2) 可正常查看各类统计报表数据。
12.22 灰度升级
灰度升级测试方法如下。
a) 测试目的:
验证平台支持资源池节点进行组件灰度升级。
b) 预置条件:
1) 使用1个控制节点;
2) 使用2个计算节点。
c) 测试步骤:
1) 进入平台GUI的版本管理界面;
2) 选择一个计算节点,并进行组件升级操作;
3) 选择一个控制节点和一个计算节点,批量进行组件升级操作。
d) 预期结果:
1) 应符合6 c)、6 g)要求;
2) 一个计算节点正常完成组件升级操作,不影响资源池正常运行;
3) 一个控制节点和一个计算节点正常完成批量组件升级操作,不影响资源池正常运行。
12.23 任务热迁移
任务热迁移测试方法如下。
a) 测试目的:
验证平台支持在业务运行过程中将计算任务从一个计算资源迁移到另一个计算资源,无需停服。
b) 预置条件:
1) 使用至少2个计算节点;
2) 热迁移目标节点的Server版本需要和当前节点一致;
3) 热迁移目标节点状态不能是热升级中、禁用、失效;
4) 目标设备不能失效,且型号、Driver版本需要和当前设备一致。
c) 测试步骤:
1) 在节点1的设备上启动测试任务;
2) 测试任务运行过程中,进入GUI的任务管理页面,发起热迁移操作并选择节点2为目标节点;
3) 观察迁移情况及测试任务运行状态。
d) 预期结果:
1) 应符合)7.5要求;
2) 测试任务在热迁移过程中会暂停,等待迁移完成后恢复;
3) 测试任务从节点1的设备顺利迁移至节点2设备。
12.24 显存故障域隔离
现存故障域隔离测试方法如下。
a) 测试目的:
验证平台支持当多个应用运行在同一个人工智能加速卡上时,其中一个应用运行异常报错退出时,其他的应用不受影响继续正常运行。
b) 预置条件:
1) 使用1个控制节点;
2) 使用1个计算节点;
3) 1个可以产生异常的测试任务。
c) 测试步骤:
1) 在同一个人工智能加速卡上启动两个测试任务;
2) 让其中一个测试任务产生OOM异常终止退出;
3) 观察另一个测试任务的运行情况。
d) 预期结果:
1) 应符合)7.4要求;
2) 当出现异常的测试任务终止运行后,另一个测试任务仍可继续正常运行。
12.25 动态扩缩容
动态扩缩容测试方法如下。
a) 测试目的:
验证平台支持资源池动态扩缩容,支持添加和删除计算资源节点或者人工智能加速卡。
b) 预置条件:
1) 使用1个控制节点;
2) 使用多个计算节点。
c) 测试步骤:
1) 启动一个AI任务;
2) 在集群中添加新的计算资源节点;
3) 在计算资源节点上添加新的人工智能加速卡,并启动一个调用该卡的AI任务;
4) 在计算资源节点上删除人工智能加速卡;
5) 在集群中删除计算资源节点。
d) 预期结果:
1) 应符合6 a)、6 c)、 )7.6要求;
2) 新添加的计算资源节点自动汇报到资源池,不影响正在运行的AI任务;
3) 新添加的人工智能加速卡自动汇报到资源池,不影响正在运行的AI任务;
4) 人工智能加速卡会从资源池自动删除(若有卡上正在运行的任务,则待任务运行结束后执行删除操作);
5) 计算资源节点会从资源池自动删除(若有节点上正在运行的任务,则待任务运行结束后执行删除操作)。
12.26 异构 AI 算力支持
异构AI算力支持测试方法如下。
a) 测试目的:
验证平台支持统一纳管多种异构AI算力并进行池化应用。
b) 预置条件:
1) 使用1个控制节点;
2) 使用多个计算节点。
c) 测试步骤:
1) 进入GUI控制台的设备管理界面;
2) 将各类异构的人工智能加速卡均启动虚拟化;
3) 分别调用各类异构人工智能加速卡对应的虚拟卡资源运行AI任务。
d) 预期结果:
1) 应符合6 b)要求;
2) 可看到各类异构人工智能加速卡被统一纳管;
3) 各类异构人工智能加速卡的状态均从物理卡切换为虚拟卡;
4) 所有AI任务均正常运行。
12.27 调度策略
调度策略测试方法如下。
a) 测试目的:
验证平台支持多种调度策略(本地调度、本地优先、节点均衡/紧凑、设备均衡/紧凑等),且支持为不同AI任务提供个性化的计算资源调度策略。
b) 预置条件:
1) 使用1个控制节点;
2) 使用多个计算节点。
c) 测试步骤:
1) 进入GUI控制台的调度策略界面,并进行全局策略设置;
2) 启动多个AI任务,观察计算资源调度情况;
3) 启动多个AI任务,并为每个AI任务设置个性化的计算资源调度策略。
d) 预期结果:
1) 应符合7.2 a)、7.2 b)要求;
2) 可在GUI上进行全局计算资源调度策略的设置;
3) 所有AI任务均按设置好的全局策略进行计算资源调度;
4) 每个AI任务均按设置好的个性化策略进行计算资源调度。
附 录 A (资料性)能力分级
根据本文件中描述的功能测试方法,将智算中心算力池化能力自低到高划分为五个等级:
——1 级 简单虚拟化:物理人工智能加速卡可按固定比例切分为虚拟加速资源,算力和显存资源为独占模式,不支持资源动态调整。
——2 级 任意虚拟化:物理人工智能加速卡支持从算力和显存两个纬度,分别按%和 MB 粒度做细颗粒度切分,算力和显存资源支持单台服务器内的动态共享和动态调整。
——3级 远程调用:AI 应用和物理人工智能加速卡服务器可以分离部署;AI 应用可部署在云中任意位置,并通过网络远程调用人工智能加速卡资源。
——4 级 资源池化:拥有统一的人工智能加速卡资源调度管理监控平台,支持对虚拟加速资源按需调度和动态伸缩。
——5级 异构池化:可统一纳管异构的人工智能加速卡资源,并构建虚拟加速资源池。
在每一等级定义了智算中心在相应等级应支持的池化功能最小集合,也就是必须支持集合中的所有池化功能才能标识为该级别。具体的等级划分详见表 A.1。
表 A.1 智算中心算力池化能力分级评价表
表 A.1 智算中心算力池化能力分级评价表(续)
参 考 文 献
[1] GB/T 31168 信息安全技术 云计算服务安全能力要求
[2] GB/T 35279 信息安全技术 云计算安全参考架构
[3] GB/T 41867—2022 信息技术 人工智能 术语
[4] GB/T 42018—2022 信息技术 人工智能 平台计算资源规范
[5] YD/T 3954 云服务用户数据保护能力参考框架

评论