注册

国家标准计划《人工智能 服务器系统性能测试规范》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC42(全国信息技术标准化技术委员会人工智能分会)执行 ,主管部门为国家标准委

主要起草单位 中国电子技术标准化研究院华为技术有限公司中国科学院软件研究所北京航空航天大学浪潮电子信息产业股份有限公司

目录

基础信息

计划号
20221794-T-469
制修订
制定
项目周期
22个月
下达日期
2022-12-30
公示开始日期
2022-10-21
公示截止日期
2022-11-04
标准类别
方法
国际标准分类号
35.020
35 信息技术、办公机械
35.020 信息技术(IT)综合
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会人工智能分会
主管部门
国家标准委

起草单位

目的意义

AI服务器、AI服务器集群、AI高性能计算设施(AI HPC)是完成AI计算的主要计算设施,也是各行业AI应用的核心硬件基础。

与通用服务器系统不同,AI服务器系统采用机器学习运算模组或加速器,依托主存或片上系统,完成以向量、张量运算为主的海量计算。

这些设备的性能是各行业应用效能的决定性要素之一。

设备性能不仅取决于标称指标,更取决于实际效果。

而后者,不仅取决于算力,更与通道、能效等技术特性相关。

当前具有代表性的通用AI测试基准、HPC性能测试基准或服务器技术规范,如MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、《T/CESA 1043-2019 面向深度学习的服务器规范》、《GB/T 9813.3 计算机通用规范 第3部分:服务器》、《人工智能芯片 面向云侧的深度学习芯片测试指标与测试方法》、AIIA DNN benchmark等,在AI服务器系统性能测试方面,仍存在一些未解决的问题: 1.通用服务器技术规范对AI服务器系统的性能测试的规定不深入、而且存在同质化倾向。

在测试指标方面,仅端到端运行时间、能耗等不能准确反映AI服务器系统。

系统内部运行时效能方面,尚不存在标准化的测试方法。

2.通用AI性能测试,使用公众可获得的模型、数据集。

它们与行业(如金融、医疗)实际使用的模型、数据有较大差异。

通用测试的结果,对行业指导意义不强,行业业务在AI服务器系统计算设施上的运行效果,无直接评判依据。

3.当前的测试基准对测试科学理论的实践相对较薄弱。

这些测试基准对性能的理解、解释及测试方法仅限于稳定状态运行时间,而未考虑真实运行环境及系统自身现实状态。

针对以上问题,本标准拟结合测试技术,在通用及行业应用两方面,研究并标准化测试方法、用例,达到较为全面、准确的测试效果。

范围和主要技术内容

范围:规定了人工智能服务器系统(含AI服务器、AI服务器集群、AI HPC计算设施等)的性能测试方法。 适用:适用于AI服务器系统(含AI服务器、AI服务器集群、AI HPC计算设施等)的性能评估。 内容框架如下: 1.测试类型 a)开放测试 b)封闭测试 2.训练 a)训练过程; b)测试控制要素(含准确率门限、机器学习框架、混合精度训练、训练结果精度要求、数据读入要求、数据预处理过程、数据遍历要求、目标模型要求、超参选取规则、优化算法技术要求、损失函数技术要求、操作系统及环境要求等); c)结果符合性(含元数据、结果模型一致性、训练代码要求、日志要求等) d)场景(含通用及行业专用场景); e)指标及获取方法(含通用指标、测试学相关指标、行业专用指标等); f)测试工具要求(构架、功能要求、公平性保障要求); 3.推理 a)推理过程; b)测试控制要素(含作业到达控制、准确率、机器学习框架、量化、重训练、数据预处理、数据后处理、数据遍历、数据缓存、作业延误及丢失控制、操作系统及环境要求等); c)结果(含元数据、模型一致性要求、代码技术要求、日志要求等); d)场景(含通用及行业专用场景); e)指标及获取方法(含通用指标、测试学相关指标、行业专用指标); 测试工具要求(构架、功能要求、公平性保障要求等)。