注册

国家标准计划《人工智能 计算中心管理平台通用要求》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC42(全国信息技术标准化技术委员会人工智能分会)执行 ,主管部门为国家标准委

主要起草单位 中国电子技术标准化研究院浪潮电子信息产业股份有限公司国网智能电网研究院有限公司北京百度网讯科技有限公司北京大学超聚变数字技术有限公司中国科学院计算技术研究所北京壁仞科技开发有限公司

目录

基础信息

制修订
制定
项目周期
18个月
申报日期
2024-05-23
公示开始日期
2024-10-10
公示截止日期
2024-11-09
标准类别
基础
国际标准分类号
35.020
35 信息技术、办公机械
35.020 信息技术(IT)综合
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会人工智能分会
主管部门
国家标准委

起草单位

目的意义

人工智能大模型技术是当前AIGC技术发展的核心驱动力。

大模型的应用落地面临诸多挑战,而其核心是不断提高模型本身的认知、泛化、逻辑思维等各方面的基础能力,从而提高AIGC应用的智能化水平。

大模型能力的提升和其训练投入的算力当量正相关。

根据公开资料分析,GPT-4、PaLM-2等基础模型的算力当量已经达到了GPT-3的数十倍,相当于上万颗业界性能领先的NVIDIA Hopper架构的GPU芯片组成的AI集群训练超过1个月的时间。

对规模庞大的算力基础设施的需求成为了大模型研发的最大挑战。

同时集群计算效力低、故障频发且处理复杂,会导致训练中断后不能及时恢复,从而会降低大模型训练的成功概率,也会使得大模型训练成本居高不下。

因此,大模型对训练的稳定性、故障检测与训练容错提出了更高的要求。

同时简化大模型分布式任务提交、实现智能与自动化的任务资源匹配和训练健壮性也是提升训练效率的重要保证。

人工智能计算中心作为智能计算的主要算力基础设施,不仅仅是服务器、存储、网络等硬件设备的集成,也有诸多设备软硬件兼容性和性能调教上的know-how。

在实际的生产环境中,安装和配置集群需要兼顾性能和稳定性的考虑,为了确保系统的高性能和稳定运行,需要验证在不同的硬件环境下的软件适配,优化包括BIOS,操作系统,底层驱动,文件系统和网络等多个指标,找到最优的选择这个过程耗时耗力,容易贻误算力的上线时间。

人工智能计算中心管理平台作为提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。

人工智能计算中心管理平台的技术发展,对于提升人工智能计算中心的运营效率、保障数据安全、促进技术创新和可持续发展、增强国际竞争力、规范行业健康发展、提高服务质量、促进资源共享、满足监管要求以及支持政府政策实施等方面至关重要。

通过制定人工智能计算中心管理平台标准,不仅有助于构建一个高效、安全、绿色、开放的人工智能计算中心环境,还能确保人工智能计算中心在推动AI产业化、产业AI化以及政府治理智能化方面发挥关键作用,同时为数字经济的高质量发展提供坚实的技术支撑。

范围和主要技术内容

本文件规定了人工智能计算中心管理平台中软件栈及监测管理各功能模块技术要求。本文件适用于人工智能计算中心管理平台的设计、开发、实施及运行维护。 本标准主要内容包括:智算中心操作系统、系统环境、资源调度、模型工具、多模纳管等软件栈要求,用户管理、统计管理、监测运维等监测管理要求。