国家标准计划《智能计算集群 可观测平台技术要求》由 SWG32(全国智能计算标准化工作组)归口 ,主管部门为国家标准委。
主要起草单位 之江实验室 、中国信息通信研究院 、中移(苏州)软件技术有限公司 、天翼云科技有限公司 、华为云计算技术有限公司 、阿里云计算有限公司 、北京百度网讯科技有限公司 、中国移动通信集团公司 、中兴通讯股份有限公司 、蚂蚁科技集团股份有限公司 、浪潮电子信息产业股份有限公司 、杭州基本粒子科技有限公司 。
| 31 电子学 |
| 31.080 半导体分立器件 |
| 31.080.99 其他半导体分立器件 |
不涉及。
近年来,随着大模型训练、科学计算、工业仿真等算力密集型应用的快速发展,智能计算集群规模持续增长,已从早期的千卡规模逐步迈向万卡乃至十万卡水平。
以大规模智能计算集群为代表的新型算力基础设施,正成为支撑数字经济和前沿科学研究的重要底座。
集群规模的迅速扩张和节点数量的成倍增长,带来了算力供给能力的显著提升,也对系统运维、资源调度和运行管理提出了前所未有的挑战。
当前,大规模智能计算集群呈现出硬件异构化、负载多样化、运行复杂化的趋势,计算节点、网络设备、存储系统以及作业调度组件的高度耦合,使集群运行状态的透明感知和高效治理变得愈加困难。
一方面,集群运维普遍存在监控体系分散、指标口径不统一、日志追踪能力不足等问题,难以满足复杂作业全生命周期的性能分析和问题定位需求。
另一方面,现有运维工具依赖人工经验,缺乏标准化、体系化的技术规范,导致资源利用效率不高、运维保障能力不足,影响集群的整体效能和算力可用性。
从国家层面看,算力基础设施建设已被提升到战略高度。
2023年10月,工业和信息化部联合中央网信办、国务院国资委等五部门发布《算力基础设施高质量发展行动计划》,提出到2025年全国算力规模达到300 EFLOPS以上,智能算力占比超过35%,明确要求“算力设施运维管理能力显著增强,算力调度和资源利用效率明显提升”。
2025年5月,工业和信息化部发布《算力互联互通行动计划》,提出构建全国算力互联互通体系,建立覆盖算力设施、异构调度、智能运维等领域的标准规范,全面提升算力资源的可用性、透明性和服务保障能力。
对智能计算集群的规模化部署、高效运行及技术标准建设提出了迫切需求。
随着智能计算集群规模持续攀升,系统稳定性和运行可靠性已成为行业发展的关键制约因素。
保障算力资源可用性、提升算力调度效率、增强运行韧性,迫切需要建立覆盖“采集-处理-应用”的全流程可观测能力。
通过制定统一的技术标准,明确可观测系统的功能架构、指标体系和技术要求,将为集群建设和运维提供科学、规范的依据,推动运维管理从经验驱动向标准化、智能化转型。
本标准的制定,符合国家推动算力基础设施高质量发展的战略方向,将在以下方面发挥重要作用:一是为智能计算集群建设主体提供统一的可观测能力框架,推动全栈指标采集、日志管理、链路追踪、数据对齐、健康检查等能力的标准化落地。
二是规范集群运行监控、性能分析和故障诊断的关键技术路径,提升算力资源利用效率和作业运行的可靠性。
三是引导行业构建科学、透明、可量化的运维管理体系,支撑集群规模化部署和异构资源高效调度。
四是助力我国智能算力基础设施实现从“规模扩张”向“效能提升、运行可靠、服务高质量”的转型升级,提升全球竞争力。
一、范围 本文件规定了规定智能计算集群可观测系统的功能架构、采集层、处理层、应用层等各方面的技术要求。 本文件适用于可观测系统的提供方及智算集群运营管理方。 二、主要技术内容 1. 可观测系统功能架构 a) 采集层(指标、日志、追踪多源数据采集); b) 处理层(数据对齐、存储、关联分析); c) 应用层(基础观测、稳定性管理、运维管理、作业分析)。 2. 指标采集体系及技术要求 3. 日志采集体系及技术要求 4. 追踪采集体系及技术要求