国家标准计划《高质量数据集 建设运营能力成熟度模型》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局。
主要起草单位 深圳市标准技术研究院 、国家工业信息安全发展研究中心 、国家数据发展研究院 、交通运输部科学研究院 、帕西尼感知科技(天津)有限公司 、中国电子技术标准化研究院 、北京海天瑞声科技股份有限公司 、上海库帕思科技有限公司 、华为技术有限公司 、中国质量认证中心 、中国电子数据产业集团 、中国电子信息产业发展研究院 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
无
1.目的 当前,人工智能发展范式正加速向“以数据为中心”转变,高质量数据集已成为驱动大模型创新与千行百业智能化转型的核心战略资源。
然而,我国在高质量数据集建设运营方面仍面临系统性挑战,存在供给结构短板、行业专有数据集不足、组织实施路径碎片化、先进经验难以复制推广等问题。
为有效落实国家“数据要素×”行动计划、“人工智能+”战略部署等,破解产业发展瓶颈,特申请立项本标准。
本标准旨在构建一套系统化、可评估的《高质量数据集建设运营能力成熟度模型》,为各类组织(包括企业、政府部门、科研机构等)提供能力提升的评估框架和发展路径。
其核心目的是通过定义组织管理、工程建设、质量管控、安全合规、技术工具及运营管理六大能力域的成熟度等级,引导组织精准定位自身能力短板,明确优化路径,避免资源盲目投入。
标准致力于解决当前高质量数据集建设运营全链条中存在的系统性能力缺失问题,推动数据从原始数据向高价值数据资产的高效转化,最终支撑人工智能产业在垂直领域的深度应用与创新突破。
2.意义 (1) 响应国家战略需求,推动政策精准落地 近年来,国家密集出台系列政策,明确高质量数据集作为人工智能发展的关键战略资源。
例如,2024年《关于促进数据产业高质量发展的指导意见》强调“开发高质量数据集”,2025年《国务院关于深入实施“人工智能+”行动的意见》提出“以应用为导向,持续加强人工智能高质量数据集建设”。
国家数据局局长刘烈宏多次指出,“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里”。
本标准通过将顶层政策要求转化为可操作的能力评估框架,为各部委、地方政府的数据工作提供具体抓手,助力形成“建设-评估-优化”的良性循环,加速数据要素市场化配置改革。
(2)破解产业共性难题,赋能企业高效发展 当前,高质量数据集建设运营面临供需严重错配。
需求方(如国央企、大模型企业等)普遍存在“不会建、不敢用、不会评”的困境,供给方(如中小企业)则受限于运营粗放、质控薄弱、成本高企等问题。
本标准通过成熟度模型帮助企业对标行业最佳实践,精准识别在组织架构、流程规范、技术工具等方面的短板,避免“重复造轮子”。
(3)引领技术工程化突破,加速数据价值释放 高质量数据集建设涉及多模态融合、标注一致性、隐私合规等技术瓶颈,缺乏体系化的工具链与成本可控的工程化方案。
本标准通过定义技术工具域的自动化与智能化要求,推动组织整合标注平台、质量检测、版本管理等工具,形成闭环流水线。
同时,标准强调数据运营与绩效评价,引导组织从“静态数据管理”向“动态价值运营”转型,通过量化评估数据对模型性能和业务效益的贡献,实现数据资产的持续增值。
(4)构建产业生态协同,促进人工智能+战略全面落地 本标准由政产研用多方联合研制,融合了全栈技术、垂直行业应用、区域实践等多维视角。
通过统一能力评估标准,可促进产业链上下游协同分工,形成“数据供给-模型训练-场景验证”的闭环生态。
本标准立项不仅契合国家数据战略方向,更从实践层面为组织提供了可执行的能力提升路径。
研制与推广本标准将显著提升我国高质量数据集的供给质量与效率,赋能工业AI、自动驾驶、智慧医疗等战略性新兴产业,为“人工智能+”行动的全面落地注入核心动能。
1.标准的适用范围 本标准给出了高质量数据集建设运营能力成熟度模型的构成,规定了成熟度要求。 本标准适用于组织对高质量数据集的建设与运营能力成熟度进行评估。可用于企业、政府部门和公共机构、科研机构和高校等各类组织,对高质量数据集建设与运营能力成熟度进行评估,包括: 第一方评估(自我评估):组织利用本标准作为自查清单,识别自身在数据工作上的优势、短板和改进方向,用于指导内部投资和流程优化。 第二方评估(采购方/合作方评估):采购或者投资单位,可以依据本标准评估目标企业的能力可靠性,降低采购风险。 第三方评估(标准认证):由权威的认证机构依据本标准对组织进行正式评估,并颁发相应成熟度等级的证书,作为组织数据能力的权威证明,提升市场信誉。 2.标准的主要技术内容 (1)能力成熟度模型框架 三维架构:采用“能力维度-能力域-成熟度等级”立体模型: 能力维度:覆盖“组织建设-制度流程-技术创新-人员能力”四个核心能力维度,全面描述组织在各个阶段需要达到的能力要求。 能力域:界定6大核心能力域(如组织管理、工程建设、质量管控、安全合规、技术工具、运营管理等),下设22项能力子域(如数据标注、数据增强、合规管理等),确保评估颗粒度细化到可操作层面。 成熟度等级:设初始级、规范级、稳健级、优化级、引领级五级,明确每级在组织建设、制度流程、技术创新、人员能力的阶梯特征。 动态评估机制:引入量化评分规则(如五级评分制),结合权重分配模型计算综合成熟度得分,支持能力演进追踪 。 (2)核心能力域技术要求 一是组织管理。包括数据战略规划、数据管理组织、数据制度建设3个能力子域对应的五级能力要求。 二是工程建设。包括方案规划设计、数据采集、数据预处理、数据标注、数据增强、数据退役6个能力子域对应的五级能力要求。 三是质量管控。包括数据质量标准、数据质量监控、数据质量改进3个能力子域对应的五级能力要求。 四是安全合规。包括数据安全防护、数据合规管理、数据安全审计3个能力子域对应的五级能力要求。 五是技术工具。包括工具链整合、自动化与智能化、基础服务设施3个能力子域对应的五级能力要求。 六是运营管理。包括数据运维、数据服务、数据流通、运营绩效评估4个能力子域对应的五级能力要求。 (3)差异化适配要求 标准将增加资料性附录,体现行业场景和组织再适配。例如,针对制造业、医疗、交通等重点行业,在通用框架下补充行业专用指标(如工业数据实时性、医疗数据隐私保护强度)。 组织规模适配:为中小企业提供轻量化实施路径,为龙头企业设定高阶优化目标,避免“一刀切”。