注册

国家标准计划《高质量数据集 格式要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局

主要起草单位 中国电子技术标准化研究院中国电子信息产业发展研究院国家数据发展研究院工业和信息化部电子第五研究所中国信息通信研究院国务院国有资产监督管理委员会研究中心商业信用中心北京大学中国石油天然气集团有限公司中国石油化工集团有限公司石化盈科信息技术有限责任公司中国南方电网有限责任公司中国电信集团有限公司中移动信息技术有限公司中国联合网络通信集团有限公司华为技术有限公司科大讯飞股份有限公司阿里巴巴(中国)有限公司北京智源人工智能研究院上海人工智能创新中心中电数据产业集团有限公司中国质量认证中心有限公司北京百度网讯科技有限公司中国交通建设集团有限公司中国交通信息科技集团有限公司上海库帕思科技有限公司上海信投智能科技股份有限公司南京南瑞继保工程技术有限公司南京南瑞瑞中数据股份有限公司杭州数梦工场科技有限公司杭州市临安区大数据管理服务中心安徽飞数信息科技有限公司中通服网盈科技有限公司北京海天瑞声科技股份有限公司航天科工网络信息发展有限公司中国邮政储蓄银行股份有限公司江苏省大数据管理中心内蒙古自治区大数据中心江西省大数据中心等

目录

基础信息

计划号
20256915-T-907
制修订
制定
项目周期
12个月
下达日期
2025-12-31
公示开始日期
2025-07-28
公示截止日期
2025-08-27
标准类别
基础
国际标准分类号
35.240
35 信息技术、办公机械
35.240 信息技术应用
归口单位
全国数据标准化技术委员会
执行单位
全国数据标准化技术委员会
主管部门
国家数据局

起草单位

目的意义

训练数据集是开发和训练人工智能(Artificial Intelligence,AI)模型的基础,高质量的训练数据集能够提高 AI 模型精度与可解释性、减少训练时长,已经成为 AI 模型发展的核心要素。

目前,在我国高质量数据集建设推进过程中,存在数据集格式不规范、不统一的问题。

数据集格式不规范、不统一,不利于通过统一接口(或脚本程序)对数据集进行读取、使用,进而阻碍数据集流通、应用。

制定高质量数据集格式要求,明确其基本元数据及表示方法,包括数据标识、关联数据标识、数据内容、标注信息、原始时间、最后修改时间、数据版本、授权类型、来源类型、来源详情等方面内容,对于促进高质量数据集流通、应用,有力支持人工智能模型开发和训练,更好赋能经济社会发展至关重要。

范围和主要技术内容

本标准拟规范高质量数据集的格式要求,明确其基本元数据及表示方法,包括数据集标识、内容、标注、版本、授权、来源等方面内容。本标准适用于指导组织机构建设、管理和加工高质量数据集。