国家标准计划《高质量数据集 格式要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局。
主要起草单位 中国电子技术标准化研究院 、中国电子信息产业发展研究院 、国家数据发展研究院 、工业和信息化部电子第五研究所 、中国信息通信研究院 、国务院国有资产监督管理委员会研究中心 、商业信用中心 、北京大学 、中国石油天然气集团有限公司 、中国石油化工集团有限公司 、石化盈科信息技术有限责任公司 、中国南方电网有限责任公司 、中国电信集团有限公司 、中移动信息技术有限公司 、中国联合网络通信集团有限公司 、华为技术有限公司 、科大讯飞股份有限公司 、阿里巴巴(中国)有限公司 、北京智源人工智能研究院 、上海人工智能创新中心 、中电数据产业集团有限公司 、中国质量认证中心有限公司 、北京百度网讯科技有限公司 、中国交通建设集团有限公司 、中国交通信息科技集团有限公司 、上海库帕思科技有限公司 、上海信投智能科技股份有限公司 、南京南瑞继保工程技术有限公司 、南京南瑞瑞中数据股份有限公司 、杭州数梦工场科技有限公司 、杭州市临安区大数据管理服务中心 、安徽飞数信息科技有限公司 、中通服网盈科技有限公司 、北京海天瑞声科技股份有限公司 、航天科工网络信息发展有限公司 、中国邮政储蓄银行股份有限公司 、江苏省大数据管理中心 、内蒙古自治区大数据中心 、江西省大数据中心等 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
训练数据集是开发和训练人工智能(Artificial Intelligence,AI)模型的基础,高质量的训练数据集能够提高 AI 模型精度与可解释性、减少训练时长,已经成为 AI 模型发展的核心要素。
目前,在我国高质量数据集建设推进过程中,存在数据集格式不规范、不统一的问题。
数据集格式不规范、不统一,不利于通过统一接口(或脚本程序)对数据集进行读取、使用,进而阻碍数据集流通、应用。
制定高质量数据集格式要求,明确其基本元数据及表示方法,包括数据标识、关联数据标识、数据内容、标注信息、原始时间、最后修改时间、数据版本、授权类型、来源类型、来源详情等方面内容,对于促进高质量数据集流通、应用,有力支持人工智能模型开发和训练,更好赋能经济社会发展至关重要。
本标准拟规范高质量数据集的格式要求,明确其基本元数据及表示方法,包括数据集标识、内容、标注、版本、授权、来源等方面内容。本标准适用于指导组织机构建设、管理和加工高质量数据集。