注册

国家标准计划《高质量数据集 数据标注要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局

主要起草单位 中国电子信息产业发展研究院中移动信息技术有限公司中国移动通信集团有限公司国家工业信息安全发展研究中心中国电子技术标准化研究院工业和信息化部电子第五研究所中国电信集团有限公司中国信息通信研究院联通数据智能有限公司航天科工网络信息发展有限公司数据堂(北京)科技股份有限公司北京海天瑞声科技股份有限公司北京理工大学中电数据产业集团有限公司中移互联网有限公司数据空间研究院中国联合网络通信集团有限公司四川省大数据中心数字广东网络建设有限公司中国联合网络通信有限公司软件研究院北京百度网讯科技有限公司华为技术有限公司科大讯飞股份有限公司中国南方电网有限责任公司安徽飞数信息科技有限公司农业农村部大数据发展中心国网江苏省电力有限公司江苏中堃数据技术有限公司青岛港国际股份有限公司中电金信软件有限公司国家电投集团数字科技有限公司中国电信集团有限公司中电信人工智能(北京)科技有限公司中国人民大学北京交通大学北京化工大学成都工业学院广州市政务服务和数据管理局下一代互联网关键技术和评测北京市工程研究中心有限公司等

目录

基础信息

计划号
20256911-T-907
制修订
制定
项目周期
12个月
下达日期
2025-12-31
公示开始日期
2025-07-28
公示截止日期
2025-08-27
标准类别
基础
国际标准分类号
35.240
35 信息技术、办公机械
35.240 信息技术应用
归口单位
全国数据标准化技术委员会
执行单位
全国数据标准化技术委员会
主管部门
国家数据局

起草单位

目的意义

高质量数据集是人工智能模型训练、推理和验证的关键基础,加快建设人工智能高质量数据集,对于推动人工智能技术创新、产业升级和社会进步意义重大。

国家高度重视高质量数据集建设,先后出台《关于促进数据产业高质量发展的指导意见》《关于促进数据标注产业高质量发展的实施意见》等政策文件,提出开发高质量数据集,建立数据标注标准体系框架,制定数据标注技术、质量、能力等国家标准。

本标准提出了数据标注的流程规范,着力解决以下问题:一是数据标注流程不规范问题。

企业对数据标注流程的管理不够清晰合理,会带来标注效率低下问题,也可能引发数据安全风险。

二是数据标注质量参差不齐的问题。

由于当前缺乏统一的规范,不同企业间的数据标注质量存在差异,不利于高质量数据集的产出。

三是高质量数据集评估标准匮乏的问题。

高质量数据集建设缺乏权威、通用的评估规范,本标准从数据标注流程角度提出规范要求,可作为高质量数据集评估的重要依据之一。

本标准的制定实施,有助于支撑数据标注产业专业化、智能化发展,促进数据科技创新能力提升,提高数据标注的效率和质量,推动人工智能、大数据等技术创新和应用,促进经济社会的高质量发展。

范围和主要技术内容

本标准规定了面向人工智能模型训练的高质量数据集数据标注流程规范,明确了数据标注的相关角色及其职责,规范了数据标注的流程要求、技术要求和管理要求。 本标准适用于企业、科研机构、高校等开展数据标注工作,服务人工智能等领域技术创新和产业发展;适用于地区和行业主管部门等指导开展高质量数据建设工作;适用于第三方机构开展数据标注质量测评和数据标注能力评估服务等。