国家标准计划《高质量数据集 数据标注要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局。
主要起草单位 中国电子信息产业发展研究院 、中移动信息技术有限公司 、中国移动通信集团有限公司 、国家工业信息安全发展研究中心 、中国电子技术标准化研究院 、工业和信息化部电子第五研究所 、中国电信集团有限公司 、中国信息通信研究院 、联通数据智能有限公司 、航天科工网络信息发展有限公司 、数据堂(北京)科技股份有限公司 、北京海天瑞声科技股份有限公司 、北京理工大学 、中电数据产业集团有限公司 、中移互联网有限公司 、数据空间研究院 、中国联合网络通信集团有限公司 、四川省大数据中心 、数字广东网络建设有限公司 、中国联合网络通信有限公司软件研究院 、北京百度网讯科技有限公司 、华为技术有限公司 、科大讯飞股份有限公司 、中国南方电网有限责任公司 、安徽飞数信息科技有限公司 、农业农村部大数据发展中心 、国网江苏省电力有限公司 、江苏中堃数据技术有限公司 、青岛港国际股份有限公司 、中电金信软件有限公司 、国家电投集团数字科技有限公司 、中国电信集团有限公司 、中电信人工智能(北京)科技有限公司 、中国人民大学 、北京交通大学 、北京化工大学 、成都工业学院 、广州市政务服务和数据管理局 、下一代互联网关键技术和评测北京市工程研究中心有限公司等 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
高质量数据集是人工智能模型训练、推理和验证的关键基础,加快建设人工智能高质量数据集,对于推动人工智能技术创新、产业升级和社会进步意义重大。
国家高度重视高质量数据集建设,先后出台《关于促进数据产业高质量发展的指导意见》《关于促进数据标注产业高质量发展的实施意见》等政策文件,提出开发高质量数据集,建立数据标注标准体系框架,制定数据标注技术、质量、能力等国家标准。
本标准提出了数据标注的流程规范,着力解决以下问题:一是数据标注流程不规范问题。
企业对数据标注流程的管理不够清晰合理,会带来标注效率低下问题,也可能引发数据安全风险。
二是数据标注质量参差不齐的问题。
由于当前缺乏统一的规范,不同企业间的数据标注质量存在差异,不利于高质量数据集的产出。
三是高质量数据集评估标准匮乏的问题。
高质量数据集建设缺乏权威、通用的评估规范,本标准从数据标注流程角度提出规范要求,可作为高质量数据集评估的重要依据之一。
本标准的制定实施,有助于支撑数据标注产业专业化、智能化发展,促进数据科技创新能力提升,提高数据标注的效率和质量,推动人工智能、大数据等技术创新和应用,促进经济社会的高质量发展。
本标准规定了面向人工智能模型训练的高质量数据集数据标注流程规范,明确了数据标注的相关角色及其职责,规范了数据标注的流程要求、技术要求和管理要求。 本标准适用于企业、科研机构、高校等开展数据标注工作,服务人工智能等领域技术创新和产业发展;适用于地区和行业主管部门等指导开展高质量数据建设工作;适用于第三方机构开展数据标注质量测评和数据标注能力评估服务等。