注册

国家标准计划《人工智能 面向机器学习的数据标注规程》由 TC28(全国信息技术标准化技术委员会)归口 ,主管部门为国家标准委

主要起草单位 北京航空航天大学中国电子技术标准化研究院

目录

基础信息

计划号
20201611-T-469
制修订
制定
项目周期
24个月
下达日期
2020-04-01
申报日期
2019-09-04
公示开始日期
2020-01-07
公示截止日期
2020-01-21
标准类别
基础
国际标准分类号
35.240
35 信息技术、办公机械
35.240 信息技术应用
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会
主管部门
国家标准委

起草单位

目的意义

目前,人工智能的迅速崛起与飞速发展,正在深刻地影响着社会的发展和生产方式的变革。

国务院于2017年发布《新一代人工智能发展规划》,更是将人工智能视为建设创新型国家和世界科技强国的重大战略机遇。

其中,如何对数据进行高效高质的标注,形成机器学习,特别是深度学习所需的高质量的训练数据集,并汇聚成为公共数据资源库和标准测试数据集,无疑是影响人工智能发展的重要先决条件。

《规划》中明确指出要“建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台等,形成人工智能算法与平台安全性测试评估的方法、技术、规范和工具集”。

所以高质量的标注数据对于新一代人工智能发展的意义犹如石油对于现代工业的意义。

数据标注是产生自然语言处理、计算机视觉、语音识别及合成等人工智能相关领域所需高质量数据的重要方式,但目前仍缺少标准化的数据标注流程规范,以指导相关企业与科研机构开展数据标注工作,产生满足人工智能模型生成的大规模高质量标注数据。

标注标准的制定不仅能确保在统一的流程下,所生产的数据是高质可用的,更能促进标注数据在行业内的分享和重复利用,推进公共或共享数据资源库的建立,降低我国人工智能行业的数据使用门槛和成本。

范围和主要技术内容

本标准确立了面向机器学习的数据标注流程框架,规定了数据标注流程中包括数据标注前期准备、数据标注任务执行以及标注数据结果输出三个阶段中的指示,描述了数据交付和验收方法。 本标准适用于面向人工智能研究或开发应用等需要实施数据标注的企业、高校、科研院所、政府机构等。