国家标准计划《数据产品 质量评价通用要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局。
主要起草单位 中国南方电网有限责任公司 、国家数据发展研究院 、国家工业信息安全发展研究中心 、清华大学 、中国信息通信研究院 、哈尔滨工业大学 、中移动信息技术有限公司 、清华四川能源互联网研究院 、中国电子技术标准化研究院等 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
随着数字经济的蓬勃发展,数据已成为推动社会进步和产业升级的关键生产要素,高质量数据产品是数据要素市场化配置的重要支撑。
数据产品作为全国统一数据市场的流通对象,数据产品质量参差不齐等问题,缺乏评价机制和监管方法,严重制约了数据资源的高效流通与利用。
由于不同的业务需求、技术限制、使用场景等导致数据产品质量评价方法各异、指标不一等问题,因此亟需建立标准化的数据产品质量评价通用要求,搭建各行业通用的评价框架,形成科学、规范的数据产品质量评估方法,提升数据产品的可用性、可信度和价值,满足数据产品流通评价与监管方面需求,促进数据在产业链中高效流通利用。
本标准面向交易流通的多维度量化评价体系,涵盖数据产品样本质量、数据产品生产质量、数据产品描述符合性质量与数据产品使用质量四个核心维度,涵盖了从原始数据、数据产品开发、数据产品流通与数据产品使用的全生命周期,提出多维度评价指标体系与量化数据产品质量评价方法,为数据产品定价和交易流通提供了可操作的质量评估依据,是即将出台的数据市场文件的细化补充,对促进数据要素市场规范化发展具有重要指导意义。
1)范围 本标准规定了数据产品质量评价的通用要求,适用于数据交易流通过程中对数据产品质量的量化评价与管理,包括但不限于数据供应方、采购方、第三方评估机构、监管机构等在数据质量证明、验证、评测、争议解决等场景中的应用。 2)主要技术内容 本标准规定了对数据质量评价通用要求的原则、指标、方法等内容。在数据产品样本质量层面,扩充完善前序国标指定的完整性、准确性与及时性等传统量化评价方法,建立检测与修正流程;在数据产品生产质量层面,从数据治理对于质量提升以及加工分析过程可能出现的对数据产品质量问题的影响两个维度建立评价方法;在数据描述符合性维度,引入时间跨度、内容覆盖度等指标,评价数据产品与其描述信息的一致性;在数据产品使用质量层面,构建特征分布、信息量(熵值计算)及模型训练效果(模型性能增益)等量化指标,量化数据产品面向人工智能等数据应用的使用质量评价。