国家标准计划《科学数据溯源元数据》由 TC486(全国科技平台标准化技术委员会)归口 ,主管部门为科技部。
主要起草单位 中国科学院计算机网络信息中心 、国家科技基础条件平台中心 、国家海洋信息中心 、中国农业科学院农业信息研究所 、中国科学院地理科学与资源研究所 、国家气象信息中心 、中国科学院微生物研究所 。
35 信息技术、办公机械 |
35.240 信息技术应用 |
目的: (1)随着我国科学数据开放共享力度不断加大,提升数据质量的诉求也日益强烈。
数据溯源技术再现数据流转过程,是一种评估数据质量和数据可靠性的有效解决思路。
数据溯源(Data Provenance )也称为“数据族系( Data Lineage)”、“数据系谱( Data Pedigree)”、“数据来源( Data Derivation)”等。
通过详实记录这些原始数据的溯源信息,数据溯源为融合后的数据真实性和有效性提供直接证据。
(2)2017年发布的GB/T 34945《数据溯源描述模型》国家标准由项目申报单位中国科学院计算机网络信息中心牵头,联合多家单位研制。
该标准采用共性表达和描述方式,提出一种灵活、轻量级的数据溯源描述模型。
然而,在数据溯源信息描述方面,目前还没有适合的元数据标准。
这将直接影响到数据溯源模型语义描述能力和数据互操作水平。
(3)数据溯源信息主要来自于两个方面,一个是基于溯源的数据评估应用程序对数据评估的信息进行记录;另一个是基于数据提供者发布的溯源相关元数据信息。
实际应用过程中,只有少量处理过的溯源信息能够及时被应用程序记录下来,因此通过第三方(如数据提供者)获取溯源更完整的元数据信息成为落实数据溯源的可行方案。
意义: 《科学数据溯源元数据》是对2017年发布的GB/T 34945《数据溯源描述模型》国家标准的落实和深化。
科学数据溯源元数据通过对数据流转过程进行详实记录和客观描述,将在一定程度上解决现阶段存在的数据溯源模型描述语义不明晰和互操作水平低等问题。
数据溯源元数据作为记录数据处理过程,客观验证数据质量的实现手段之一,对于提升科学数据管理水平具有重要的意义。
本文件规定了科学数据溯源描述中数据、活动和执行实体三个基本类元数据及其描述方法。其中, 1)数据元数据包括:标识符、名称、最近提交日期、描述、关键词、访问限制、链接地址、数据来源、数据类型、更新频率、记录数、存储量、质量报告、权限声明等14个元数据元素,提交机构、数据参数等2个元数据实体。 2)活动元数据包括:数据活动名称和数据活动描述等2个元数据元素。 3)执行实体元数据包括:参与人姓名、参与人贡献度、软件名称、软件描述、工具名称、工具描述等6个元数据元素,参与人联系信息1个元数据实体。 本文件适用于科学数据生产管理机构以及数据使用者。其中,科学数据生产管理机构可根据本文件如实记录数据加工处理过程等溯源信息;数据使用者可根据本文件了解数据溯源相关描述信息。