国家标准计划《重大科技基础设施平台 光子与射线实验数据元数据》由 TC486(全国科技平台标准化技术委员会)归口 ,主管部门为科技部。
主要起草单位 中国科学院高能物理研究所 、中国科学院计算机网络信息中心 、上海科技大学 、中国科学技术大学 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
为了进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好支撑国家科技创新、经济社会发展和国家安全,2018年国务院办公厅发布了《科学数据管理办法》,2019年中国科学院发布了《中国科学院科学数据管理与开放共享办法(试行)》。
这些政策的颁布,都是对当前科学数据的管理、安全、开放共享水平提出了更高的要求。
基于光子与射线科学的重大科技基础设施,是当今人类深度探索微观世界的有力工具,为物理、化学、生命科学、材料科学、能源科学、环境等研究领域提供了重要的研究平台,对突破科学前沿、解决经济社会发展和国家安全重大科技问题具有重大意义,是“国之重器”。
近年来,中国这类大装置发展迅速,国内处于规划、建设和运行的光子与射线大科学装置总计有12个,国家投入总建设经费达到数百亿元。
其中,正在运行中的装置包括大连光源、北京同步辐射装置、上海光源I期和II期、上海软X射线自由电子激光装置、合肥国家同步辐射装置、上海超强超短激光实验装置、中国散裂中子源;建设中的装置有高能同步辐射光源、上海硬X射线自由电子激光装置、深圳中能高重复频率X射线自由电子激光、合肥先进光源;规划的有南方光源。
光子与射线科学重大科技基础设施每年产生海量的科学数据,这些科学数据的管理和共享利用水平是影响科技创新能力的重要因素。
目前,国内在这些科学数据管理的层面并没有相应的规范和标准指导,造成科学数据管理混乱,在数据利用和共享上面临严重问题。
为了加强光子与射线科学领域科学数据的规范化管理,提高科学数据的共享利用水平,需要一套元数据标准对科学数据进行统一规范描述,为数据保存、开放共享和利用提供重要保障,从而更好地服务于多学科交叉领域群体,对前沿研究成果产出提供重要支撑。
1)此标准的研制,是光子与射线科学领域科学数据管理、共享与交换的工作基础。
随着加速器、探测器以及实验方法学的发展,光子与射线科学重大科技基础设施产生的实验数据量呈现爆发性增长,单个设施每年产生达到数百PB甚至数EB的科学数据,约占所有科学数据中心数据总量的五分之一。
制定本领域的科学数据元数据标准可以规范和统一光子与射线科学领域科学数据描述方法,对数据的结构、内容进行定义和约束,保证数据描述的准确性和精确性,提升数据质量,有利于对海量数据的互操作和规范合理使用,是科学数据管理、开放共享及利用的基本前提。
2)此标准的研制,为满足“面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康”需求的多学科领域研究提供重要支撑。
光子与射线类国家重大科技基础设施支撑众多科学领域的研究,包括物理、化学、地球科学、材料、能源、环境、生命科学、物质等,同时它为不特定领域的大量用户提供实验平台和测试手段,用户群体覆盖国内外高校、科研机构、企业、医院、军队等,平均每年服务用户达数万人次,支撑着每年数万项研究成果产出。
制定本领域的科学数据元数据标准,将服务于众多的科学领域研究,面向广泛的用户群体提供标准的数据访问,有利于推动数据的共享和利用,进一步提升科学数据的价值。
此标准的研制,对各装置元数据制定有重要的参考意义,是本领域科学数据体系的重要组成。
本标准是以科技资源核心元数据为基础,在科学平台的标准体系下制定的光子与射线重大科技基础设施平台实验数据元数据标准,对光子与射线类国家重大科技基础设施产生的科学数据进行规范性描述,包括与数据权属、数据安全、数据共享和利用等相关的必要元数据。
这些元数据将为此类国家重大科技基础设施制定元数据及数据标准提供参考。
主要技术内容:规定了光子与射线重大科技基础设施平台实验数据元数据基本要求、信息内容以及元数据字典。光子与射线重大科技基础设施平台实验数据元数据由6部分元数据信息组成,包括:数据集信息、样品信息、实验信息、数据预处理信息、共享信息和成果信息。这些元数据的结构采用UML包图和类图表示,采用包图表示总体逻辑结构,类图定义元数据集合或子集相关的实体、数据类型和代码表。另外,在附录中用数据字典对相应的实体与元素进行详细说明。 本标准是科技平台标准体系下的“资源描述”大类下的领域通用元数据(如图1所示)。本项目依据GB-T 30522-2014科技平台元数据标准化基本方法建立。 本项目继承科技平台GB-T 30523-2023科技资源核心元数据的属性、核心元数据、元数据扩展原则和方法(如图2所示),规定了光子与射线重大科技基础设施平台实验数据元数据的结构与内容,扩展原则,适用于本领域内科学数据资源的管理、建库、发布、共享、交换与应用等。