国家标准计划《科技平台 基因组科学数据元数据》由 TC486(全国科技平台标准化技术委员会)归口 ,主管部门为科技部。
主要起草单位 中国科学院北京基因组研究所(国家生物信息中心) 、国家科技基础条件平台中心 、中国标准化研究院 、中国科学院微生物研究所 、中国农业科学院农业信息研究所 、中国科学院计算机网络信息中心 、军事医学科学院 、中国科学院上海营养与健康研究所 、中国科学院生物物理研究所 、深圳国家基因库 、北京诺禾致源科技股份有限公司 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
基因组科学数据是生物领域最重要的一类分子数据,涵盖了基因组学、转录组学、表观组学、变异组学、空间组学等多个维度。
其元数据是用于描述基因组科学数据来源和其他相关特征信息的数据,可以帮助数据生产者和用户更快地找到所需数据,更好地了解数据内容和限制,评估数据对于应用需求的实用性,并恰当地获取和使用它们。
此外,基因组科学数据元数据还可为用户提供关于基因组科学数据的关键信息,帮助人们有效地保存、管理和维护这些数据,提高工作效率,并防止数据资产的丢失,维护单位和国家的有关投资。
随着生物信息领域研究的不断深入和信息技术的进步,基因组科学数据呈指数级快速增长。
但在实际研究工作中,科研人员仍感觉所需数据匮乏。
很多时候,这种匮乏并不是因为所需数据尚不存在,而在于这些数据难以发现、难以获取和缺乏可用性。
这也是我国及其它很多国家大力开展和推进科学数据共享活动的缘起。
在造成上述不协调现象的诸多因素中,元数据标准的缺乏和元数据的不规则是制约科研人员发现、管理和使用基因组科学数据的主要原因之一。
基因组科学数据元数据标准旨在基因组科学数据的基础上,规定用于描述和解释基因组科学数据信息的基本数据元素和格式标准。
加快推进基因组科学数据元数据标准研制工作,一方面可以有效集成生物大数据资源,提升生物数据资源管理经验,促进生物数据资源有序、规范和高效利用;另一方面可促进基因组科学数据全生命周期关键节点的规范化管理,并在基因组学学科建设和应用服务工作中发挥重要支撑保障作用。
因此,建立规范的基因组科学数据元数据标准对于促进基因组科学数据的共享和应用至关重要,其必要性主要体现在以下几个方面: (1)提高基因组科学数据共享和利用效率:标准的基因组科学数据元数据可以促进不同基因组科学数据平台之间的数据共享和交流,提高数据利用效率和重复使用率,避免数据孤岛和重复劳动,推动基因组科学研究的合作与发展。
(2)加强基因组科学数据质量和准确性管理:标准的元数据格式要求是对基因组科学数据进行规范化和标准化的描述,数据对象包括基因组、转录组、变异组等组学数据,有助于提高基因组科学数据的准确性和质量,减少错误和不确定性。
(3)促进基因组科学数据开放和透明:标准的元数据格式要求可对基因组科学数据进行详细而透明的描述,有助于增加公众对基因组科学数据的了解和信任,促进科学研究的开放和透明,增强科学研究的可信度和公信力。
(4)推动精准医疗和公共卫生发展:标准的基因组科学数据元数据可以为精准医疗和公共卫生提供更为准确和可靠的数据支持,包括疾病诊断、药物反应预测、流行病学调查等,提高医疗效果和公共卫生水平,促进社会健康和福祉。
(5)带动经济发展和社会进步:标准的基因组科学数据元数据可以推动生物技术、制药、健康保险、农业育种应用等相关产业的发展,创造更多的就业机会和经济效益,为社会进步和发展做出贡献。
总之,制定基因组科学数据元数据标准,覆盖当前生命科学研究所包含的主要数据的获取手段、数据类型、数据标识,对于提高基因组科学数据共享和利用效率、保障数据质量、保护知识产权、促进数据开放共享等具有重要意义。
同时,也为社会和产业发展提供更好的健康保障和支持。
本标准规定了基因组科学数据元数据的描述特征和属性,明确了一组必选的、条件必选的和可选的元数据子集、元数据实体和元数据元素,提供了对基因组科学数据的形式化描述规范。本标准还规定了为满足特殊需求对元数据进行扩展和制定元数据应用专规的规则和方法。 本标准中的基因组科学数据包括基因组科学研究活动中所产生的原始测序数据,也包括根据科研需求对原始测序数据进行加工分析整合的转录组、基因组、变异组和表观组数据等。 本标准通过定义一个通用的逻辑数据模型,保证各元数据实施之间有较高程度的语义互操作性,适用于基因组科学数据集和数据集系列的编目和描述、数据集和数据集系列的组织管理,也可用于数据交换中心的数据服务。