国家标准计划《生物技术 生命科学中数据格式和描述的要求》由 TC387(全国生化检测标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 中国测试技术研究院 、深圳华大生命科学研究院 、深圳华大基因科技有限公司等 。
07 数学、自然科学 |
07.080 生物学、植物学、动物学 |
本标准等同采用ISO国际标准:ISO 20691:2022。
采标中文名称:生物技术 生命科学中数据格式和描述的要求。
在生命科学研究及其成果在生物技术中的应用中,诊断学和制药行业比较依赖于从广泛的化验、生物学和功能研究中广泛从复杂数据以及过程描述、实验室中和现场测量等方式获得数据。
这之中包括用一些衍生的生物数据进行生物、生物技术和生理过程的计算重建、建模和模拟,以及他们在生物技术工作流程中的应用。
数据支持的生命科学和生物技术研究跨越了广泛的生物和生物技术领域和应用(例如人类健康、基因工程生物、环境科学、农业、生物修复、DNA测序、色谱、显微镜)。
生命科学中的数据驱动、数据密集和大数据分析方法只有使用计算方法并通过数据的一致描述、结构化和集成才可能实现。
数据的存储、表示、意义、解释、交换和再利用都受到格式设计的影响。
通过为生命科学中的数据记录、处理、重用和交换设定基本要求,满足建立可互操作和明确的数据记录、描述和传输框架的关键需求,从而实现最大的数据价值和利用是极其有必要的。
这些来自不同来源、在不同时间记录的生命科学数据必须是可查找、可访问、可互操作和可重复使用的(F-A-I-R)。
数据集只有在可访问并以结构良好、一致的格式存储时,才是有价值和有用的。
数据版本控制、数据归档和跟踪数据来源由不受时间限制且独立于平台的格式确保。
完整且可更新的元数据(即描述数据的数据)是必要的,它能有助于数据的定位、使用和分析。
通过ISO20691国际标准《Biotechnology — Requirements for data formatting and description in the life sciences》的采标,提供了标准化可互操作生命科学数据格式的要求和建议。
它为生物技术和生物领域社区定义的许多不同的子领域特定数据格式和描述标准提供了概念框架和参考。
为了通俗易懂地利用所引用的特定领域格式化和描述标准及其协同互作而描述了一个最低要求和规则的独立技术框架。
因此,本文件提供了相关子领域总体数据格式和通俗的描述规则与指南,作为跨域数据集成的基础。
此外,还提供了创建特殊(子)领域的标准、互操作性及其实现的规则和指南,对于上述数据格式必要性的要求,发挥数据价值方面是可行的。
本文件规定了生命科学(包括生物技术和生物医学以及非人类生物研究和开发)中数据和相应元数据(即描述数据及其上下文的数据)的一致格式和文档的要求。它为生命科学中的数据呈现提供了可查找、可访问、可互操作和可重用(F-A-I-R)的指导。 本文件适用于为其他目的而系统地捕获、记录或整合生命科学中的数据及其相应的元数据的手动或计算流程。 本文件提供了手动获得的主要实验或程序数据和机器导出数据的格式要求。 本文件还描述了生命科学中数据和相应元数据的存储、共享、访问、互操作性和重用的要求。本文件规定了从生命科学自动化高通量流程中系统获取大量数据的要求,以及通过其他生命科学技术和手动数据获取的大小规模数据集的要求。 本文件适用于生物技术和生命科学中的许多领域,包括不限于:生命科学所有领域的基础/应用研究,以及工业、医学、农业、或环境生物技术(不包括用于诊断或治疗目的)及其方法学驱动的领域,如基因组学(包括大规模并行测序、宏基因组学、表观基因组学和功能基因组学)转录组学、翻译组学、蛋白质组学、代谢组学、脂质组学、糖组学,酶学,免疫化学,合成生物学,系统生物学,系统医学及相关领域。