注册

国家标准计划《信息与文献 网络存档的统计和质量问题》由 TC4(全国信息与文献标准化技术委员会)归口 ,主管部门为国家标准化管理委员会

主要起草单位 中国科学院文献情报中心中国科学院档案馆北京大学图书馆

目录

基础信息

计划号
20214718-Z-469
制修订
制定
项目周期
18个月
下达日期
2021-12-31
申报日期
2021-05-10
公示开始日期
2021-11-10
公示截止日期
2021-11-24
标准类别
基础
国际标准分类号
01.140.20
01 综合、术语学、标准化、文献
01.140 信息学、出版
01.140.20 信息学
归口单位
全国信息与文献标准化技术委员会
执行单位
全国信息与文献标准化技术委员会
主管部门
国家标准化管理委员会

起草单位

采标情况

本标准等同采用ISO国际标准:ISO/TR 14873:2013。

采标中文名称:信息与文献 网络存档的统计和质量问题。

目的意义

网络存档活动于 20 世纪 90 年代末,是针对网络资源所采取的一系列活动,包括选择、采集、存储、保存及未来的访问管理。

随着信息技术的飞速发展,人类社会整体进入了大数据时代,网络资源富含丰富的信息内容,能够真实的反应人类社会的发展,成为人类文化遗产的重要组成部分。

网络存档成为国家文化遗产保存机构的历史使命的一部分,越来越多的国家在其立法框架(如呈缴)中支持, 网络存档已经成为存档机构的日常工作内容。

网络信息包括许多类型的资源,例如文本、图片、电影、音频及其他多媒体格式的资源。

除了内部关联的网页,还有新闻组、时事通讯、博客和互动服务(如游戏)。

网络存档的主要目的是永久保存 Web 内容,并使之尽可能地接近于原始样式,以满足各种学术、专业和私人用途。

因此网络存档的完整性和质量成为网络内容保存的关键问题,因此网络存档的完整性和质量成为网络内容保存的关键问题。

由于网络存档是一项长期且不断增长的活动,持续地需要新方法和工具来适应快速发展的 Web 技术。

由于存档机构制定的战略重要性, 可获取的方式以及法律需要的不同,网络存档会采用不同的方法来进行网络资源的存档,从采集个别网页到采集整个顶级域。

机构中的网络存档活动的成熟度也不同,在一些机构中网络存档成为日常的活动,而其他的机构可能才开始进行试验活动来探索这项挑战。

随着越来越多的遗产和研究机构参与网络存档,世界范围内出现了对网络存档活动和产品的管理和评估指南的需求。

因此,在 2009年, ISO 技术委员会 46(信息和文献)决定成立一个“网络存档统计和质量指标”工作组,本技术报告即为该工作组 2013 年的成果。

该技术报告的目的是为了展示如何对作为更广泛遗产数字集合的网络存档资源进行评测和管理(基于传统图书馆工作流的类似及兼容的方式)。

这份报告解决了数字集合的发展、鉴定、描述、保存、使用和组织结构的问题,同时表明,尽管在实践中需要作出调整,但传统的集合管理工作流的许多方面在网络存档中依然有效。

范围和主要技术内容

范围: 该技术报告对当前网络存档的发展情况作了一个全面的回顾,重点在于网络存档资源统计指标和质量指标的定义和使用。部分统计指标依赖于所使用的采集、索引或浏览软件,使用不同的软件可能会导致结果的偏差。然而,这份技术报告没有特定认可及推荐的软件,它提供了一系列指标来帮助评估网络存档资源的性能和质量情况。 主要内容: 该技术报告为网络存档定义了统计、术语和质量标准。技术报告考虑了众多机构组织的需求和实践,如图书馆、档案馆、博物馆、研究中心和遗产基金会。所提及的案例来自于图书馆部门,因为图书馆(特别是国家图书馆)在呈缴的情况下承担了网络存档的新任务,但也不能抹杀非图书馆机构的重要贡献。同时也不会缩小这份技术报告对于文化遗产机构和存档专家的适用范围。 该技术报告的目标人群是直接参与网络存档的专家,包括图书馆和档案馆的保管人员、工程师及管理人员。对于网络存档机构的资助机构和外部的利益相关方,该技术报告同样有用。该技术报告使用的术语试图反映读者的广泛兴趣和专业知识,以更好地平衡计算机科学、管理和图书馆员之间的差异。 该技术报告未考虑对学术和商业电子资源的管理,如数字期刊、数字报纸、电子书,经常使用不同的管理系统分开存储和处理它们。 它们虽然被作为网络资源,但作为网络存档中的一种独特的内容,在这份技术报告中未作考虑。一些机构也收集基于网络,通过出版商电子存储或仓储系统传送的电子文档,但这些文档同样不是这份技术报告关注的内容。这些数字集合使用到的规则和技术与网络存档使用的有很大不同;与某一种方法相关的统计和质量指标和另一种方法的统计数据和质量指标没有必然的相关性。 最后该技术报告实质上专注于网络存档的规则和方法,并没有包括收集网络资源的其他方式。事实上,一些网络资源,特别是那些没有分布在网络上的资源(如分布在邮箱中的新闻通讯),不是通过网络存档技术来采集,而是通过其他方式进行采集,在这份技术报告中没有描述及分析。