国家标准计划《信息与文献 国际标准内容编码(ISCC)》由 TC4(全国信息与文献标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 中国科学院计算机网络信息中心 、中国科学技术信息研究所 。
| 01 综合、术语学、标准化、文献 |
| 01.140 信息学、出版 |
| 01.140.20 信息学 |
本标准等同采用ISO国际标准:ISO 24138:2024。
采标中文名称:信息与文献 国际标准内容编码(ISCC)。
数字资产是数字经济时代的核心生产要素,数字资产的高效流通与规范使用,是推动数字经济高质量发展的重要保障。
随着数字资产全球流通加速和数字技术迭代,数字资产的数字内容正逐渐呈现出动态变化、多元处理、复杂流通的网络共治共享特点,同一数字资产以多模态的数字内容在网络平台间呈现和流通,这为传统面向单一形态的数字内容唯一性识别带来新的挑战:一是数字内容的存储传播分散性,且各平台间数字内容识别方法私密性强、识别方法不兼容,因而难以通过统一识别方法实现数据内容跨系统互认,形成数据壁垒,阻碍数字资产全链条流通;二是数字内容的模态处理复杂性,尤其是人工智能技术快速应用催生数字内容快速演变与爆发式增长,现有各平台识别方法的单方治理模式透明度低,难以保证各平台识别结果一致性、可信性和可靠性,无法满足AI驱动下大规模数字内容唯一识别需求。
本标准围绕数字资产跨域流通下唯一识别迫切需求,立足我国数据要素市场化与智能化的重要契机,等同采纳《国际内容编码(ISCC)》标准。
ISCC通过为每一份数字内容生成唯一的编码,实现数字内容的溯源、版本管理和多平台兼容,有助于打破数据壁垒,完善我国数字内容标准化体系,促进国内数字内容技术标准国际对接,为推动我国数字资产全球范围高效流通与规范利用提供重要标准参考。
本标准规定了国际标准内容编码语法和结构,以及数字资产标识系统(包括文本、图像、音频、视频等所有媒体领域其他内容),描述了ISCC元数据及与其他标识协同应用,例如DOI, ISAN, ISBN, ISRC, ISSN and ISWC。ISCC适用于特定数字资产,是根据本文件规定的算法与规则,通过多重哈希摘要确定性生成的数据描述符。本文件不涉及ISCC的注册。 主要技术内容如下: 1)ISCC的结构与格式 ISCC由ISCC-HEADER(头部)和ISCC-BODY(主体)组成。HEADER部分定义了编码的主类型(MainType)、子类型(SubType)、版本号(Version)和长度(Length)。BODY部分通过基于数字内容的哈希算法生成。ISCC共有四种编码形式:标准形式、URI编码、多格式编码、可读编码 。 2)ISCC的主要组成单元 Meta-Code:基于元数据生成的相似性哈希,用于根据它们的元数据对数字资产进行聚类;发现具有相似元数据的数字资产;验证或手动消除匹配代码的歧义。在需要的情况下,可以进行元数据嵌入和提取。 Content-Code:基于内容本身生成的相似性哈希,支持文本、图像、音频、视频等多种内容子类型。ISCC处理器应为每个支持的子类型提供单独的函数。主要功能为发现并和匹配不同格式编码的重复内容;即使在压缩或转码为各种内容格式后,仍可根据结构或感知的相似性对近乎重复的数字资产进行聚类。 Data-Code:基于资产数据生成的相似性哈希,适用于区分数据的近似性,不关注其媒体类型是什么,可以将具有近乎相同数据的数字资产进行聚类。 Instance-Code:基于文件或流数据生成的唯一性校验码,用于检测数据完整性,不关注其媒体类型是什么。Instance-Code应能匹配与完全相同的文件,匹配并指示数据传输错误或数据操作。 3)ISCC-CODE ISCC-CODE 支持根据文件的元数据、内容和数据相似性对文件进行识别、聚类、发现和匹配,并且在适当情况下,应根据附件A中概述的原则与其他标识一起使用。为了衡量两个ISCC-CODEs的相似性,首先需要检查它们的实例代码(Instance-Codes)是否相同。然后比对相应的ISCC-UNIT之间的二进制汉明距离。较低的汉明距离值越低,表示相似性概率越高更高。较高的汉明距离值越高,表示相似性越低降低。表示相同性身份的阈值会将根据MainType和应用场景不同而有所变化不同。 4)ISCC 管理组织 ISCC的国际管理组织是ISCC Foundation。ISCC Foundation 是一个非营利性组织,负责推动 ISCC 标准的全球发展与实施。其主要职能包括制定和维护 ISCC 标准、管理相关技术规范、协调全球范围内的推广与应用,并确保 ISCC 标准的开放性和透明性。通过这一组织的协调,ISCC 致力于为数字内容的唯一标识、跨平台兼容性、版权保护以及内容溯源提供全球统一的解决方案。 5)ISCC参考实现 ISCC的提出者开源了参考实现代码,并将其发布在公共平台上,供开发者和研究人员使用。这些代码实现了ISCC生成的核心算法,包括内容指纹提取、多模态特征编码、哈希生成以及最终标识的生成等功能。