注册

国家标准计划《术语资源管理 术语数据抽取》由 TC62(全国语言与术语标准化技术委员会)归口 ,主管部门为国家标准委

主要起草单位 中国科学技术信息研究所中国标准化研究院

目录

基础信息

计划号
20256492-T-469
制修订
制定
项目周期
12个月
下达日期
2025-12-02
公示开始日期
2025-10-11
公示截止日期
2025-11-10
标准类别
其他
国际标准分类号
01.020
01 综合、术语学、标准化、文献
01.020 术语学(原则和协调配合)
归口单位
全国语言与术语标准化技术委员会
执行单位
全国语言与术语标准化技术委员会
主管部门
国家标准委

起草单位

采标情况

本标准修改采用ISO国际标准:ISO 5078:2025。

采标中文名称:术语资源管理 术语数据抽取。

目的意义

术语数据抽取是对候选术语数据的识别与摘录的过程,是实现文本资源结构化、语义化的基础。

术语作为知识表达和传递的核心单元,在政务、医疗、法律、教育、人工智能等多个领域具有重要作用。

随着数字化转型加快推进,各类语义资源、知识图谱、智能系统建设对高质量术语资源的结构化抽取提出了更高要求。

术语数据抽取作为术语资源管理中的基础环节,是实现术语规范化、体系化管理的关键技术。

不同行业术语数据抽取、评估等不统一,极大制约了术语资源的复用效率与互操作能力。

制定统一的术语数据抽取标准,规范术语数据抽取流程、方法、质量评估等,将有效提升术语资源的质量与应用效率,满足不同行业术语资源建设的共性需求,促进数据治理与信息互操作,为产业数字化、智能化提供支撑。

《“十四五”数字经济发展规划》中提到“推动数据资源标准体系建设,提升数据管理水平和数据质量,探索面向业务应用的共享、交换、协作和开放。

加快推动各领域通信协议兼容统一,打破技术和协议壁垒,努力实现互通互操作,形成完整贯通的数据链。

”目前我国尚无术语数据抽取相关的国家标准,缺乏统一的术语数据抽取方法和评估体系,术语资源质量不稳定、成果难以共享。

通过修改采用国际标准,规范术语数据抽取方法、技术等将有助于提升我国术语工作标准体系的完整性,推动数据资源标准体系建设。

作为术语资源管理系列标准的一部分,与正在起草的20252290-T-469《术语资源管理 术语数据库 第2部分:软件》和已发布GB/T 44227-2024《术语资源管理 术语数据库交换(TBX)》,共同完善术语资源管理整体框架。

该标准的制定与实施能够提升术语数据处理效率,助力知识图谱、智能检索、智能问答等产品的快速迭代;提高术语资源的准确性与一致性,增强跨部门、跨系统的信息共享能力。

术语数据抽取技术成熟,应用基础扎实。

术语数据抽取技术经过多年发展,已形成基于统计、规则、机器学习等多种方法的成熟体系,术语数据抽取工具与平台已在政务、医疗、法律等行业部署应用,具备标准制定的技术储备和应用场景支撑。

本标准提炼适用于多行业、多场景的术语数据抽取通用流程和规范要求,具备可操作性强、落地路径清晰、推广成本低等优势。

中国科学技术信息研究所下设7个职能处室、12个公益部门和3个企业集团。

主要从事以“科技决策支持”为特色的信息分析研究、科技信息服务、新技术研发推广和先进服务平台管理、科技信息领域高级人才培养和继续教育培训、社团管理、媒体出版等业务,同时肩负着国家科技管理信息系统、国家科技报告服务系统、国家科技信息资源综合利用与公共服务中心、国家工程技术图书馆建设与发展的重任。

先后承担了国家重点研发计划项目、国家科技重大专项、国家自然科学基金等国家科技计划项目以及国家社会科学基金等国家级项目的研究工作和国家博士后基金项目,共计83项。

馆藏的国内外学位论文、会议论文、科技期刊、美国政府四大套报告、两院院士著作等大量文献资源为广大科研工作者开展科学研究提供了有力的支持。

创建的《中国科技论文引文数据库》《中国国际科技论文和专利数据库》《全国科技查新事实型数据库》《国际科技创新与决策支撑数据库》《区域科技资源及地方科技发展数据库》《国家科技成果转化项目库》《ISTIC专利分析数据库》等特色资源数据库,为科技创新和科技决策提供了重要的数据支撑,完成的研究报告多次受到党和国家领导人的批示。

围绕“科技文献服务系统关键技术研究与应用示范”“汉语科技词系统建设与应用工程”,以及“中国数字资源唯一标识系统建设”等行业核心技术和关键技术的研发,形成了“ISTIC专利信息检索与分析平台”“中国可持续发展模型”“科技创新辅助决策支持系统”和“中日机器翻译系统”等一批拥有自主知识产权的专利、软件系统、工具和模型,这些成果涉及术语数据提取相关方法与技术,已在行业内得到广泛应用和推广。

综上所述,中国科学技术信息研究所能够为本标准的研制提供全面的技术支撑与实施保障,确保标准内容的科学性、系统性与可推广性。

范围和主要技术内容

本标准描述了从文本语料库中抽取候选术语的方法,提供了选取相关指称、定义、概念关系及其他术语数据相关信息的指南。本文件适用于术语数据抽取的相关工作。 本标准主要技术内容:(1)文本语料库构建。明确用于术语数据抽取的文本语料库类型(如单语语料库、双语语料库、可比语料库等)、语料库文本选择准则(如内容来源、权威性、文档类型等)、语料库创建注意事项等。(2)术语数据抽取途径方法。提供按语种数量(如单语、双语等)、处理过程(如手动抽取、自动抽取等)、技术(如机器学习、规则等)等进行划分的术语数据抽取技术方法。(3)术语数据输出与应用。提供候选术语过滤、评估方法,说明抽取结果的应用方式等。(4)术语数据抽取流程。定义术语数据抽取的总体工作流程,包括术语数据抽取方法选择、文本语料库构建或选择、识别候选术语等步骤。