注册

国家标准项目《术语资源管理 术语数据抽取》由 TC62(全国语言与术语标准化技术委员会)归口 ,主管部门为国家标准委

主要起草单位 中国科学技术信息研究所中国标准化研究院

目录

基础信息

20256492-T-469
制修订
制定
项目周期
12个月
2025-12-02
公示开始日期
2025-10-11
公示截止日期
2025-11-10
标准类别
其他
国际标准分类号
01.020
01 综合、术语学、标准化、文献
01.020 术语学(原则和协调配合)
归口单位
全国语言与术语标准化技术委员会
执行单位
全国语言与术语标准化技术委员会
主管部门
国家标准委

起草单位

采标情况

本标准修改采用ISO国际标准:ISO 5078:2025。

采标中文名称:术语资源管理 术语数据抽取。

范围和主要技术内容

本标准描述了从文本语料库中抽取候选术语的方法,提供了选取相关指称、定义、概念关系及其他术语数据相关信息的指南。本文件适用于术语数据抽取的相关工作。 本标准主要技术内容:(1)文本语料库构建。明确用于术语数据抽取的文本语料库类型(如单语语料库、双语语料库、可比语料库等)、语料库文本选择准则(如内容来源、权威性、文档类型等)、语料库创建注意事项等。(2)术语数据抽取途径方法。提供按语种数量(如单语、双语等)、处理过程(如手动抽取、自动抽取等)、技术(如机器学习、规则等)等进行划分的术语数据抽取技术方法。(3)术语数据输出与应用。提供候选术语过滤、评估方法,说明抽取结果的应用方式等。(4)术语数据抽取流程。定义术语数据抽取的总体工作流程,包括术语数据抽取方法选择、文本语料库构建或选择、识别候选术语等步骤。