国家标准项目《术语资源管理 术语数据抽取》由 TC62(全国语言与术语标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 中国科学技术信息研究所 、中国标准化研究院 。
| 01 综合、术语学、标准化、文献 |
| 01.020 术语学(原则和协调配合) |
本标准修改采用ISO国际标准:ISO 5078:2025。
采标中文名称:术语资源管理 术语数据抽取。
本标准描述了从文本语料库中抽取候选术语的方法,提供了选取相关指称、定义、概念关系及其他术语数据相关信息的指南。本文件适用于术语数据抽取的相关工作。 本标准主要技术内容:(1)文本语料库构建。明确用于术语数据抽取的文本语料库类型(如单语语料库、双语语料库、可比语料库等)、语料库文本选择准则(如内容来源、权威性、文档类型等)、语料库创建注意事项等。(2)术语数据抽取途径方法。提供按语种数量(如单语、双语等)、处理过程(如手动抽取、自动抽取等)、技术(如机器学习、规则等)等进行划分的术语数据抽取技术方法。(3)术语数据输出与应用。提供候选术语过滤、评估方法,说明抽取结果的应用方式等。(4)术语数据抽取流程。定义术语数据抽取的总体工作流程,包括术语数据抽取方法选择、文本语料库构建或选择、识别候选术语等步骤。