国家标准计划《语言资源管理 语义标注框架(SemAF) 第11部分:可度量数量信息(MQI)》由 TC62(全国语言与术语标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 南方电网科学研究院 、中国标准化研究院 、华南师范大学等 。
01 综合、术语学、标准化、文献 |
01.020 术语学(原则和协调配合) |
本标准等同采用ISO国际标准:ISO 24617-11:2021。
采标中文名称:语言资源管理 语义标注框架(SemAF) 第11部分:可度量数量信息(MQI)。
在高速发展的大数据时代,行业界和学术界对精准获取可度量数量信息的需求有所增加。
例如,商业投资公司经常需要从年报中汇总目标公司的各种信息,包括净销售额、毛利润、营业费用、营业利润、利息费用、税前净利润、净收入等。
快速发展的医学信息学研究也需要处理大量的医学文本,以分析药物的剂量、临床试验的合格标准、患者的表型特征、临床记录中的实验室测试等。
行业或医学研究中的所有这些需求都要求准确、一致地表示可度量数量信息,以便进行自动化处理、计算和交换。
然而,在信息检索(IR)和自然语言处理(NLP)领域,目前还没有标准化的方式来表示可度量数量信息。
迄今为止,工业部门开发的每个应用系统均使用自己的格式来标注可度量数量信息。
所以需要一种灵活的、可互操作的和标准化的可度量数量信息表示格式,用于信息提取和自然语言处理任务,以便与许多不同的应用系统一起工作。
本标准的研制有助于提高标准等文本资源的结构化处理、解析的效率与准确率,有助于标准数字化实现,有效促进数据资源的共享、整合,提高数据资源服务能力。
本文件涵盖了量的可度量或量值方面,以便其能够关注信息检索(IR)、问题回答(QA)、文本总结(TS)和其他自然语言处理(NLP)应用中测量的技术或实际应用。本文件适用于比在一般语言使用发现的一些理论问题更具应用相关性的技术领域。 主要技术内容包括:数量标记语言的抽象规范、数量标记语言基于XML的具体语法、数量标记语言基于TEI的具体语法。