国家标准计划《信息技术 电子文档语义元数据支持方法》由 TC28(全国信息技术标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 北京信息科技大学 、中国电子技术标准化研究院 、永中软件股份有限公司 、北京安信天元科技发展有限公司 、百望股份有限公司 、北京方正阿帕比技术有限公司 、北京大学 、北京数科网维技术有限责任公司 、福建福昕软件开发股份有限公司 、珠海金山办公软件有限公司 、福昕鲲鹏(北京)信息科技有限公司 、方正国际软件(北京)有限公司 、北京爱知之星科技股份有限公司 、北京新云胜科技有限公司 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
以办公文档代表的流式文档和以电子公文代表的固定版式文档都是重要的信息资源,富含大量宝贵的语义信息,可以供各类文档用户利用。
但是目前尚未有简单的办法获得这些文档中的语义信息。
如果需要获得这些语义信息,需要通过多种自然语言处理工具对文档数据进行分析、挖掘,最后提取出信息。
一方面,一份文档的所有用户为了这个目的,都要进行复杂的语义提取工作,会浪费大量的人力和计算资源;另一方面,这些语义信息未必是作者要表达的初衷,通过自然语言提取的信息很多是不准确的。
该标准拟通过制定元数据规范,能够准确地记录文档生存周期中积累的语义信息以及作者和文档使用者提供的语义信息,便于文档语义信息的共享和高效利用,为文档分类、信息检索、文档推荐、信息提取、自动摘要、文档理解、格式优化、文档评估等任务打好基础。
该标准规定了在基于XML的电子文档中嵌入语义元数据的方法,便于机器识别在电子文档中记录和标注语义元数据,用于文档的高效检索和信息提取等智能化处理。主要技术内容包括:语义元数据描述框架、文档语义元数据词汇表、语义元数据嵌入方式、语义元数据嵌入实现指南等。该标准重点支持关键词词频、编辑时间、摘要以及命名实体标注等。 该标准适用电子文档系统的开发者与使用电子文档的用户。