注册

国家标准项目《电子文档图像智能识别技术要求》由 TC28(全国信息技术标准化技术委员会)归口 ,主管部门为国家标准委

主要起草单位 中国电子技术标准化研究院珠海金山办公软件有限公司华南理工大学中国科学院自动化研究所上海合合信息科技股份有限公司华为云计算技术有限公司深圳华为云计算技术有限公司北京百度网讯科技有限公司华中科技大学

目录

基础信息

制修订
制定
项目周期
15个月
公示开始日期
2026-05-08
公示截止日期
2026-06-07
标准类别
产品
国际标准分类号
35.020
35 信息技术、办公机械
35.020 信息技术(IT)综合
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会
主管部门
国家标准委

起草单位

涉及的产品清单

该标准涉及的产品清单包括WPS Office、扫描全能王app,百度文库,华为云图像识别Image等。

范围和主要技术内容

该标准提出了电子文档图像智能识别技术框架,规定了智能识别的处理、分析、识别等技术能力和指标要求,包括约定了图像处理、版面分析、文档要素识别的技术要求、测试指标和方法等。主要内容包括: 1)电子文档图像智能识别的整体框架包括基础设施、模型要求、电子文档图像分析处理流程及应用四大部分,构成完整的电子文档图像处理与信息服务体系; 2)基础设施为电子文档图像智能识别系统提供图像采集设备、存储资源、数据资源及计算资源支撑环境; 3)模型要求通过对机器学习算法、深度学习算法、自然语言处理算法和计算机视觉算法的改进设计,构建高效、准确的电子文档图像智能识别模型,为后续图像处理、版面分析、要素识别以及最终的应用提供关键的算法支持和模型能力; 4)图像处理通过矫正、增强和图像文字修复等手段改善图像质量,通常作为电子文档图像智能识别系统中的前处理过程,为后续版面分析、要素识别等任务提供高质量的图像数据; 5)版面分析对电子文档图像中的页面布局结构进行自动解析处理,定位和分类文档中的版面元素以及它们在文档中的空间结构关系,主要包括物理版面分析和逻辑版面分析;版面分析通常作为电子文档图像智能识别系统中的关键前置步骤,为后续的内容识别、信息提取与语义理解提供结构化的版面表示 6)文档要素识别将文档要素转化为结构化数据的过程,包括文字识别、表格识别、图形图像识别、印章识别、签名识别和公式识别等对象识别。在对象识别结果的基础上,进行结果优化与后处理,包括结果矫正、阅读顺序调整、跨页信息整合和文档结构大纲提取等。 该标准适用于电子文档图像智能识别产品和服务的设计、开发、应用和测试。