国家标准项目《信息技术 多场景、多字体藏文文字识别数据标注规范》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC2(全国信息技术标准化技术委员会字符集与编码分会)执行 ,主管部门为国家标准委。
主要起草单位 西藏大学 、电子科技大学 、中国电子技术标准化研究院 、青海师范大学 、北京邮电大学 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
| 编号 | 语种 | 翻译承担单位 | 国内外需求情况 |
|---|---|---|---|
| 1 | EN | 电子科技大学 | 多场景藏文多字体文字识别数据集是跨模态模型研究中的关键基础语料,其质量直接影响人工智能模型架构的性能表现。作为稀缺的小语种资源,藏文文字识别数据在国内外学术界和工业界都具有极高的需求度,目前面临着严重的供给不足问题。当前,构建高质量、多场景的藏文多字体文字识别数据集已成为藏语自然语言处理领域的迫切需求。 |
本文件规定了信息技术领域藏文多字体文字识别数据标注的全流程技术要求,涵盖图文数据采集标注流程、标注规则、质量控制及试验方法。核心内容包括:藏文文字识别数据标注流程的总体架构设计,场景标注、文字框标注、字体类型标注、内容标注等关键操作规范,以及标注人员资质、工具环境、任务管理等配套要求。标准同步明确了标注任务评估、质量控制流程的试验方法,包含标注一致性检验、错误率统计等量化评价指标。 本文件适用于藏文图文数据标注活动,具体应用场景包括但不限于:OCR系统的训练数据构建、文献数字化、民族文化遗产的数字化保护工程、网络平台内容审核、多模态人工智能模型的语料预处理等自然语言处理任务。标准实施可支撑文字识别、文字生成、机器翻译等技术在民族地区教育、医疗、安防等领域的精准应用,同时为我国主导国际藏文自然语言处理标准体系提供基础技术参照,推动语言资源数字化与国家安全需求的深度融合。
新一代人工智能国家科技重大专项,藏语言文字自动识别技术研发与应用+2022ZD0116100+藏语多源异构数据增强及知识提取关键技术研究