注册

国家标准项目《信息技术 藏语语音识别数据标注规范》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC2(全国信息技术标准化技术委员会字符集与编码分会)执行 ,主管部门为国家标准委

主要起草单位 西藏大学电子科技大学中国电子技术标准化研究院青海师范大学北京邮电大学中国科学院声学研究所

目录

基础信息

制修订
制定
项目周期
18个月
公示开始日期
2026-05-08
公示截止日期
2026-06-07
标准类别
方法
国际标准分类号
35.240.01
35 信息技术、办公机械
35.240 信息技术应用
35.240.01 信息技术应用综合
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会字符集与编码分会
主管部门
国家标准委

起草单位

与国家标准同步制定外文版

编号 语种 翻译承担单位 国内外需求情况
1 EN 电子科技大学 藏语语音是大语言模型研究中的基础语料数据,直接决定人工智能模型架构的性能。对于国内外学者及工程师而言,藏语语音作为小资源数据,在国内外需求量很大,特别急缺。

范围和主要技术内容

本文件规定了信息技术领域藏语语音数据标注的全流程技术要求,涵盖数据标注框架、标注规则、质量控制及试验方法。核心内容包括:藏语语音数据标注的总体架构设计,方言适配的标注规则体系,时间边界定位、语音属性标注、噪声标注等关键操作规范,以及标注人员资质、工具环境、任务管理等配套要求。标准同步明确了标注任务评估、质量控制流程的试验方法,包含标注一致性检验、错误率统计等量化评价指标。 本文件适用于藏语卫藏方言、康巴方言和安多方言的语音数据标注活动,具体应用场景包括但不限于:智能语音系统的训练数据构建、多模态人工智能模型的语料预处理、民族文化遗产的数字化保护工程。标准实施可支撑语音识别、语音合成、机器翻译等技术在民族地区教育、医疗、安防等领域的精准应用,同时为我国主导国际藏语语音处理标准体系提供基础技术参照,推动语言资源数字化与国家安全需求的深度融合。

国家级科研专项支撑

新一代人工智能国家科技重大专项,藏语言文字自动识别技术研发与应用+2022ZD0116100+藏语多源异构数据增强及知识提取关键技术研究