国家标准项目《信息技术 藏语语音识别数据标注规范》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC2(全国信息技术标准化技术委员会字符集与编码分会)执行 ,主管部门为国家标准委。
主要起草单位 西藏大学 、电子科技大学 、中国电子技术标准化研究院 、青海师范大学 、北京邮电大学 、中国科学院声学研究所 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
| 编号 | 语种 | 翻译承担单位 | 国内外需求情况 |
|---|---|---|---|
| 1 | EN | 电子科技大学 | 藏语语音是大语言模型研究中的基础语料数据,直接决定人工智能模型架构的性能。对于国内外学者及工程师而言,藏语语音作为小资源数据,在国内外需求量很大,特别急缺。 |
本文件规定了信息技术领域藏语语音数据标注的全流程技术要求,涵盖数据标注框架、标注规则、质量控制及试验方法。核心内容包括:藏语语音数据标注的总体架构设计,方言适配的标注规则体系,时间边界定位、语音属性标注、噪声标注等关键操作规范,以及标注人员资质、工具环境、任务管理等配套要求。标准同步明确了标注任务评估、质量控制流程的试验方法,包含标注一致性检验、错误率统计等量化评价指标。 本文件适用于藏语卫藏方言、康巴方言和安多方言的语音数据标注活动,具体应用场景包括但不限于:智能语音系统的训练数据构建、多模态人工智能模型的语料预处理、民族文化遗产的数字化保护工程。标准实施可支撑语音识别、语音合成、机器翻译等技术在民族地区教育、医疗、安防等领域的精准应用,同时为我国主导国际藏语语音处理标准体系提供基础技术参照,推动语言资源数字化与国家安全需求的深度融合。
新一代人工智能国家科技重大专项,藏语言文字自动识别技术研发与应用+2022ZD0116100+藏语多源异构数据增强及知识提取关键技术研究