国家标准计划《信息技术 生物特征识别数据交换格式 第13部分:声音数据》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC37(全国信息技术标准化技术委员会生物特征识别分会)执行 ,主管部门为国家标准化管理委员会。
主要起草单位 北京得意音通技术有限责任公司 、中国电子技术标准化研究院 、清华大学 、中国人民大学 、北京眼神科技有限公司 、广州广电运通金融电子股份有限公司等 。
35 信息技术、办公机械 |
35.240 信息技术应用 |
35.240.15 识别卡和有关装置 |
本标准等同采用ISO/IEC国际标准:ISO/IEC 19794-13:2018。
采标中文名称:信息技术 生物特征识别数据交换格式 第13部分:声音数据。
目的: 本部分假定语音数据交换记录属于单个人,并记录在单个会话中。
这种格式是专门为支持各种各样的自动语音识别应用程序而设计的,包括依赖于文本和独立于文本的语音识别、验证(SIV)及注册,对语音数据捕获条件或收集环境的假设较少。
本部分从一个非常广泛的角度编写,目的是支持尽可能广泛的说话人识别应用程序和技术方法。
意义: 本部分旨在提供足够的通用性,以支持传统SIV之外的说话人识别应用程序,例如将话语链接到同一个未知的说话人,并确定一个已知的说话人不是话语的来源。
区分演讲用来创建未来比较的参考(在某些应用程序中被称为“招生”)和用于创建声音表示引用(工具)查询,只可能发生在应用程序,因此需要每个存储语音记录可能支持参考或查询的创建。
此外,自动的说话人识别可能会结合相关的技术,如语音和语言识别,不仅在目前的算法和应用,而且在未来的应用中,都有不可估量的作用。
本部分规定了一种数据交换格式,可用于存储、记录和传输一段语音中标识说话人特征的声音数据(语音),该数据格式可用于多种说话人辨认和确认(SIV)程序,包括文本相关和文本无关,并且对声音数据采集条件或采集环境做出的假设最小。将这种数据格式封装的数据的用于其他用途,如自动语音识别(ASR),是有可能的,但该标准不会解决这个问题。本部分不涉及处理特征或语音模型级别的数据处理、数据流传输以及特定应用程序的要求、设备或特性。本部分支持非标准扩展数据,包含原始数据和数字处理(增强)的声音数据交换。对原始源输入的任何处理的描述应包含在与语音表示相关联的元数据中。