注册

国家标准计划《信息技术 全双工语音交互用户界面》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC35(全国信息技术标准化技术委员会用户界面分会)执行 ,主管部门为国家标准化管理委员会

主要起草单位 中国电子技术标准化研究院科大讯飞股份有限公司苏州思必驰信息技术有限公司中国科学院自动化研究所华为技术有限公司中国电信股份有限公司上海研究院海尔北京百度网讯科技有限公司

目录

基础信息

计划号
20213220-T-469
制修订
制定
项目周期
24个月
下达日期
2021-08-24
申报日期
2020-06-12
公示开始日期
2021-02-09
公示截止日期
2021-02-26
标准类别
基础
国际标准分类号
35.240.01
35 信息技术、办公机械
35.240 信息技术应用
35.240.01 信息技术应用综合
归口单位
全国信息技术标准化技术委员会
执行单位
全国信息技术标准化技术委员会用户界面分会
主管部门
国家标准化管理委员会

起草单位

目的意义

基于AI的语音交互技术在移动互联网、智能家居、智能车载、智能客服、智慧教育、智慧医疗等领域已有着广泛的应用;作为最自然最便捷的交互方式之一,语音交互成为人们智能生活中不可缺少的一部分。

语音交互用户界面是语音交互技术实现的关键。

通过对语音识别、语义理解、语音合成等各种功能单元的有效整合以及硬软件一体化的方式,全双工语音交互用户界面成为当前人与机器进行自然流畅语音交流的重要接口和介质。

与传统语音交互的不同之处在于,传统语音交互面向单个任务,以“半双工(half-duplex)”或“单工(simplex)”的方式,将用户和机器语音对话分割成多轮次对话,用户需要频繁对机器进行语音唤醒来开启每一轮对话,并且不能随时打断整个对话过程。

而全双工语音交互面向多个语义连续任务,使用与传统语音交互不同的技术架构,通过多个功能单元的并行计算和全链路功能叠加,使得用户和机器可以在同时进行双向交流,提供单次唤醒、连续对话、随时打断的自然流畅的人机对话体验;此外,以场景、业务、用户等多源数据为基础,全双工语音交互用户界面具有更好的上下文语义理解和智能对话能力。

随着语音交互应用中,任务的复杂性、干扰的多样性和上下文语境的易变性等因素不断增大,传统语音交互已无法满足当前人机交互的需求;全双工语音交互用户界面的产品和服务越来越多地进入生产生活的方方面面,亟需要制定标准来对其基础框架、参考模型、能力要求等方面作出基本的界定、描述和通用要求。

通过标准化来达成科研与产业、用户与服务提供对全双工语音交互用户界面的一致性共识,指导相关产品和服务的技术发展,避免市场上鱼目混杂、劣币驱逐良币的现象发生,推动语音产业整体高质量发展。

目前ISO/IEC JTC 1/SC 35已立项并正在制定《信息技术 用户界面 全双工语音交互》的国际标准,本推荐性国家标准项目(以下简称本标准)拟同步制定全双工语音交互用户界面的技术要求,为不断成熟和发展的产业及市场提供标准指导,并确保中国全双工语音交互的自主创新技术与国际保持一致,将中国标准输出为国际规范。

范围和主要技术内容

1、范围 本标准给出了全双工语音交互用户界面的基础模型、参考架构,规定了功能单元和能力要求,描述了通信过程和方法。本标准适用于全双工语音交互用户界面的设计、开发、应用、测试和维护。 2、主要技术内容 功能模型:双工通信系统是点对点系统,由两个或更多个可以双向通信的连接方或设备组成。在许多通信网络中采用双工系统,以便允许两个连接方之间同时双向通信,或者提供用于现场设备的监测和远程调整的反向路径。有两种类型的双工通信系统:全双工(FDX)和半双工(HDX)。 在HDX模式语音交互中,人和机器可以相互通信,但不能同时通信。对于HDX语音交互,其中的一个例子是具有“按键说”按钮的对讲机;当本地用户想要与远程人讲话时,他们按下这个按钮,这个按钮打开发射器,但是关闭接收器,因此他们不能听到远程人的声音。为了收听另一个人,他们释放按钮,打开接收器,但关掉发射器。 与HDX相比,FDX模式中人和机器可以同时相互通信。FDX语音交互可以看作一个电话,通话两端的当事人可以同时通话并且被对方听到,因为在他们之间有双向通信信道。全双工语音交互基础模型如图1所示。 图1 全双工语音交互基础模型 全双工语音交互用户界面的参考架构如图2所示。 图2 全双工语音交互用户界面参考架构 功能单元:声学单元包括语音唤醒、录音采集和远场拾音;语音识别模块包括连续语音识别、语义VAD、无关内容拒识;语言处理单元包括语言理解和语言生成;知识和数据库包括知识库、场景数据、历史数据、用户数据;交互决策单元包括意图预测和对话管理;语音合成模块包括参数合成。 全双工语音交互用户界面的通信过程如图3所示。 图3 全双工语音交互通信过程 能力要求:用户端只需要一次唤醒(即触发用户界面的语音控制操作)便可完成整个对话流程,并且可以在整个交互过程中根据需要进行随时打断。机器端应对连续音频流进行VAD检测,应能够实现连续语音识别,并根据对话上下文的语义理解进行用户意图预测和语音交互,同时结合知识库、场景数据、历史数据、用户数据应进行对话管理,包括系统的延迟处理,在用户不说话的时候实施主动对话;在用户说话的时候选择静默模式;在需要增加生成的停顿时,宜添加语气词到语音生成中。