国家标准项目 - 全国标准信息公共服务平台

而全双工语音交互面向多个语义连续任务，使用与传统语音交互不同的技术架构，通过多个功能单元的并行计算和全链路功能叠加，使得用户和机器可以在同时进行双向交流，提供单次唤醒、连续对话、随时打断的自然流畅的人机对话体验；此外，以场景、业务、用户等多源数据为基础，全双工语音交互用户界面具有更好的上下文语义理解和智能对话能力。

随着语音交互应用中，任务的复杂性、干扰的多样性和上下文语境的易变性等因素不断增大，传统语音交互已无法满足当前人机交互的需求；全双工语音交互用户界面的产品和服务越来越多地进入生产生活的方方面面，亟需要制定标准来对其基础框架、参考模型、能力要求等方面作出基本的界定、描述和通用要求。

通过标准化来达成科研与产业、用户与服务提供对全双工语音交互用户界面的一致性共识，指导相关产品和服务的技术发展，避免市场上鱼目混杂、劣币驱逐良币的现象发生，推动语音产业整体高质量发展。

目前ISO/IEC JTC 1/SC 35已立项并正在制定《信息技术用户界面全双工语音交互》的国际标准，本推荐性国家标准项目（以下简称本标准）拟同步制定全双工语音交互用户界面的技术要求，为不断成熟和发展的产业及市场提供标准指导，并确保中国全双工语音交互的自主创新技术与国际保持一致，将中国标准输出为国际规范。

范围和主要技术内容

1、范围本标准给出了全双工语音交互用户界面的基础模型、参考架构，规定了功能单元和能力要求，描述了通信过程和方法。本标准适用于全双工语音交互用户界面的设计、开发、应用、测试和维护。 2、主要技术内容功能模型：双工通信系统是点对点系统，由两个或更多个可以双向通信的连接方或设备组成。在许多通信网络中采用双工系统，以便允许两个连接方之间同时双向通信，或者提供用于现场设备的监测和远程调整的反向路径。有两种类型的双工通信系统：全双工（FDX）和半双工（HDX）。在HDX模式语音交互中，人和机器可以相互通信，但不能同时通信。对于HDX语音交互，其中的一个例子是具有“按键说”按钮的对讲机；当本地用户想要与远程人讲话时，他们按下这个按钮，这个按钮打开发射器，但是关闭接收器，因此他们不能听到远程人的声音。为了收听另一个人，他们释放按钮，打开接收器，但关掉发射器。与HDX相比，FDX模式中人和机器可以同时相互通信。FDX语音交互可以看作一个电话，通话两端的当事人可以同时通话并且被对方听到，因为在他们之间有双向通信信道。全双工语音交互基础模型如图1所示。图1 全双工语音交互基础模型全双工语音交互用户界面的参考架构如图2所示。图2 全双工语音交互用户界面参考架构功能单元：声学单元包括语音唤醒、录音采集和远场拾音；语音识别模块包括连续语音识别、语义VAD、无关内容拒识；语言处理单元包括语言理解和语言生成；知识和数据库包括知识库、场景数据、历史数据、用户数据；交互决策单元包括意图预测和对话管理；语音合成模块包括参数合成。全双工语音交互用户界面的通信过程如图3所示。图3 全双工语音交互通信过程能力要求：用户端只需要一次唤醒（即触发用户界面的语音控制操作）便可完成整个对话流程，并且可以在整个交互过程中根据需要进行随时打断。机器端应对连续音频流进行VAD检测，应能够实现连续语音识别，并根据对话上下文的语义理解进行用户意图预测和语音交互，同时结合知识库、场景数据、历史数据、用户数据应进行对话管理，包括系统的延迟处理，在用户不说话的时候实施主动对话；在用户说话的时候选择静默模式；在需要增加生成的停顿时，宜添加语气词到语音生成中。

信息技术全双工语音交互用户界面

Information technology-Full duplex speech interaction user interface

目录

基础信息

起草单位

目的意义

范围和主要技术内容

版权所有侵权必究

重要网站链接

信息技术 全双工语音交互用户界面

Information technology-Full duplex speech interaction user interface

目录

基础信息

起草单位

目的意义

范围和主要技术内容

版权所有 侵权必究

重要网站链接

信息技术全双工语音交互用户界面

版权所有侵权必究