国家标准计划《语言资源管理 语义标注框架(SemAF) 第2部分:对话行为》由 TC62(全国语言与术语标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 南京师范大学 、中国标准化研究院 。
| 01 综合、术语学、标准化、文献 |
| 01.040 词汇 |
| 01.040.01 综合、术语学、标准化、文献(词汇) |
本标准修改采用ISO国际标准:ISO 24617-2:2020。
采标中文名称:语言资源管理-语义标注框架(SemAF) 第2部分:对话行为。
该标注涉及如下服务: 1.为智能体与大模型(对话系统)提供标准化标注方案 助力各类对话系统在多轮交互中精准识别与管理对话意图与系统响应。 2.为语言资源建设及其评估、应用提供标准化支持; 通过规范化的多模态标注流程和质量监控方法,构建高一致性语料并持续评估,以保障下游模型训练与应用的可靠性。 3.为人-机交互、机-机交互提供语义标准化标注支持; 在指令、协作与反馈等场景中,提供实时上下文追踪与行为标签化服务,确保交互模块能够准确理解并响应多轮对话需求。 4.为多场景、多模态对话行为标注语料库的提供支撑 从多渠道采集、清洗到自动切分与标签化发布,构建覆盖客服、社交、电话等多种场景的对话语料库,支撑模型的通用性与场景适应性。 5.助力大语言模型、虚拟数字人等前沿领域的发展 以多模态对话行为标注为基础,提供 Prompt 设计、微调流水线和可解释性评估,推动生成式 AI 与数字人系统的自然交互与协同创新。
随着通用人工智能AGI研究的兴起,特别是大语言模型的迅猛发展,人工智能正在彻底改变着科学研究范式和日常生活方式。
在大语言模型的驱动因素中,除了强大的算力和复杂的算法结构之外,高质量的大规模语料资源也起到了关键作用。
语义标注作为语料构建中的核心环节,其标准化程度直接关系到数据资源的可用性、可共享性和跨语言通用型。
ISO 24617-2:2020(语言资源管理 语义标注框架(SemAF)第二部分:对话行为)标准旨在统一语义标注框架规范。
采标该标准将填补我国语义标注标准的空白,推动形成适用于中文及中国多民族语言的语义标注规范体系,提升我国语义标注语料的全球化适应能力,实现与国际标准的有效接轨。
中文与其他中国少数民族语言在语义层面存在共通性,制定统一的语义标注规范对于推动我国多语言资源的融合开发具有重要意义。
本标准的采用,积极响应《国家标准化发展纲要》“加快转化先进适用国际标准”的部署,符合《“十四五”数字经济发展规划》关于“健全数据资源标准体系”的任务要求。
国家高度重视语言文字的现代化与规范化发展,《国家语言文字事业“十四五”发展规划》明确提出要加强语言文字现代化建设,推动语言资源的规范开发和资源共享。
ISO 24617-2:2020作为当前国际主流的对话行为语义标注框架,具备完善的理论体系与成熟的实践经验,为我国制定符合国情的语义标注标准提供了成熟的技术框架和实践指导,将其修订为国家标准,是贯彻落实国家语言文字政策、推动语言智能技术基础设施建设的重要举措。
ISO 24617-2:2020的采标,将规范化对模态话语的标注,有利于语料库语言学、话语分析、语言科技的研究,并且对自然语言处理、大语言模型、人机交互、等下游的产业产生巨大影响。
当前,以Chat GPT为代表的大语言模型对高质量语义语料的需求日益增长,尤其是对结构化、规范化语料的依赖日趋显著。
该国际标准的转化,将促进我国语义语料建设的规范化和国际化、降低语料标注的成本、增强语料的交换和共享,具有显著的经济效益和产业推动价值。
同时,该标准将有力支撑生成式人工智能(AIGC)、数字人等新兴产业的研发与落地,带动语言资源产业链的高质量发展。
本项目具备良好的实施基础和可行性保障。
项目团队具备扎实的标准化研究基础,项目组由语言学、计算机科学、人工智能等多学科背景研究人员构成,长期从事汉语大规模语料库的建设、语义标注和语言信息处理工作,已建立国内抽象语义表示(AMR)标注规范,并构建了中文AMR语料及基于AMR的篇章语料,为该标准的研制提供了充分的技术储备。
同时,团队成员长期参与全国语言与术语标准化委员会等机构开展的术语标准化工作,熟悉标准化流程,积累了丰富的经验,并且掌握国际前沿动态,具备结合国内实际需求对ISO 24617-2:2020进行科学合理修订、实现国际标准本地化落地的能力。
修订ISO 24617-2:2020为推荐性国家标准,是落实国家标准化战略、支撑语言资源标注标准化发展的重要举措。
项目具备成熟的技术基础、明确的政策支持和显著的效益预期,建议尽快立项并启动修订工作,以支撑我国语言资源标准体系的高质量建设。
本文件采标 ISO 24617-2:2020 《语言资源管理 语义标注框架(SemAF)第二部分:对话行为》,与ISO 24617-2:2020相比,除结构调整和编辑性改动外,主要更新了部分例句,以适应中文的习惯,修改了原标准存在的错误。 范围: 本标准规定了语篇语义标注中对话行为的标注规范,提供了一套对话标注概念体系,一种表达对话标注的形式语言,以及一种将对话分割成语义单元的方法。标注方案支持对涉及两个或多个参与者的口语、书面语和多模态对话进行多维标注。在该框架下,对话单元被视为在多个维度上承载不同的交际功能。本标准还规定了对话分析维度、交际功能、对话行为限定词和对话行为间关系的数据类别,并提供了定制这些概念集的机制,通过特定应用或特定领域的概念和语义内容描述对其进行扩展,或从中选择相关且连贯的子集。这些机制使得本文件中所定义的对话行为概念不仅适用于标注,还可服务于交互系统中对话行为的识别和生成。 标准的主要内容包括: 前言 1 范围 2 规范性引用文件 3 术语和定义 4 缩略语 5 用例 6 基本概念和元模型 6.1 对话行为 6.2 依赖关系 6.3 修辞关系 6.4 限定词 6.5 元模型 7 多功能性、多维性和分段 7.1 多功能性 7.2 多维性和维度 7.3 分段 8 标注方案规范 8.1 概述 8.2 维度 8.3 交际功能 8.4 功能和反馈依赖性 8.5 限定词 9 对话行为标记语言(DiAML) 9.1 概述 9.2 抽象语法 9.3 具体语法 9.4 语义 10 扩展和定制 10.1 概述 10.2 简化标注方案:选项和选择 10.3 扩展标注方案:三层插件和接口 附录A(资料性)语义内容及其他增强功能的插件 附录B(资料性)标注指南和示例 附录C(规范性)DiAML概念的数据类别 附录D(规范性)DiAML的形式化规范 附录E(规范性)DiAML-XML技术方案 附录F(资料性)技术差异及其原因一览表 附录G(资料性)编辑性修改及其原因一览表 参考文献