注册

国家标准计划《高质量数据集 数据合成技术要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局

主要起草单位 中国移动通信集团有限公司中国信息通信研究院北京海天瑞声科技股份有限公司数据堂(北京)科技股份有限公司科大讯飞股份有限公司安徽飞数信息科技有限公司北京智谱华章科技股份有限公司北京华胜天成科技股份有限公司复旦大学中国电子信息产业发展研究院中石油(北京)数智研究院有限公司中国电子技术标准化研究院亚信科技(中国)有限公司国家石油天然气管网集团有限公司国家电投集团数字科技有限公司福建省大数据集团有限公司航天科工网络信息发展有限公司数据空间研究院联通数据智能有限公司中国电信集团数据发展中心咪咕文化科技有限公司数创弧光(深圳)科技有限公司粤港澳大湾区数字经济研究院(IDEA研究院)广州思迈特软件有限公司北京槽点满满科技有限公司广州芳禾数据有限公司等

目录

基础信息

计划号
20262364-T-907
制修订
制定
项目周期
12个月
公示开始日期
2026-02-24
公示截止日期
2026-03-26
标准类别
方法
国际标准分类号
35.240.30
35 信息技术、办公机械
35.240 信息技术应用
35.240.30 信息技术在信息、文献和出版中的应用
归口单位
全国数据标准化技术委员会
执行单位
全国数据标准化技术委员会
主管部门
国家数据局

起草单位

涉及的产品清单

范围和主要技术内容

本文件范围: 本文件规定了高质量数据集构建过程中数据合成的技术框架、技术方法、实施流程与安全管理要求,涵盖图像、文本、语音、视频等多种模态数据的生成、优化、评估与交付等全生命周期环节。标准从技术、实施与安全三个维度提出系统性要求,旨在提升合成数据的保真度、多样性、实用性、安全性与可追溯性,支撑人工智能模型训练、测试验证及场景仿真的高质量数据供给。 本文件适用于数据服务提供商、科研机构、技术企业等各类主体在模型训练、场景仿真等应用中对合成数据的构建需求,有助于形成安全、可信、可复现、可扩展的数据合成体系,提升合成数据供给质量和行业规范化程度,引导数据合成产业从分散无序向标准规范发展。 本文件主要技术内容: 1.总体框架:确立本文件的技术架构与逻辑结构,将数据合成技术要求工作划分为技术要求、实施要求与安全要求三大核心模块,形成覆盖“方法—流程—保障”三位一体的标准化体系。其中,技术要求规定合成方法与数据特征,实施要求规范全生命周期操作流程,安全要求确保合规性与风险可控性。该框架为后续章节的组织与展开提供结构化依据,确保内容系统、层次清晰、协同统一。 2.技术要求:提出系统性的技术要求,涵盖不同模态数据(文本、图像、语音、视频、时序、多模态)的合成方法与输入输出数据特征要求,确保合成数据在语义一致性、结构合理性与分布真实性等方面与真实场景对齐,提升合成数据的保真度、多样性与实用性。 3.实施要求:明确数据合成实施的全流程管理,包括需求分析、方案设计、数据生成、质量评估、交付应用等主要环节,强调过程可复现、结果可验证,确保合成数据的高质量与高可靠性。 4.安全要求:坚持合规、安全、可信原则,确保全过程符合数据安全与隐私保护法规,强化数据合成路径的可追溯性、透明性与责任可究性,保障合成数据的安全可控与可信使用,防范潜在风险,促进数据合成产业健康发展。