国家标准计划《高质量数据集 数据合成技术要求》由 TC609(全国数据标准化技术委员会)归口 ,主管部门为国家数据局。
主要起草单位 中国移动通信集团有限公司 、中国信息通信研究院 、北京海天瑞声科技股份有限公司 、数据堂(北京)科技股份有限公司 、科大讯飞股份有限公司 、安徽飞数信息科技有限公司 、北京智谱华章科技股份有限公司 、北京华胜天成科技股份有限公司 、复旦大学 、中国电子信息产业发展研究院 、中石油(北京)数智研究院有限公司 、中国电子技术标准化研究院 、亚信科技(中国)有限公司 、国家石油天然气管网集团有限公司 、国家电投集团数字科技有限公司 、福建省大数据集团有限公司 、航天科工网络信息发展有限公司 、数据空间研究院 、联通数据智能有限公司 、中国电信集团数据发展中心 、咪咕文化科技有限公司 、数创弧光(深圳)科技有限公司 、粤港澳大湾区数字经济研究院(IDEA研究院) 、广州思迈特软件有限公司 、北京槽点满满科技有限公司 、广州芳禾数据有限公司等 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.30 信息技术在信息、文献和出版中的应用 |
无
本文件范围: 本文件规定了高质量数据集构建过程中数据合成的技术框架、技术方法、实施流程与安全管理要求,涵盖图像、文本、语音、视频等多种模态数据的生成、优化、评估与交付等全生命周期环节。标准从技术、实施与安全三个维度提出系统性要求,旨在提升合成数据的保真度、多样性、实用性、安全性与可追溯性,支撑人工智能模型训练、测试验证及场景仿真的高质量数据供给。 本文件适用于数据服务提供商、科研机构、技术企业等各类主体在模型训练、场景仿真等应用中对合成数据的构建需求,有助于形成安全、可信、可复现、可扩展的数据合成体系,提升合成数据供给质量和行业规范化程度,引导数据合成产业从分散无序向标准规范发展。 本文件主要技术内容: 1.总体框架:确立本文件的技术架构与逻辑结构,将数据合成技术要求工作划分为技术要求、实施要求与安全要求三大核心模块,形成覆盖“方法—流程—保障”三位一体的标准化体系。其中,技术要求规定合成方法与数据特征,实施要求规范全生命周期操作流程,安全要求确保合规性与风险可控性。该框架为后续章节的组织与展开提供结构化依据,确保内容系统、层次清晰、协同统一。 2.技术要求:提出系统性的技术要求,涵盖不同模态数据(文本、图像、语音、视频、时序、多模态)的合成方法与输入输出数据特征要求,确保合成数据在语义一致性、结构合理性与分布真实性等方面与真实场景对齐,提升合成数据的保真度、多样性与实用性。 3.实施要求:明确数据合成实施的全流程管理,包括需求分析、方案设计、数据生成、质量评估、交付应用等主要环节,强调过程可复现、结果可验证,确保合成数据的高质量与高可靠性。 4.安全要求:坚持合规、安全、可信原则,确保全过程符合数据安全与隐私保护法规,强化数据合成路径的可追溯性、透明性与责任可究性,保障合成数据的安全可控与可信使用,防范潜在风险,促进数据合成产业健康发展。