国家标准计划《人工智能医疗器械 质量要求和评价 第6部分:合成数据》由 464(国家药监局)归口 ,主管部门为国家药监局。
主要起草单位 广州柏视医疗科技有限公司 、中国食品药品检定研究院 、国家药品监督管理局医疗器械技术审评中心 、国家卫生健康委卫生发展研究中心 、中国医学科学院医学信息研究所 、北京邮电大学 、北京理工大学 、清华大学 、北京京津冀国家技术创新中心 、浙江省医疗器械审评中心 、中国医学科学院肿瘤医院 。
本文件规定了人工智能医疗器械领域的合成数据质量要求和测试方法。 本文件适用于人工智能医疗器械训练、调优和测试环节使用的合成数据。 本文件不适用于真实世界数据的采集、质控和评价。 本文件的适用范围主要包括:采用人工智能算法,在医疗健康领域原始数据基础上生成的,用于支持人工智能医疗器械开发应用的合成数据,涵盖医学影像、生理信号、电子病历等多种数据类型;合成数据应用的各个环节,包括作为原始数据替代或补充参与医疗器械注册申请的研发设计阶段。需要指出的是,本文件聚焦于合成数据本身的质量属性和评价方法,对于上游的真实世界数据采集、管理等环节不作直接规定。 在技术内容上主要包含以下三个核心要素: 一是合成数据文档要求。标准明确要求合成数据提供方应制备包括数据合成说明、验证报告、质量评估报告在内的系列技术文档,并对各文档的关键信息提出规范性要求。如在数据合成说明中,应详细阐明数据合成采用的人工智能算法的基本原理、关键参数设置,以及在数据合成过程中采取的质量控制与隐私保护措施等;在验证报告中,应通过建立必要的评价指标,定量或定性地分析呈现合成数据与参考使用的原始真实数据在特征分布上的相似程度;在质量评估报告中,应对照标准规定的数据质量评价方法,从不同维度系统评估合成数据的质量,并通过补充试验进一步验证合成数据对于具体应用场景的有效性。要求合成数据相关技术文档应可满足监管机构的溯源和审计需求。 二是合成数据质量特性要求。本标准立足医疗健康数据合成的实际需求,提出了合成数据应具备的质量特性要求:一是特征分布真实性,包括边缘分布一致性和联合分布一致性,确保合成数据在统计分布层面接近原始数据;二是数据量与均衡性,既要求合成数据的总体样本量满足模型训练需求,也要求尽量平衡不同类别数据的分布;三是数据完备性,对合成数据的结构完整性、语义准确性等方面提出规范性要求;四是元数据充分性与规范性,明确界定合成数据应具备的元数据属性及其表示格式;五是隐私安全性,要求合成数据应充分保护原始数据中包含的个人隐私信息;六是可解释性,要求对合成数据生成过程中的关键环节进行分析说明,评估合成数据偏差的影响。 三是合成数据质量评价方法。针对合成数据应具备的质量特性,本标准规定了相应的评价验证方法:一是利用统计检验等数理方法,度量分析合成数据与原始数据的特征分布相似性;二是采用基尼系数、香农熵等指标评价合成数据的类别与属性均衡性;三是采用自动化工具和人工审查相结合的方式,评估合成数据的完备性;四是从必备属性完整性、属性描述规范性等方面考察合成数据的元数据质量;五是通过隐私合规性评估、隐私攻击模拟等技术手段,测试合成数据的隐私安全性;六是要求提供关键环节可回溯、偏差来源可解释的过程分析文档,定性评估合成数据的可解释性。 因此,本文件立足人工智能医疗器械应用实际,充分考虑合成数据的技术特点,从源头合成、过程管理、结果评价等环节入手,构建了较为完备的医疗健康合成数据质量标准框架。通过规范数据合成活动,提出切实可行的质量评价方法,有望全面提升合成医疗数据的质量水平,加速人工智能新技术在医疗器械领域落地应用。