注册

国家标准计划《人工智能医疗器械 质量要求和评价 第6部分:合成数据》由 464(国家药监局)归口 ,主管部门为国家药监局

主要起草单位 广州柏视医疗科技有限公司中国食品药品检定研究院国家药品监督管理局医疗器械技术审评中心国家卫生健康委卫生发展研究中心中国医学科学院医学信息研究所北京邮电大学北京理工大学清华大学北京京津冀国家技术创新中心浙江省医疗器械审评中心中国医学科学院肿瘤医院

目录

基础信息

计划号
20256293-T-464
制修订
制定
项目周期
12个月
下达日期
2025-12-02
公示开始日期
2025-10-11
公示截止日期
2025-11-10
标准类别
基础
国际标准分类号
11.040.99
11 医药卫生技术
11.040 医疗设备
11.040.99 其他医疗设备
归口单位
国家药监局
执行单位
国家药监局
主管部门
国家药监局

起草单位

目的意义

随着人工智能技术的快速发展,将其应用于医疗器械领域已成为当前的研究热点和发展趋势。

通过人工智能算法对医学影像、生理信号、电子病历等医疗数据进行智能分析,可以辅助医生进行疾病的早期诊断、病情预后评估以及个性化治疗方案的制定,有望大幅提升医疗服务的质量和效率,造福患者。

然而,研发高质量的人工智能医疗器械产品离不开海量的医疗数据作为支撑。

一方面,随着预训练模型开发范式化,当前人工智能医疗器械对于高质量数据的需求正在快速增加;另一方面,在现实情况下,由于医疗数据涉及患者隐私,受到伦理、法律法规的严格保护,医疗机构与科研单位往往难以获得充足、优质的数据。

数据源头有限,采集渠道受限,已成为制约人工智能医疗器械发展的重要瓶颈。

数据合成技术已经成为解决医学人工智能数据稀缺、不平衡的那问题的重要方法,其主要的技术路径是通过利用生成式人工智能算法(生成对抗网络等),学习真实医疗数据的特征分布,生成与之相似的仿真数据、或者转化为特定表现形式的数据。

由于合成数据在特征分布、统计规律上与原始数据具有相似性,或者具有指定的数据特征。

因此可以应用在人工智能医疗器械诸多环节:在训练环节可以用于训练和验证数据集的扩增,部分替代真实数据,用于训练、测试人工智能模型;在影像辅助处理的中间过程可以通过影像数据模态生成、影像分解等为后续处理提供输入;在辅助决策的输出结果层面,可以利用虚拟和增强现实的进行导航、报告生成、图像重建等;同时合成数据的生成过程可嵌入隐私保护机制,有助于规避数据共享、使用环节的隐私泄露风险。

目前国内外已有大量团队和厂家开展了医疗健康数据合成的研究与应用探索,取得了一定进展。

但也应看到,现有的合成数据在真实性、隐私安全性、可解释性等方面参差不齐,质量有待提升。

为推动医疗健康数据合成技术规范化应用,支撑人工智能医疗器械高质量发展,亟需制定医疗健康数据合成领域的技术标准。

本标准立项的目的在于:通过规定面向人工智能医疗器械开发应用的合成数据质量要求与测试方法,统一合成数据生成的技术流程和质量标准,引导合成数据提供方规范化开展医疗健康数据合成工作,提升合成数据的整体质量水平,保障合成数据在医疗器械领域的安全、有效应用。

制定合成数据质量标准对于人工智能医疗器械行业的发展具有重要意义: 一是有助于丰富人工智能医疗器械开发应用所需的数据资源,为行业持续创新提供有力支撑。

通过医疗健康数据合成技术,可以高效、低成本地获取可用于人工智能算法学习的结构化数据,有效破除因数据来源受限导致的发展瓶颈。

高质量的合成数据与真实世界数据形成互补,将更好地满足人工智能医疗器械产品对于全周期数据的迫切需求,加速推进人工智能技术在疾病诊断、预后预测、治疗决策等医疗核心场景的应用。

二是将促进人工智能医疗器械行业数据生态体系的进一步成熟和完善。

标准的落地实施,将推动形成一批专业化的医疗健康数据合成技术服务商,为医疗器械企业提供优质的数据合成服务,实现数据资源的供需精准对接。

合成数据在共享开放、交易流通中的质量体系也将不断健全,进一步规范行业数据应用秩序,营造良性的人工智能医疗创新生态。

三是可加强数据安全的整体管控能力,为推动人工智能医疗器械产品安全可控应用保驾护航。

医疗健康数据合成过程中的隐私保护、数据脱敏等关键环节,均将被纳入到标准规范中,要求合成数据提供方必须采取严格的技术、管理防护措施,从源头做好隐私安全"防火墙"。

同时,标准对合成数据质量可解释性的要求,将大大提升数据合成全流程的可审计性,进一步压实医疗器械注册申请人采用合成数据进行临床真实性验证的主体责任,为人工智能医疗器械的监管提供有力抓手。

综上所述,本标准立足人工智能医疗器械高质量发展的现实需求,顺应医疗健康数据合成应用的技术发展趋势,通过规范合成数据质量管理和评价,在"数据"这一人工智能医疗器械产品全生命周期的源头环节构筑质量防线,有望进一步夯实该领域科技创新的数据基础,促进人工智能新技术在医疗领域的规范化、体系化应用,最终惠及广大患者,推动健康中国建设。

范围和主要技术内容

本文件规定了人工智能医疗器械领域的合成数据质量要求和测试方法。 本文件适用于人工智能医疗器械训练、调优和测试环节使用的合成数据。 本文件不适用于真实世界数据的采集、质控和评价。 本文件的适用范围主要包括:采用人工智能算法,在医疗健康领域原始数据基础上生成的,用于支持人工智能医疗器械开发应用的合成数据,涵盖医学影像、生理信号、电子病历等多种数据类型;合成数据应用的各个环节,包括作为原始数据替代或补充参与医疗器械注册申请的研发设计阶段。需要指出的是,本文件聚焦于合成数据本身的质量属性和评价方法,对于上游的真实世界数据采集、管理等环节不作直接规定。 在技术内容上主要包含以下三个核心要素: 一是合成数据文档要求。标准明确要求合成数据提供方应制备包括数据合成说明、验证报告、质量评估报告在内的系列技术文档,并对各文档的关键信息提出规范性要求。如在数据合成说明中,应详细阐明数据合成采用的人工智能算法的基本原理、关键参数设置,以及在数据合成过程中采取的质量控制与隐私保护措施等;在验证报告中,应通过建立必要的评价指标,定量或定性地分析呈现合成数据与参考使用的原始真实数据在特征分布上的相似程度;在质量评估报告中,应对照标准规定的数据质量评价方法,从不同维度系统评估合成数据的质量,并通过补充试验进一步验证合成数据对于具体应用场景的有效性。要求合成数据相关技术文档应可满足监管机构的溯源和审计需求。 二是合成数据质量特性要求。本标准立足医疗健康数据合成的实际需求,提出了合成数据应具备的质量特性要求:一是特征分布真实性,包括边缘分布一致性和联合分布一致性,确保合成数据在统计分布层面接近原始数据;二是数据量与均衡性,既要求合成数据的总体样本量满足模型训练需求,也要求尽量平衡不同类别数据的分布;三是数据完备性,对合成数据的结构完整性、语义准确性等方面提出规范性要求;四是元数据充分性与规范性,明确界定合成数据应具备的元数据属性及其表示格式;五是隐私安全性,要求合成数据应充分保护原始数据中包含的个人隐私信息;六是可解释性,要求对合成数据生成过程中的关键环节进行分析说明,评估合成数据偏差的影响。 三是合成数据质量评价方法。针对合成数据应具备的质量特性,本标准规定了相应的评价验证方法:一是利用统计检验等数理方法,度量分析合成数据与原始数据的特征分布相似性;二是采用基尼系数、香农熵等指标评价合成数据的类别与属性均衡性;三是采用自动化工具和人工审查相结合的方式,评估合成数据的完备性;四是从必备属性完整性、属性描述规范性等方面考察合成数据的元数据质量;五是通过隐私合规性评估、隐私攻击模拟等技术手段,测试合成数据的隐私安全性;六是要求提供关键环节可回溯、偏差来源可解释的过程分析文档,定性评估合成数据的可解释性。 因此,本文件立足人工智能医疗器械应用实际,充分考虑合成数据的技术特点,从源头合成、过程管理、结果评价等环节入手,构建了较为完备的医疗健康合成数据质量标准框架。通过规范数据合成活动,提出切实可行的质量评价方法,有望全面提升合成医疗数据的质量水平,加速人工智能新技术在医疗器械领域落地应用。