国家标准计划《人工智能就绪科学数据集评价通用框架》由 TC486(全国科技平台标准化技术委员会)归口 ,主管部门为科技部。
主要起草单位 国家科技基础条件平台中心 、中国科学院计算机网络信息中心 、中国科学院国家空间科学中心 、中国科学院地理科学与资源研究所 、中国科学院空天信息创新研究院 、中国农业科学院农业信息研究所 、中国科学院微生物研究所 、中国科学院西北生态环境资源研究院 。
| 35 信息技术、办公机械 |
| 35.020 信息技术(IT)综合 |
无
当前人工智能技术的飞速发展,科学数据已成为人工智能时代的科技底座。
人工智能作为推动产业变革的核心技术,其高质量数据集是人工智能模型训练、优化和应用的基础。
然而,当前数据集在质量、格式、元数据等方面存在不统一、不规范的问题,导致数据难以被有效利用,影响了人工智能模型的性能和效率。
制定统一的评价标准,有助于提升科学数据质量、增强科学数据互操作性与可重用性,从而推动人工智能技术在材料、生物、环境等领域的广泛应用,促进学科与产业高质量发展。
从相关法律法规和政策规划的要求来看,国家在人工智能领域已出台多项政策,如《新一代人工智能发展规划》等,强调了数据治理和标准体系建设的重要性。
数据集作为人工智能技术的基础要素,其标准化是构建人工智能治理体系的重要组成部分。
通过制定统一的评价标准,能够为科学数据集的合规性、安全性、伦理性和可追溯性提供技术支撑,符合国家在数据安全、数据治理方面的政策导向。
最后,从标准实施后的重大效益分析来看,该标准的实施将带来显著的经济、社会和生态效益。
在经济方面,标准化的数据集将促进数据要素市场的形成,提升数据作为生产资料的流通效率,降低AI开发和应用的成本,提高投资回报率。
在社会方面,高质量的数据集将推动AI在材料、生物、环境等关键领域的应用,提升服务质量和决策能力。
在生态方面,标准化的数据集将减少数据重复采集和低效处理,节约资源,推动可持续发展。
本项目拟制定人工智能就绪的科学数据集评价通用要求,规定了人工智能就绪的科学数据集的评价指标、就绪度等级划分、评价方法和评价流程等通用要求,适用于人工智能模型训练、验证和测试所使用的科学数据集的质量评估与人工智能就绪性评价。 标准主要技术内容包括明确人工智能就绪的科学数据集评价原则,构建一个多层级(评价维度-评价指标-计算方法)的评价框架,包括相应的一级评价指标、二级评价指标,提出定量计算和定性评估相结合的评价方法,实现指标的综合评价,并提出从评价启动与准备、指标逐项评价、权重确定与综合评分、评价报告撰写到结果复核与发布的完整评价流程。