国家标准计划《地理信息 人工智能样本标记语言 第1部分:概念模型》由 TC230(全国地理信息标准化技术委员会)归口 ,主管部门为自然资源部(测绘地理)。
主要起草单位 武汉大学 、武汉珞遥信息技术有限公司 、国能数智科技开发(北京)有限公司 、自然资源部地图技术审查中心 、中汽智联技术有限公司 、重庆长安汽车股份有限公司 、广州中望龙腾软件股份有限公司 、深圳市迪派乐智图科技有限公司 、中国资源卫星应用中心 、北京百度网讯科技有限公司 、武汉理工大学 、湖北大学 、广东南方数码科技股份有限公司 、江苏易图地理信息科技有限公司 。
| 07 数学、自然科学 |
| 07.040 天文学、大地测量学、地理学 |
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
人工智能有望在许多领域发挥关键作用,并将彻底改变现有技术。
在过去的十年中,由于数据的丰富和高性能计算的进步,机器学习技术,特别是深度学习,取得了显著的进步。
机器学习重新定位和转换地理信息系统(GIS)和遥感(RS)。
基于机器学习的应用程序现在被部署在不同的市场,以提供新的解决方案并提高人类效率。
科学界也越来越多地使用这些技术来更好地利用不断增长的地球观测(EO)数据,用于各个领域的地理空间分析,如智能城市、环境管理和灾害管理。
为了增加研究人员和从业人员在地理空间分析中采用机器学习技术,必须解决几个挑战。
机器学习技术和过程的一个关键组成部分是样本数据——具有已知来源的数据,一致的元数据和质量度量,可以用于一致地调整和训练机器学习应用程序。
缺乏一致和已知的样本数据日益成为推动EO科学应用的主要瓶颈。
样本数据的缺乏也造成了可重复性问题,使其难以在不同研究之间比较结果。
近年来,一些共同的努力已经开始编目和发布开源基准样本数据集,以支持EO模型开发和数据科学挑战。
然而,现有的样本数据集通常被打包到公共或个人存储库中,缺乏可发现性和可访问性。
此外,样本数据没有统一的描述方法。
例如,在遥感机器学习场景中:场景级、对象级和像素级,样本数据的内容和格式通常是不同的。
在场景级,例如野火场景分类,其样本数据内容包括图像及其对应的二值标签;在对象级,例如建筑物检测,其训练数据内容包括一个包含多个多边形的图像,表明建筑物的位置;在像素级别上,例如,土地覆盖分类,其训练数据内容包括EO图像和每个像素的土地覆盖类别。
用于深度学习的遥感样本数据可能来自不同的组织,具有不同的分辨率和标签,但没有足够的元数据,这给用户访问和使用带来了负担。
因此,需要定义更严格的规范和策略,以加强发现和共享样本数据,特别是为人工智能/机器学习(AI/ML)开发一种样本数据标记语言,以遵循公平(可查找性、可访问性、互操作性和可重用性)数据管理原则记录、存储和共享地理人工智能样本数据。
样本数据应具有足够的元数据,以机器可读的标准格式,包括通用的时空信息和样本数据特有的属性,以便于数据的发现和查询。
范围:本文件规定了地理人工智能样本数据的概述、数据模型、数据词典、数据编码、抽象测试套件。本文件适用于地理人工智能样本数据的记录、存储和共享,可作为地理人工智能样本数据模型的依据和基础。 主要技术内容: (1)地理人工智能样本数据概述。 (2)样本数据内容:样本数据主要包括样本数据集、样本数据单元、标签信息、任务信息、溯源信息、样本数据质量、样本变更记录集。 (3)样本数据词典:详细规定样本数据的属性信息。 (4)样本数据编码:规定样本数据的编码标准。 (5)抽象测试套件:测试标准的一致性要求。