国家标准计划《信息技术 面向机器智能的数据编码 第1部分:图像》由 TC28(全国信息技术标准化技术委员会)归口,TC28SC29(全国信息技术标准化技术委员会多媒体分会)执行 ,主管部门为国家标准委。
主要起草单位 浙江大学 、中国科学技术大学 、中国电子技术标准化研究院 、中国电信股份有限公司上海研究院 、浙江大学宁波科创中心 、上海工程技术大学 、深圳市8K超高清视频产业协作联盟 、中国移动杭州研究院 、中国科学院计算技术研究所 、中国电信天翼视联科技有限公司 、杭州海康机器人股份有限公司 、华为技术有限公司 、南京大学等 。
| 35 信息技术、办公机械 |
| 35.040 字符集和信息编码 |
大数据带来众多机遇的同时,也对数据的存储、传输、利用带来极大的压力,其中又以占互联网总流量近90%的图像视频数据比重最大、最为典型。
所以不断追求视频的高效编码是技术研发的重要方向、也是行业知识产权官司不断、竞争白热化的关键领域。
尽管图像视频数据进行了高效的压缩编码,但视觉大数据仍以容量大、类型多、存取和传输实时性要求高、但同时价值密度低为主要特征的。
视觉媒体的智能化分析与数据挖掘就是从大规模海量数据中通过自动化智能方法提取有价值的信息。
但一直以来视觉媒体的高效编码与智能应用是两个并行独立发展的领域。
现有高效的视觉信息编码均以信号保真或视觉保真为目标。
随着人工智能技术的发展与应用渗透,对大数据的分析与挖掘通常以机器智能或人机混合智能的方式开展而非人工进行数据分析与应用,因此不同于传统的面向数据信号复原的数据压缩,应充分考虑机器智能或人机混合智能的新型数据应用方式,开展面向机器智能的视觉信息编码的研究。
不仅如此,由于原始数据经过特征提取提炼出高维空间的信息,因此特征数据压缩还具有加密的效果。
传统的方法需要把本地设备数据加密传到云端,然后云端再进行解密计算,但是随着数据量越来越大,对大数据进行加密解密的消耗也很大。
针对机器智能分析任务的编码优化问题,目前国际上MPEG国际标准组织已经成立了Video Coding for Machines (VCM)和Feature Coding for Machines (FCM)小组来研究该方面的应用,旨在从压缩视频或者从视频中提取的特征信息定义一个码流,使得解压后的数据对机器智能分析任务友好,同时可以在不显著降低任务性能的情况下执行多个任务。
但是VCM标准在支持智能分析的情况下,仍然需要将码流恢复为像素域的视频,其能够获得的压缩效率比较有限;而FCM标准尽管能够将码流恢复为特征域的数据并获得高压缩效率,但其只能够处理某些特定任务网络中确定形态和语义空间的特征数据,这限制了其在广泛任务上的高效应用。
本项目《信息技术 面向机器智能的数据编码 第2部分:图像》标准针对图像视频数据压缩效率不足以及特征数据泛化能力有限等问题,从图像压缩入手,以人工智能为机器智能提供数据要素,其核心驱动为超低计算数的端到端神经网络,通过对图像的关键语义特征进行编解码处理,能够在支持检测、分割和姿态估计等多机器智能任务的同时,提供智能任务计算卸载和隐私保护等效果。
本标准主要规定了适应多种比特率、分辨率和质量要求的面向机器智能的图像压缩方法的解码过程,适用于安防监控、计算机视觉、无人驾驶、内容审核等面向机器智能相关应用的图像压缩。主要内容包括:数值熵解析、面向可变码率的张量调制、特征重建、图像重建、超先验方差估计、定点化运算和语义特征解码等。