国家标准计划《信息技术 向量数据库管理系统技术要求》由 TC28(全国信息技术标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 星环信息科技(上海)股份有限公司 、北京百度网讯科技有限公司 、腾讯云计算(北京)有限责任公司 、北京人大金仓信息技术股份有限公司 、清华大学 、中国电子技术标准化研究院 。
| 35 信息技术、办公机械 |
| 35.240 信息技术应用 |
| 35.240.01 信息技术应用综合 |
近两年,生成式人工智能服务爆发式增长,我国各部门都对此行业的发展高度重视并出台了指导办法,如国家网信办联合国家发展改革委、教育部、科技部等7部门公布的《生成式人工智能服务管理暂行办法》。
向量数据库作为生成式人工智能服务的重要数据底座,同样对行业的发展和业务的落地起到了不可忽视的作用。
一方面向量数据库能够与AI技术结合,解决常规数据库无法解决的数据语义检索问题。
另一方面向量数据库能够解决AI幻觉的问题。
目前大模型的能力是有限制的,它没有办法回答好训练语料库中不存在的知识,如私有数据、专业数据等,所以回答这类问题时大模型会一本正经的胡说八道,产生所谓的AI幻觉。
而向量数据库能够给大模型加入记忆体,即大模型+向量数据库+Prompt,简称MVP架构,这套架构能够处理私密数据或者最新的数据,用户只需要更新数据库即可解决AI幻觉问题,同时能够确保数据安全,极大程度上降低了训练成本。
如果在小数据量、访问并发延迟这类要求也不高的情况下,从原有数据库里封装向量计算的方法可能是可行的。
但是当数据规模、访问并发这类指标有极高要求的情况下,出于性能、扩展性、资源弹性方面等原因,就必须要使用专业的向量数据库来满足此类需求。
为了确保向量数据库蓬勃有序的发展,亟需对向量数据库能力、技术要求进行标准化的描述与规范。
通过该标准的研制,希望达到以下目标: 1、促进行业形成对向量数据库基础能力的基本共识,解决在技术架构、查询语言、使用成本等方面的问题; 2、提供面向市场的向量数据库标准要求,以满足各行各业对向量数据库的使用诉求; 3、产业链协同发展,形成产业链上下游的良性互动,有助于构建完整的产业生态,促进整个行业的竞争力与可持续发展能力。
本标准规定了向量数据库管理系统中的数据流转,确定了向量数据库管理系统的技术参考结构,规定了向量数据库管理系统向量化能力、数据类型、向量检索、数据查询、存储层、接口和系统管理等功能要求,给出了性能衡量指标,规定了条件测试概述、测试数据集、测试资源、测试使用召回率和召回数据条数等条件测试要求。适用于向量数据库管理系统的设计、开发、选型与检测。