智慧校园_手机
智慧照明_手机
AI大模型的"记忆体" : 向量数据库
发布时间:2023-04-25 18:50:30 TAGS:

作者:中联科创特约嘉宾尹智

AI大模型的"记忆体" : 向量数据库 ——  


AI大模型可以独自掌握人类所有的知识吗? 一个最简单的道理,任何"大脑"的容量都是有限的,千亿参数也好,万亿参数也好,总有一个极限的存储容量。那有没有办法让AI一直可以拥有新知识呢?  大模型获得知识的方式一般是几种: 一种,如果"新"知识是已有知识的新的排列,组合,推演,创作,这只需要大模型用已有知识生成就好(比如AI写文章),无需新的存储;另一种是"新"信息,比如最近发生的新闻,事实事件,这无法借助已有知识推出来(不能一本正经胡说八道),这就可以让大模型接入已有的搜索引擎或已有的知识库;但查询传统数据库,结构化知识库这事,用不着AI,各类SQL/NoSQL数据库干这个已经是炉火纯青了;更合适AI干的,是基于"特征抽象"的信息,在理解这种数据后,跟自己的"常识"结合来做逻辑推演,分析 —— 这就像福尔摩斯可以描一眼别人的外表服饰,就看出这人的职业,爱好之类的,以他的智商,这并不需要查询特别精准的信息 —— 所以就有了这第三种让AI"大脑扩容"的方式 —— "向量数据库"。传统的数据库,存的是"what",是基于精准的描述 ,做精确匹配的搜索;而向量数据库存的是更依赖表征模式的"like what", 是模式的匹配,相似度的匹配,并不追求搜到一模一样的结果,而是找到最"相似",最"相关"的结果 —— 这跟人类在脑子里要找到一个最"合适"的东西,有些异曲同工。

向量数据库把每一个存进去的"事物" —— 可以是一个字,一段话,一个图像,一段声音,一个概念 等等—— 都用一组数来描述,这组数中的每一个数值,都代表了描述这个事物的一个维度的量值,听我讲过"机器如何理解语言文字"内容的,都应该记得我用那个"天空","引擎","翅膀"三个维度来简化表述"火箭""无人机""鹅""鹰""蜜蜂"这些概念的例子。当我们用几百个维度/属性值来描述一个事物的时候,AI就可以通过对数值的计算来确定任意两个(同一空间)事物的相似度了。这就是向量数据库的基本原理: 通过存储向量(数组),检索向量,更新/删除向量,比较向量之间的相似度,来提供知识和洞察。至于这个描述事物的这么多属性维度怎么出来的,每一个具体事物(比如一个单词)的这么多属性值怎么得出来的,答案是,从大量数据里找复杂规律的通用办法 —— 深度学习。也就是说,深度学习既是向量数据库的构建方式,也是向量数据库的使用方 ——  象目前这种大模型的长期记忆,就是靠向量数据库。—— 仅代表尹智个人观点 Ken's personal view only

阅读( 1025)