关于tidb:AI-时代的向量数据库关系型数据库与-Serverless-技术丨TiDB-Hackathon-2023-随想

4次阅读

共计 3509 个字符,预计需要花费 9 分钟才能阅读完成。

TiDB Hackathon 2023 刚刚完结,我认真地审阅了所有的我的项目。在并未强调我的项目必须应用人工智能(AI)相干技术的状况下,引人注目的我的项目简直统一地都应用了 AI 来构建本人的利用。大规模语言模型(LLM)的问世使得集体开发者可能在短短 5 分钟内为程序赋予推理能力,而这在以往,简直只有超大型团队能力胜任。从利用开发者的角度来看,AI 时代也曾经到来了。

在这些 AI 利用中,向量数据库的身影是无处不在的。只管这些我的项目大多仍在应用关系型数据库,但它们仿佛不再施展一个不言而喻的作用。关系型数据库到底还值不值得取得利用开发者们的关注呢?

为了解答分明这个问题,咱们须要理解一下向量数据库到底跟传统的关系型数据库有什么不同。

什么是向量数据库?

为了搞清楚这个问题,我花了一些工夫钻研了一下向量数据库。接下来我讲用最简略的语言来解释什么是向量数据库。

这个世界上的大多数事件都是多特色的,比方你形容一个人能够用身高、体重、性情、性别、穿衣格调、兴趣爱好等等多种不同类型的维度。通常如果你违心的话,你能够有限扩大这个维度或者特色去形容一个物体,维度或者特色越多,对于一个物体或者事件的形容就是越精确的。

当初,如果开始用一个维度来表白 Emoji 表情的话,0 代表高兴,1 代表悲伤。从 0 – 1 的数字大小就能够表白对应表情的悲欢水平,如下 x 轴所示:

然而你会发现,如果只有一个维度来形容情绪 Emoji 的话,这是抽象的,也是不够精确的。例如开心,会有很多种类型的 Emoji 能够表白。那么这个时候咱们通常是退出新的维度来更好地形容它。例如咱们在这里退出 Y 轴,通过 0 示意黄色,1 示意红色。退出之后表白每个表情在坐标轴上的点变成了 (x, y) 的元组模式。

聪慧的你肯定发现了,即便咱们退出 Y 轴这个新的形容维度,仍然还有 Emoji 咱们是没方法辨别开的。比方

那么怎么办呢?解决这个方法仍然很简略,再加一个维度。在坐标系中就是退出 z 轴。咱们把新的维度简略设置为是否戴帽子(留神这里每个维度的取值尽可能地简略是为了论述,不代表真实世界也如此简略)。用 0 示意没戴,1 示意戴了。所以咱们当初就失去了一个 (x, y, z) 的三维坐标点来形容一个 Emoji 了。

当然在事实世界中,一个事物的性质不会那么少,所以咱们须要通过减少很多个维度来形容它,所以就呈现了相似高维数组这样的形容(0.123, 0.295, 0.358, 0.222 …)。到这里咱们曾经十分靠近向量数据库中的“向量”了,其实向量数据库中存的就是这样的一些数组,用以示意各种各样的数据,包含图片、视频、文字等等。这些事物都是通过咱们上述这种转换的形式,把它们变成了一个个高维的数组,而后保留下来。

可能说到这里你还不了解向量数据库有什么作用:为什么咱们要把事物变成这样的模式?

简略来讲,这是因为变成向量当前,咱们就有方法去量化世界上任意两种事物之间的关联性和相似性了。通过咱们方才的演示,各个维度上越靠近的事物,就会在空间中越靠近。通过计算两个点之间的间隔,就能够判断两者的类似度。

那么如果咱们有一个之前从未呈现过的一个 Emoji,咱们通过下面的形式,能够把这个 Emoji 变成向量(0.01, 1, 0)。

通过计算跟库中的曾经存储的向量,就能够找进去最靠近的 Emoji 是

次之间隔靠近的就是

作为佐证,能够看看 PineCone Query Data (https://docs.pinecone.io/docs/query-data#sending-a-query) 获取数据的例子(Score 能够简略被认为是类似度):

index.query(vector=[0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3],
  top_k=3,
  include_values=True
)

# Returns:
# {'matches': [{'id': 'C',
#               'score': -1.76717265e-07,
#               'values': [0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3, 0.3]},
#                   {'id': 'B',
#                    'score': 0.080000028,
#                    'values': [0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2, 0.2]},
#                   {'id': 'D',
#                    'score': 0.0800001323,
#                    'values': [0.4, 0.4, 0.4, 0.4, 0.4, 0.4, 0.4, 0.4]}],
#               'namespace': ''}

Values 中就是找回来的向量(在咱们这个例子中能够被认为是对应的 Emoji)。这意味着咱们能够通过向量化所有的查问条件,找到最“靠近”咱们要求的货色。如果把 Emoji 替换成文本的话,咱们就能够实现“语义”搜寻。如果把 Emoji 替换成图片或者视频的话,就能够实现图片或者视频相似性举荐。

为什么 Al 利用经常须要依赖于向量数据库?

通过一句话来解释的话就是:“大模型”能记住的事件无限。

这十分相似于咱们的大脑。在交换的过程中,咱们不可能把本人所有的常识都在对话中交给对方,通常咱们只能通过无限的上下文来做肯定的“推理”。那么在当初的 AI 利用中,推理能力是由 LLM 提供的,而从你的大脑中把须要表白的最相干的上下文找进去。所以类比来看,向量数据库相似于 LLM 的记忆或者知识库。所以实现一个 AI 相干的性能,如果没有向量数据库的帮忙,通常 AI 大模型能实现的性能以及准确度就很无限。

沿着这个思路往下看,除了一些不那么准确的含糊匹配以外,其实在现实生活中也存在很多须要十分准确和确定性的搜寻 / 索引。这个就相似于咱们通常会把一些重要信息记录在笔记本外面,须要的时候再通过索引把它准确找回来。

所以向量数据库和关系型数据库最大的不同是对于数据的存储形式和索引查问形式。而正是因为关系型数据库当中存在的准确索引,所以它能在毫秒级别获取到对应的信息。对应于业务零碎中须要高速拜访的例如账号、商品和订单信息等等,目前仍然是须要由它来实现。

上面以这次 Hackathon 获奖的利用 Heuristic AI (https://devpost.com/software/cx-8lh7ps) 作为例子给大家展现一下,在一个实在的我的项目中,别离是怎么应用这两种类型的数据库的。

日常生活中,当咱们应用的电子产品呈现故障的时候,通常须要翻阅简单的使用手册能力获取到相干的解决方案,并且须要破费大量的工夫学习。这个我的项目实现了以下事件:

  1. 把所有产品手册导入到向量数据库外面
  2. 把遇到的问题用自然语言形容,通过语义搜寻,在向量数据库中找到最相干的上下文
  3. 把上下文打包成 Prompt 发送给 OpenAI,生成对应的解决方案

大抵的技术实现如下:

如果这个软件到此为止了,那基本上也就是一个玩具。通常还须要为零碎退出用户认证与管理系统,另外通常在后盾还须要加上对业务数据的剖析零碎,比方多少在线用户应用了产品,应用频率如何等等维度。而这些性能,就须要应用传统的数据库来实现了:

当然作为一个 Hackathon 我的项目,这个软件其实曾经绝对比拟残缺了。然而如果它要进一步产品化,须要思考以下的方面:

○ 用户数据量暴增,零碎的可扩展性和稳定性

○ 多数据中心和劫难状况下的数据备份和复原

这些都不酷,甚至有些苦楚,然而这仍然是咱们须要谨慎且认真对待的畛域。好在从这次 Hackathon 中,能够肉眼察看到的另一个趋势:Serverless,在帮忙开发者们一直加重产品化一个利用的技术难度。

根底软件 Serverless 化带来的效率晋升

能够察看到的:独立开发者在我的项目开发中施展的作用日益突出。独立开发者在我的项目开发中施展的作用日益突出。相较于过来,不再须要宏大的 3-4 人团队单干,当初的优良我的项目往往由 1-2 名开发者,甚至是个别人独自实现。

这一趋势的背地,Serverless 化的浪潮充当了重要的推动力。借助 Serverless,开发者可能专一于业务逻辑,而不用纠结于底层基础设施的细节。这次没有再看到有开发者会利用本地部署实现本人的利用了,前端和业务代码部署应用 Vercel,后端组件,比方 Vector 数据库用 Qrdrant (https://qdrant.tech/),或者 Pinecone (https://www.pinecone.io/),关系型数据库应用 TiDB Cloud Serverless (https://bit.ly/3PsYJle),用上这一套,基本上一个工程师就能实现 Demo 级别的利用了。

这个时代下也并非只有 AI 畛域一枝独秀,其余的传统技术,其实也在为开发者们提供越来越不便的应用体验,也在随着浪潮一直递进迭代。

只有关注回到开发者自身,大家都有光明的将来。

正文完
 0