乐趣区

关于chatgpt:被-ChatGPT-点燃的向量数据库们

在 AIGC 反动大暴发的日子,一个特地的挑战是大规模存储和查问非结构化数据(比方图像、视频、文本)的能力。

为了疾速搜寻和了解非结构化数据,当初的广泛解法是应用向量数据库(vector database)。在向量数据库中,向量是一等公民,所有的性能都是围绕着它建设的。

向量数据库能够让开发者以向量嵌入的模式解决非结构化数据(两个向量之间的间隔代表了它们的关联性),这对于应用和扩大大型语言模型(LLM)尤为重要,比方 OpenAI 的 Retrieval 插件就依附向量数据库帮忙用户从他们的数据源取得相干文件片段。

这个畛域很新,连 OpenAI 本人都搞不太分明,Milvus 和 Zilliz 是同一家🤣。

简直所有由 LLM 驱动的 AI 产品或技术都应用了向量数据库,随着 ChatGPT 和 AI 的风行,VC 也都涌向了这条赛道。咱们收集了一些近期向量数据库融资的音讯:

  • Pinecone: 4.27 发表 $100M B 轮
  • Weaviate: 4.23 发表 $50M B 轮
  • Qdrant: 4.20 发表 $7.5M 种子轮
  • Chroma: 4.6 发表 $18M 种子轮
  • Zilliz: (去年) 8.20 发表 $103M B 轮

曾经挤起来了,不过每家都有不同的性能、性能和价格,咱们来理解一下。

Pinecone

Pinecone 是个全托管的 SaaS 向量数据库厂商(反对 GCP & AWS),团队散布在纽约,三藩和特拉维夫。2021 年 1 月公开了 Beta 版和 $10M 种子轮融资;同年 9 月,公布了 Pinecone 2.0,也发表了他们全新基于应用的定价计划,其中包含免费版、标准版和企业版。

2022 年间他们用 Rust 重写了一遍(过来是 C/C++ 和 Python 写的),尽管过程无比艰苦,然而终局很美妙:产品性能和开发速度都得以进步。

Milvus / Zillliz

Milvus 创立于 2019 年,是一个为可扩大的相似性搜寻而建设的开源向量数据库,它基于 Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) 和 Annoy,并额定扩大了它们的性能。Zilliz Cloud 是基于 Milvus 的 SaaS 服务,有 30 天收费试用和 credit。

Weaviate

Weaviate 总部位于荷兰,一个开源的向量数据库,能够同时存储对象和向量,开发者能够很容易地创立本人的语义零碎或向量搜索引擎。Weaviate 前几天刚发表了他们的 Cloud Service 进入了公测,大家能够去试用(Sandbox 版有 14 天收费)!

Qdrant

Qdrant 于 2021 年在柏林成立,应用 Rust 编写,是一个为 AI 开发者打造的向量搜索引擎和非结构化数据的数据库。Qdrant 是开源的,用户能够间接下载应用,今年年初起推出了云服务 Qdrant Cloud,曾经有超过 1000 个 Qdrant 集群正在提供服务了。

Chroma

Chroma 是一个开源的向量嵌入存储。尽管 2023 年 2 月才正式推出,在过来的一个月曾经有 35K 次下载了,它当初只有收费的开源版应用,应该很快会推出托管版本。

看了一下 Chroma 种子轮的投资人,除了几大 VC,还有不少 startup 创始人和业内名人的投资,应该是人气最佳选手了。

pgvector

对于现有数据库解决方案,贮存向量通常只是一种附加性能,没有通过优化,也不足根本的性能。不过,pgvector 是 PostgreSQL 的插件,容许你在数据库中存储和查问向量嵌入。如果你用 PostgreSQL,或者 pg 生态圈的产品比方 Neon,Supabase,bit.io,能够试试这个插件。

  • https://neon.tech/blog/building-an-ai-powered-chatbot-using-v…
  • https://supabase.com/blog/openai-embeddings-postgres-vector
  • https://innerjoin.bit.io/vector-similarity-search-in-postgres…

Redis

大多数人用 Redis 应该都只是作为一个缓存来应用,不过它有一个 use case 是向量数据库,其实就是通过一些扩大模块,比方 RediSearch,Vector Similarity Search (VSS),来实现向量存储和查问(不过只有企业版能力用这些性能)。

总结一下

AIGC 的暴发带动了许多从属产品和生态的增长,向量数据库就是其中一员。此情此景,也让人不禁想起当年 Web 2.0 所引发的 NoSQL 反动。谁能成为向量数据库畛域的 MongoDB,DynamoDB?而哪些则会像 Couchbase,NuoDB,Riak,RethinkDB 退出历史的舞台?让咱们刮目相待吧。

参考

  • https://platform.openai.com/docs/guides/embeddings/
  • https://innerjoin.bit.io/why-you-should-care-about-vector-dat…
  • https://analyticsindiamag.com/why-are-investors-flocking-to-v…
退出移动版