乐趣区

关于人工智能:为什么-AIGC-和大模型创业者都在安利向量数据库

从目前 VC 的投资数据来看,大家对 AI 的关注点次要有三个:一个是根底大模型 LLM,第二个是具体某个场景的利用(包含小模型),第三个就属根底模型与应用层之间的中间层了(开发者工具和数据库等)。

随着开发者疯狂涌入开发各种 AI 利用,中间层曾经成为各大 VC 争抢的投资标的,作为 AI 时代 Memory 的向量数据库,更是当下最大的一个热门。

在之前的文章我曾提到,尽管向量数据库的倒退还处于十分晚期阶段,但在过来一个月里资本正在疯狂涌入这个赛道,这个畛域的守业梯队也逐步浮现了进去。估值在一亿美金以内的有 Chroma 和 Qdrant,总融资金额在千万美金级别;估值在五亿美金之内区间的有 Weaviate,总融资金额在 5000 万美金级别;估值在五亿美金之上的有两家公司 Pinecone 和 Zilliz,总融资金额都超过了一亿美金。

其中,Zilliz 是一家源自中国的公司,总部设立在美国硅谷。它是向量数据库畛域寰球最早的开拓者,在五年前就推出了寰球首个开源向量数据库产品 Milvus。Milvus 当初是寰球最风行的开源向量数据库产品,在寰球领有超过 1000 家的企业用户,是 OpenAI 和英伟达最近公布的向量数据库的官网合作伙伴,在一年前 B+ 轮融资时估值就曾经靠近 7 亿美金了。

为了更好地理解向量数据库的价值,我最近约 Zilliz 创始人星爵深刻地聊了聊,这次对话解答了我的很多纳闷,其中最外围的一点是让我了解了向量数据库的真正价值和将来微小的市场空间(TAM)。除此之外咱们也聊了很多对于 Zilliz 守业过程中的各种话题,因为此次对话十分的随便,这里我简略做了一下演绎,心愿能更全面地把对话内容体现进去:

类比 PC 时代,向量数据库就是 AI 时代的 Memory

对于向量数据库是什么,简答来说,它是 Memory for AI,用于存储、索引和搜寻来自机器学习模型嵌入的海量非结构化数据集,我曾经在之前的文章《a16z 领投 1 亿估值 7.5 亿美金,最近 AI 中间层这个畛域切实太火》做了简略介绍,这里就不再复述。

谈到向量数据库的角色,咱们须要理解向量,它是神经网络外面最根本的一个货色,无论是神经网络还是深度学习,它最终都是通过 Embedding(嵌入)或者向量去做数据的替换跟解决,它是信息替换的一个根本元素,这种新型的数据须要一个中央存储,于是就产生了向量数据库。

为了更好的了解,咱们能够将相似 ChatGPT 这样的大模型比做电脑里的中央处理器 CPU,它具备十分弱小的计算解决能力,而一台电脑除了 CPU 外,还有各种存储器,包含内存以及外存。实质上 CPU 也具备存储性能,就是咱们所说的缓存,但简直在所有的电脑中,除了有 CPU 外,都必须装备有其它存储。

这里的最实质的起因在于计算永远要比存储贵 100 倍,这是依据物理定律所决定的,因为计算单元的发热量、它的功耗以及密度都做不到存储那样,存储只是在须要调用的时候才会工作,但计算的任何一个动作都须要波及到大量的工作。

咱们看过来 10-20 年计算机的倒退,尽管计算芯片的老本在一直降落,但与之相比,存储老本的降落幅度要大得多。举个很简略的例子,以前咱们买一个 U 盘是依照 MB 的存储量来度量的,然而当初 U 盘简直都是依照 G 甚至 T 来卖,存储的晋升在以 1000 倍这样的速度进行,然而计算能力的晋升就要慢很多,因而从老本的角度来看,存储的老本在急剧下降,而计算的老本则大大高出前者。

所以在计算机时代,计算跟存储是相辅相成的,存储永远比计算便宜(数量级上的便宜),咱们所须要的就是在两者之间获得一个均衡,很多时候这个均衡实际上是用空间换工夫,这里的空间是存储,而工夫就是计算。

回到 AI 时代,原理也一样,它也须要在计算和存储之间达到一个最优的平衡点,而且因为 AI 大模型的规模会在数量级上更大,对计算提出了更大的要求,导致老本规模也会大很多,因而通过与向量数据库这个存储相结合,能力实现 AI 的最优均衡。

向量数据库在当下的利用价值

从下面咱们能够看到,向量数据库的价值其实是随同着整个大模型的倒退而倒退的,只有大模型在一直倒退,那么向量数据库也会一直倒退,因为它们就像 CPU 和存储一样。

而向量数据库在当下的利用,第一个就是让大模型能够利用企业或者集体的私域数据,实现信息数据的连贯;或者反过来说,让那些领有大量数据和利用场景的企业利用大模型的能力帮它解决问题,同时还能放弃本人对于数据的掌控力。

咱们都晓得大模型是基于公开数据进行预训练的,它的训练周期也比拟长,无奈获取当下的实时信息以及企业外部的私域数据,因而须要通过向量数据库这个存储来实现模型与这些数据的连贯,此时只需把你的私域数据通过向量数据库进行索引即可。

而为了爱护企业的公有数据产权,大模型不能将你的公有数据占为己有,它只能在那一刻应用,用它的模型能力把你的数据处理完并把后果返回给你,它不能存储,也不能将这些数据拿来训练优化其母模型,应用完即删除。

在美国,这一点是在法律上失去保障的,因而大家能够无所畏惧的跟 ChatGPT 等大模型进行单干,而不必放心本人的私域数据被这些大模型占为己有(须要阐明的是,并非这些大模型没有这个能力,而是法律不容许。这也解答了我对于大模型的一些纳闷,之前认为像 ChatGPT 这样的通用大模型会吃掉所有能吃掉的服务,因为它能一直排汇企业的私域数据,当初看来这点无需担心了,或者也正是这种明确的爱护机制,促成了 ChatGPT 的诞生)。

同理,其第二个利用就是大模型对于(人类)新常识的利用,人类每天都在产生新的常识新的数据,大模型自身无论如何都无奈实时将这些信息纳入其模型的训练,一方面在于其训练周期,另一方面每时每刻产生的这些新常识是一个宏大的数据量,这在老本上也不可行。

如何让大模型的能力利用于新常识?和私域数据一样,须要通过向量数据库这个存储实现信息的连贯与索引。无论是私域数据还是新常识的利用,向量数据库在这里起到的实质作用都是解决记忆存储的问题。

而第三个利用价值,则和当下最热门的 AutoGPT 或者 BabyAGI 这样的 Agent 智能体无关,它们和后面的私域数据以及新常识不同,它面向的是 AI 本人生成的常识,而不是人类发明的常识。这些智能领会把本人发明的常识保留下来,进而进行一直的迭代演变,这会导致数据以指数级增长,这些智能体必须要求助于向量数据库,因为这么大体量的数据是无奈通过模型自身来存储的。

目前大家对于相似 AutoGPT 和 BabyAGI 这样的智能体的认知还处于玩具阶段,然而它们很可能是 ChatGPT 后新的 Killer APP,后面的智能体只是对人类已有常识(包含私域数据和人类新常识)的记录,但 BabyAGI 这样的智能体可能逐步会与人类的常识变得毫无关联。

如果说这些智能体的部署和生产的老本越来越低的话,他们甚至可能会产生人类的数据,这也就是很多人认为咱们人类曾经到了造物主这个时刻。以前实质上这个世界的信息都是人类的生产经营流动造成的,但当前人类会发明一个货色,这个货色是本人的自我演变,会产生远比人类更多的数据,那么数据会爆炸,非结构化数据会爆炸,存储数据也会爆炸,这也就是向量数据库将来的微小机会所在。

只管在当下咱们还想不到这类智能体的具体利用场景,以及人类是否须要那么多智能体,然而或者到某一天可能咱们每个人都须要大量这样的 Agent,而每个 Agent 都随同着向量数据库。

从技术栈的角度了解向量数据库

如果从技术栈的角度来看,AI 时代的技术栈是 CVP(ChatGPT-Vector Database-Prompt),这里的 C 是指以 ChatGPT 为代表的大模型,Vector Database 就是向量数据库,Prompt 也就是提醒词。在理论利用过程中,真正须要用到向量数据库的并不是这些大模型自身或者说它们的需求量很小,而是基于大模型做开发的开发者。

如果咱们将其对应到挪动互联网时代,开发者平台 iOS 和 Android 就相当于 CVP 里的 C,而 mongoDB 和 Firebase 这样的数据库就对应于 CVP 里的 V,各种前端利用对应于 CVP 里的 Prompt。

在每一个技术时代,都是相似的技术栈,都须要相应的数据库,而应用这些数据库的并非相似 iOS 和 Android 这样的平台,而是开发者,这也就是为什么数据库的市场如此大的起因,因为最终的平台可能也就几家,然而开发者成千上万甚至上亿。

而当下中间层十分火的 Langchain 和 LlamaIndex 等产品,其角色是把 CVP 串联起来,如果放到上一个时代的话,它有点相似 IDE,让开发者能够更简略地开发利用。

向量数据库将来的可能格局

咱们先看看上一个技术时代云数据或者数据分析平台的最终格局,基本上都是双寡头模式,一个 Snowflake,一个 Databricks,其中 Snowflake 闭源,Databricks 开源。双寡头会占据市场的 60% 以上的市场份额,前面市值在几十亿美金的云数据分析公司至多还有 20 家左右,市场格局基本上呈现出寡头和长尾散布的模式。

因而在向量数据库畛域,Zilliz 创始人星爵认为,将来可能也会出现相似的格局,即呈现 1 到 2 家 500-1000 亿美金的公司,它们可能会做通用的计划,解决通用类场景。同时在几十到百亿美金之间可能还会有 10 家左右,它们会专一在细分垂直畛域,而从过来美国市场的状况来看,简直都连续了这样的格局。

当然,整个市场才刚刚开始,咱们只能从前几个技术时代做简略的预测。当初 AI 的产品状态和场景变动太快,目前次要还集中在文本大模型畛域,星爵示意 Zilliz 很早就曾经开始做多模态的大模型撑持,下一波的视频、图片以及生物医药等畛域的大模型会很快到来,因而将来的向量数据库存储的记忆将不再限于文字,它会存储图片、视频甚至化学分子式等等。

Zilliz 如何在 5 年前便发现了向量数据库这个机会

向量数据库这个概念在最近才真正火起来,然而 Zilliz 在 2018 年就曾经在寰球开始布局了,因而我特地好奇星爵是如何在那么早就发现了这个机会,星爵说了三个层面:

第一个是技术的直觉,作为在甲骨文做了多年数据库产品的人,星爵说过后最简略的直觉就是在不同的利用场景下,肯定会带来新的数据根底软件的机会,如果这个场景足够大的话那就能做成一个十分大的事件。

第二个就是 AI 的逐步衰亡,在 2015-2016 年的时候,咱们曾经看到 AI 衰亡了,也就是 AI 1.0 那一波浪潮。那个时候市场曾经有一个根本的共识,那就是 AI 肯定会是将来 10 年 20 年最大的一个改革,尽管市场倒退过程中的挫折让很多人对 AI 的将来产生了疑难,然而星爵始终是置信这个事件会产生的。有了这样一个信念,那么围绕 AI,这种根底软件数据肯定会产生很多变动,也就是向量这个货色,它是古代 AI 的实质。

第三个则是星爵亲历了 Snowflake 的整个成长历程,这对于星爵具备十分大的触动,星爵说给他带来了十分大的激励。Snowflake 晚期的两位联结创始人跟星爵是隔壁办公室的共事,大家在一起共事写了近 3 年代码。星爵见证了 Snowflake 打造云原生数据库系统疾速爆火到取得巨大成功的全过程,深受鼓舞,决定要在 AI 时代打造新一代 AI 原生的数据库系统。

Zilliz 的晚期守业经验

正是 Snowflake 爆火的触动与对机会的认知,最终让星爵决定回国守业,星爵跟我说的这句话让我印象十分粗浅:

只有见证过奇观,才会置信奇观,才会置信奇观会来临于你。

自此,一段孤单的守业历程便开始了,而抉择回到国内开始本人的守业,星爵说外围是中国在第一波 AI 浪潮时数据量最大,利用场景最多,比方说图片检索、举荐零碎、电商搜索引擎等畛域很早就曾经用上向量数据库了,像淘宝的以图搜商品,就是十分典型的利用场景,还有像微软的 Bing 搜寻,很早就曾经用上向量数据库了。

只是那个时代 C 端的集体消费者是无奈感知到这些技术的,实质上还是一个十分小众的市场,但也正是这些利用场景,让星爵更加深信了本人的判断是正确的,他须要等的就是 AI 的 iPhone 时刻。当 ChatGPT 这个 Killer 产品呈现引爆 AI 2.0 后,向量数据库疾速从小众市场一下子走向了宏大的开发者市场,这才有了现在大量 VC 追赶投资的现象。

在星爵开启向量数据库守业的时候,即便是在硅谷也没有几个人能懂,投资就更别说了。但从事数据库工作多年的技术直觉让星爵始终深信,向量数据库就是将来。因而即便晚期没有人违心置信,他仍然本人做本人的天使,投入近 200 万保持了下来。

2015-2016 年,Snowflake 在美国的创投圈曾经十分火了,成长为新一代独角兽公司。而 Snowflake 的整个倒退过程,坚守的是技术 / 产品至上,其产品在任何一个单点性能上都会比竞争对手要好那么一点点。Snowflake 简直做了整整 5 年的研发才开始正式对外售卖产品,这一点也成为星爵在做 Zilliz 坚守的一个信条,Zilliz 至今曾经快做了 6 年工夫,依然没有一个销售,没有做营收,因为星爵认为,一个根底软件产品,没有个 3-5 年的技术研发,你是没方法拿出去卖的:

如果一个产品通过一两年工夫的研发就开始对外卖,那么这个产品肯定是没有壁垒的

同样,Snowfake 一开始坚定只做云,也成为 Zilliz 的另一个信条,星爵认为做云上的生意是一个十分好的商业模式,然而一开始做云肯定是十分苦楚的,因为它的速度会十分慢,并且面对公有部署以及销售等大单,很多时候是经不住引诱的,然而对于一个守业公司来说,如果你开始就做公有部署做销售,你的资源很快就会跟不上,它可能会将公司耗死,或者你会变成一个我的项目公司。

为何一开始就决定做开源

星爵认为这与产品自身的属性相干,Zilliz 作为向量数据库的寰球开拓者,不要说在过后,即便是当初真正懂的人可能也不多,作为一个全新并且次要面向开发者的产品,在一开始大家都是没有共识的,因而这个时候要让开发者为此付费是十分艰难的,你必须要让大家先应用,而开源就是最好的形式,同时开源是获取用户反馈最好的一种形式。

通过开源,Zilliz 没有一个销售和 BD,曾经在寰球取得 1000 多家客户,而开源带给 Zilliz 最大的价值还在于带来技术和产品的反馈迭代,这是 Zilliz 区别于大部分竞品的外围之一。

Day 0 即以硅谷的形式做一家全球化公司

在咱们的聊天过程中,星爵始终跟我说的一句话就是,Zilliz 从 Day 0 开始即是以硅谷的形式做的一家全球化公司。这点无论是公司的产品研发、做开源的决策、人才招聘、不焦急做营收,还是融资过程中的各种保持,在国内很多做法可能都是反共识的。

比方说融资,星爵跟我分享说国内的大部分投资人个别都要在硅谷找一个对标,如果没有对标是很难决策的,但向量数据库这个事件一开始就是全新的,是一个原创的产品,在寰球都找不到对标,这在硅谷是十分失常的一个事件,大家守业都会标榜本人是原创的产品,而不会去某个市场找一个对标。

因而在融资过程中他只能找真正违心置信这个事件的投资人,找真正能看得懂这个事件的人,而不会去投合投资人的要求,这个过程说容易,然而要真正执行起来十分艰难的,因为每一次都会有投资人来挑战你,大部分海内回国守业的创始人可能保持一下就斗争了。

同样在产品层面,也是齐全依照硅谷的形式,星爵认为对于根底软件,最外围的就是要做好技术研发和产品,营收是技术和产品之后的一个事件,这在硅谷也是十分失常的一个事件,比方说后面说的 Snowflake,以及像 Databrick 和 Anysacle,直到独角兽之前其营收基本上都为零。

在这过来的 5 年,Zilliz 不到 100 人的员工绝大部分都是研发工程师。在过来三年里,他们在国内顶级数据库会议发表的论文基本上做到了每年一篇,星爵说往年他们会发表 3 篇,在根底软件这个畛域,国内鲜有守业公司能够领有 Zilliz 这样的钻研实力。

Zilliz 的这些做法,星爵认为放到中国市场来看都是反共识的,然而放到硅谷去看都是 Make Sense 的,这是中美两地环境最大的一个不同。星爵心愿能通过 Zilliz 的致力,证实中国创业者也能在企业端做出寰球原创性的产品,并扭转国内创投环境对于原创产品的更多反对,最终造成创业者与投资人的良性循环。

也正是有了整个这一套的外在价值撑持,Zilliz 这几年始终依照星爵的这种形式,排除掉外界所有的乐音,从零做到目前靠近 7 亿美金估值的公司还简直没有做营收没有销售,这在国内的企业级市场是十分少见的。

现在 ChatGPT 的呈现真正引爆 AI 从小众市场到公众浪潮,带来向量数据库在寰球需要的大暴发。这个时候,星爵认为所有的条件仿佛曾经具备了,到了 Zilliz 进行商业化的阶段了,而 Zilliz 的商业化也会从北美正式开始,毕竟其寰球总部就在硅谷。

最初我简略问了一下星爵 Zilliz 的竞争壁垒,星爵的答复很有意思,数据库自身就是壁垒,世界上能把数据库真正做好的公司没有几个。目前 Zilliz 的开源产品在 Github 曾经靠近 2 万星标,对于一个企业级的根底软件产品来说,这是十分不错的问题了。

(本文为转载文章,原文首发于微信公众号【投资实习所】)

  • 如果在应用 Milvus 或 Zilliz 产品有任何问题,可增加小助手微信“zilliz-tech”退出交换群。
  • 欢送关注微信公众号“Zilliz”,理解最新资讯。

本文由 mdnice 多平台公布

退出移动版