乐趣区

关于数据库:KaiwuDB-CTO-魏可伟回归用户本位打造小而全的数据库

8 月 16 日,KaiwuDB 受邀亮相第十四届中国数据库技术大会 DTCC 2023。KaiwuDB CTO 魏可伟承受大会主办方的采访,单方独特围绕“数据库架构演进、内核引擎设计以及不同技术路线”开展深度探讨。

以下是采访的局部实录 ↓↓↓

40 多年前,企业的数据量还没有如此宏大,会抉择把要害业务数据放在关系型数据库中。随着软硬件的倒退,计算和存储老本一直升高,数据库技术进入新的倒退阶段。以 IoT 场景为例,这是一个由各种新技术互相交织造成的“泛”行业,看似宽口进,实则门槛高。

IoT 与 5G、工业 4.0、工业物联网、车联网、人工智能等造成“组合拳”,为各个行业的数字化转型赋能,但也导致业务零碎的复杂性攀升。当数据来自时序、文档、空间、图等多个数据源,各数据源又面向不同的数据库系统、接口服务等,导致最终的数据采集不残缺,呈现数据不统一的景象。

所谓“术业有专攻”,专库专用在一段时间里成为“专宠”,但也造成了数据孤岛。通常状况下,一家企业应用的关系型数据库是 A 家,时序数据库又是 B 家,同时可能还有 C 家的 AI 平台。这意味着企业须要领有身兼多种技能的开发运维人才;否则,一旦波及到新性能及多个产品之间的协同,就会影响迭代速度。

如果能用一套数据库去替换原来多套不对立的数据库类型,来解决业务的复杂性以及开发和运维老本一直攀升的问题,那企业面临的很多问题也将迎刃而解。多模数据库可能就是一个好答案。

一、多模架构,用“小而全”为用户减负

“从传统关系型数据库主导市场,到 NoSQL 数据库衰亡,再到时序数据库,图数据库,向量数据库百花齐放,明天的多模数据库旨在化繁为简,反对多种数据模型对立治理。”魏可伟示意,多模式数据库是数据管理系统一直演进的后果,多种类型的数据库系统混用带来的开发和运维压力,使得企业不得不做出新的抉择。

以后,业内支流的多模数据库可大抵归结为 2 种路线:

  • 粘合式

即大而全的平台式多模,把各种不同类型的数据处理引擎,包含关系引擎,集成在一起,下层以中间件的模式对外提供一个对立接口,进行数据的散发、转换等工作。

然而现实情况是,很多大而全的性能在理论业务场景中基本用不上。具体到下层的引擎,为了实现多模的能力,粘合式路线会把所有引擎都拉到一个中间层,再做数据搬动,给开发和运维带来极大的压力。

  • 成长式

以关系型数据库为主,为了解决图、文档等 NoSQL 数据扩大出新的能力;同时,除了关系型数据库厂商,图数据库、空间数据库厂商也在基于本人的本行向新的能力扩大,这都属于成长式。

这种模式绝对实用于有一个传统利用,又想基于原有利用做大量的异构数据扩大的状况。比方:金融行业的交易解决是日常利用,同时须要扩大大量的空间数据库满足业务需要,这种业务场景更适宜用成长式数据库。

但成长式多模架构在前期扩大能力上存在肯定局限,此前主体数据库架构可能基本就不反对新性能的扩大。

有别于上述两种情景,KaiwuDB 自研原生多模零碎,从顶层设计上人造具备横向交融、纵向精专的能力。依靠 ” 就地计算 ”、” 原生 AI” 等核心技术,KaiwuDB 疾速反对时序数据、内存数据、关系型数据等在同一数据库中对立汇存、解决及 AI 智能剖析。

其中,最大特色是对立的 SQL 语法、对立的数据库命令、对立的开发运维工具、对立的平安认证,可能将不同数据库性能充沛交融,实现一库多用,进而升高用户的应用老本,用魏可伟的话说,就是“小而全”。

KaiwuDB 始终在思考多模架构到底做到何种水平能力满足 IoT 畛域用户的需要而又能做到简略易用?

首先,时序数据处理的性能和扩大能力肯定是高要求,同时要想方法升高存储老本;其次,要提供合乎 IoT 数据特色的数据管理工具以及数据库自治的能力;最初,要以剖析为先、以 AI 为先,可能从海量数据中挖掘出数据价值,为 IoT 业务场景提供业余的服务。

此种背景下,KaiwuDB 给本人的定位是,在设计上有横有纵,打造一个 “又融又专” 的多模架构。

  • “融”

指针对不同的数据类型,开发能施展最大性能的专用数据处理引擎,例如 KaiwuDB 时序引擎,利用“就地计算”技术能够实现每秒数百万级的数据写入,毫秒级响应千万级数据的剖析查问。

  • “专”

指交融多个专用引擎以反对 IoT 业务场景,在多个专用引擎之间造成对立的优化,对立的治理,同时又依据 IoT 数据处理的特点建设“快速通道”。

比方,在数据写入场景中,KaiwuDB 会优先思考时序数据的写入性能并做优化,从而实现专用时序数据库的时序数据处理性能。

这就与传统“粘合式”和“成长式”的数据库造成本质区别。再有,KaiwuDB 会为时序数据到关系数据分析的外部“ETL”流程“关上快车道”,从而晋升性能并节约资源。

站在用户本位,以数据库翻新技术简化利用,让产品性能有限地贴近用户需要,是 KaiwuDB 这一新生代数据库继续致力的方向。

二、AI 引擎,为企业插上数智化降级翅膀

相较于对热点大模型技术的趋之若鹜,KaiwuDB 强调 “原生 AI” 的概念。

在 AI for DB 方向上,KaiwuDB 利用 AI 引擎实现数据库自治。比方,在时序数据场景中,会以工夫维度进行数据的聚合剖析,这背地的一项关键技术是 智能预计算——即利用 AI 大脑预判用户会对哪些内容会做聚合剖析,提前把后果计算好。

这一能力可疾速实现后果反馈,极大水平晋升性能;在生命周期治理方面,也能够通过 AI 对用户应用状况做出预判,如果 AI 预判用户对某一类数据不再频繁调用,能够主动挪到冷存储上,升高资源占用。

在 DB For AI 研发方向上,KaiwuDB 的“原生 AI“概念并非要打造 TensorFlow 这样的 AI 框架,即:不是去做算法,而是在多模的框架下拥抱生态,为用户提供更好的生产 AI 的能力,这种能力能够概括为“ModelOps in DB”

ModelOps in DB 的理念是:让用户通过数据库更好地应用 AI,通过数据处理拉近数据科学家和开发运维人员的间隔。通过 ModelOps in DB,可能进步模型训练和预测的性能,保证数据的安全性,更可能利用数据放弃模型的准确性。

例如,当用户把数据拉出到 AI 平台训练模型,用来做业务预测,刚开始的时候可能准确率很高,但随着工夫的推移会产生漂移景象,也就是模型准确率会降落。这是因为用来训练模型的数据曾经过期,而通过原生 AI 的能力,在数据库中就能够第一工夫发现漂移景象,做出相应的反馈。

“大模型给咱们一个十分有意思的启发,如果自然语言变成数据库角度的一个接口,多模会变成一个更天然的抉择。”魏可伟剖析道,SQL 生态曾经倒退了几十年,有很多成熟的工具构建,是一个要害的数据库接口。站在大模型的风口,咱们再去看多模的将来,各种专用引擎会在自然语言的交互方式下对立起来,人人都能够在低门槛的状态下应用数据库,这应该会是多模的终极状态。

在 KaiwuDB 技术团队中,有很多开发人员致力于 AI 方向,解决 AI 落地的消费性问题,这也是 AI 和数据库联合的关键点。

将来,KaiwuDB 除了在异构数据跟 AI 联合的方向上进行致力,在用户关注的重要场景上继续发力,也会关注大模型的反对,比方:引入向量数据库,在现有的多模架构上,再多出一模。

明天,在 AI 技术推动下,数据处理能力也在一直演进,诸多企业正在把数据对象里的信息抽取,无论是什么对象,或者无论是什么实体所蕴含的语义信息,都能够变成一个向量,而后再进行剖析。而嵌入向量性能的数据库,会更好地反对 AI 利用。因而,AI 和数据库正以相互作用的状态,共同进步,开释用户的数据生产后劲。

写在最初

将来,不论是多模数据库自身的倒退,还是与 AI 的联合,KaiwuDB 都将保持回归用户本位,专一于打造一款“小而全”的数据库产品。在面对国内外用户对于产品性能与产品性价比“既要又要”的挑战下,KaiwuDB 也将不忘初心,秉承“匠心”精力走出本人的新路子,给市场与用户带来更多的可能。

退出移动版