关于数据库:分久必合数据库进入超融合时代-爱分析调研

6次阅读

共计 6795 个字符,预计需要花费 17 分钟才能阅读完成。

回顾历史,数据库的倒退经验了从繁多到多元的变动。

上世纪 60 年代,网状和层状数据库揭开了数据库系统倒退的帷幕;1970 年,来自 IBM 实验室的 Edgar F. Codd 发表了《大型共享数据库数据的关系模型》论文,提出基于集合论和谓词逻辑的关系模型,为关系型数据库技术奠定了实践根底。之后关系型数据库疾速倒退,并为整个数据库生态培养了松软肥沃的倒退土壤。

1993 年,Codd 进一步提出联机剖析解决(OLAP)的概念,剖析型数据库的概念也由此正式诞生,关系型数据库逐步分化成为事务型、剖析型两大类。

进入 21 世纪,互联网蓬勃发展,数据量爆炸式增长、数据类型也极大丰富。关系型数据库逐渐遇到倒退瓶颈,如容量无限、在高并发下读写性能低、不适宜海量半构造和非结构化数据,等等。因而,一线互联网公司开始破旧立新。谷歌在 2003 至 2004 年颁布了对于 GFS、MapReduce 和 BigTable 的三篇技术论文,极具里程碑意义。其中 GFS 和 MapReduce 奠定了分布式数据系统的根底,Hadoop 由此应运而生,并疾速倒退成熟。以 Hadoop 为基石的大数据生态圈,主导了二十一世纪第一个十年的技术潮流。

而谷歌 BigTable 与亚马逊的 DynamoDB 的推出,开启了大数据技术的另一个重要分支 NoSQL,并呈现了针对不同数据类型的 NoSQL 数据库,如键值数据库、文档数据库、图数据库、时序数据库等。这些专用数据库很好地解决了针对特定数据类型和利用场景的数据存储和解决问题,迎来了疾速倒退。
至此,数据库行业进入百家争鸣的时代。

01
数字化转型时代,数据库开启交融新篇章

技术一直倒退迭代的背地,更实质的是一直演变的需要。数据规模、数据类型、业务场景、总体领有老本等因素的扭转,都驱动着数据库技术和状态的进化。以后,人类社会曾经从以人为外围的互联网时代,迈进了万物智联的数字化转型时代,而作为承载数据的基石 —— 数据库系统也酝酿着新一轮的变动。

数字化转型时代,数据在各行各业间的散布产生了显著变动。传统行业踊跃拥抱数字化转型,发明和领有更大规模的数据,并将数据作为要害的生产因素之一,驱动业务的经营剖析和决策。他们逐步成为数据库行业的“要害用户”。

一方面,与互联网企业相比,传统行业用户的技术能力和对数据基础设施的投入都绝对无限,特地是在技术引入的初期,因而,要求数据库具备更低的技术门槛、更便捷的应用体验和更低的建设老本。
另一方面,传统行业的业务复杂度更高,生产流程长、环节多,领有宏大的实体资产,供应链上下游的合作依赖更深。因而,传统企业面临的数据利用场景也十分多元,如 BI 报表、实时决策、基于机器学习的预测性剖析等;同时,数据体量和多样性也在快速增长,尤其是随着物联网利用的落地,像时序、GIS、图像、视频、文本等新兴数据类型大规模涌现。

为了满足上述多元化的数据处理与剖析需要,企业通常须要别离建设一系列独立的零碎。以一个典型制作企业的零碎建设为例,MES、ERP 等业务零碎都会对应一套独立的关系型数据库;面向 IoT 数据处理则会建设一套专用的时序数据库;如果有图数据分析等更多数据场景,还会叠加更多的专用数据库;而为了实现数据挖掘,又会建设一套大数据系统……如此叠床架屋,一层套一层。简单的数据平台架构给企业带来高企的老本和一系列麻烦:面对多种技术和产品,选型工作沉重;开发和运维多套零碎,复杂度攀升,人员和 IT 基础设施老本激增;数据多处散布,导致数据孤岛和数据品质问题,整体运行效率低,稳定性差等等。

如何解决这些新时代的挑战?将多种数据库的能力进行交融,让数据库变得更加“全能”且“易用”,从而升高数据库技术栈复杂度和技术门槛,是最间接的解决方案。数据库和大数据厂商纷纷尝试多种技术交融的门路,在近十年数据库的翻新交融趋势中,最典型的交融体现包含:NewSQL、HTAP、湖仓一体。

NewSQL:OLTP+ 大数据的交融。NewSQL 将传统关系型数据库与分布式架构交融成,反对 SQL、ACID 以及弹性伸缩。最早的 NewSQL 数据库 Cloud Spanner 由 Google 于 2012 年外部公布,以 MemSQL、ScaleDB 为代表。

HTAP:混合事务剖析数据库,OLTP+OLAP 的交融。HTAP 的概念由 Gartner 于 2014 年提出,通过行列存储、大规模并行处理技术、资源隔离等核心技术实现同时满足事务类、剖析类的业务需要,以 Azure SQL、TiDB 为代表。

湖仓一体:OLAP+ 大数据的交融。湖仓一体由 Databricks 于 2020 年提出,充沛交融数据湖和数据仓库的劣势,构建能够存储结构化数据、半构造数据和非结构化数据的数据湖能力的同时,又继承了数据仓库的数据处理和治理性能,实现数据和计算在湖和仓之间自在流动。

能够看出,无论从需要侧还是从技术侧来看,数据库都进入了交融倒退的新时代。需要侧在经验了“量”的跨越式增长后,迎来“质”的变动,对数据库的状态、体验和老本都提出了新需要;而技术侧也紧贴需要,一直新陈代谢,尝试新的冲破。整个行业在螺旋式回升,那么数据库交融倒退的下一个阶段,将走向何方?

咱们看到,市场中曾经呈现一种更为彻底的数据库交融状态——超交融数据库,不仅反对多类型数据(关系型、时序、GIS、文档型、图型、键值型等)的对立建模和存储,也反对对多类型数据进行对立的查问和剖析操作。除了能以同样的形式将各类数据写入,也能通过同样的形式读取剖析这些数据,在应用体验上也实现了交融统一。同时,作为企业级产品,超交融数据库还须要满足各场景下的性能要求。

能够认为,超交融数据库,是指在对立平台下、在全量全域数据领域内,实现:多模数据融通 + 基于 SQL 等通用语言的全场景查问剖析 + 高性能与易用性。

02
代表厂商 YMatrix 的超交融数据库实际

用一个弱小的“超交融数据库”一站式解决多种问题,是一种现实状态。一个广泛的质疑是:一款数据库如何既做到对多种数据类型和利用场景的交融,又做到媲美专用数据库的优良性能?只有在实在业务场景下的落地实际,能力证实其可行性。

在超交融数据库的实际方面,YMatrix 无疑是目前市场上最具代表性的一家厂商。为了探讨超交融数据库的发展趋势和实际停顿,近期,爱剖析对 YMatrix 进行了调研,并对 YMatrix 创始人 &CEO 姚延栋学生进行了访谈。

YMatrix 成立于 2020 年 8 月,至今曾经取得总规模超亿元的四轮融资,投资方包含晨山资本、顺义产业基金、某头部云厂商、西方富海、中科创星、清华启迪等。YMatrix 的团队在数据库内核引擎开发方面领有深厚的积攒,创始人 &CEO 姚延栋曾负责 Greenplum 北京研发核心总经理,历经 10 年从 0 到 1 组建 Greenplum 中国研发团队,并率领团队将 Greenplum 打造为世界前列的数据库。

基于对数据库交融的技术趋势,以及物联网时代时序数据暴发的动摇判断,YMatrix 在成立伊始就锚定了超交融数据库方向,并抉择先从时序数据库切入。

2021 年 7 月,YMatrix 公布了超交融时序数据库 MatrixDB4.0。通过继续打磨,YMatrix 于往年 10 月 26 日正式公布了升级版的超交融数据库 YMatrix5.0,该版本的迭代重心在“超交融”层面,并实现了一系列性能和易用性的优化。其内置高性能微内核数据引擎,实现了对关系型数据、时序数据、JSON 数据、键值数据、GIS 数据、文本数据的广泛支持,并在数据操作层面反对以规范 SQL 实现跨数据模型的写入、建模、联结查问以及机器学习等。

基于这些个性,YMatrix 超交融数据库的实用场景宽泛,尤其实用于 OLAP 和时序数据处理的场景,如工厂数据基座、智能网联汽车、物联设施智能经营、实时数据仓库等。目前,YMatrix 曾经服务宁德时代、三一重工、现实汽车、小米、比亚迪等多家大型企业,验证了其产品和服务能力。

以 YMatrix 服务国内新能源巨头的案例为例。该企业原有数据平台架构较为简单,包含承载业务剖析数据 Greenplum 数仓集群、承载时序数据的 MySQL + Greenplum,以及 Hadoop 大数据平台等。这些零碎普遍存在性能和性能层面的有余,且整套体系开发成本高、运维简单,无奈撑持该企业长期倒退对数据管理的承载力、效率、老本和易用性的要求。

为了解决上述问题,该企业基于 YMatrix 替换原有集群搭建了制作大数据平台,承载传统业务的关系型数据,优化了性能,并承载时序数据,补全了时序场景剖析能力;基于 YMatrix 搭建了分支工厂的独立数仓平台,构建总部(云)和工厂(边)协同架构,无效升高了团体集群的负载;此外,以 YMatrix 架构代替了 Spark 及 MySQL 集群,承载售后大数据分析系统,大幅简化了零碎架构,晋升了性能。借助 YMatrix 的架构降级,该企业取得了以下收益:

整体上晋升了性能,为应答业务量大规模扩张奠定根底。

基于 YMatrix 超交融数据库对多模数据综合剖析需要的反对,可能服务该企业将来 5 -10 年的潜在需要,防止不必要的架构调整和投资节约。

数据管理老本取得无效管制,集群规模节俭超 30%,且节约了对新产品、新架构的学习老本。
基于 YMatrix 提供的大量图形化及自动化的运维能力,以及零碎架构的精简,大幅晋升了应用体验,升高了运维复杂度。

通过 YMatrix 的实际能够看到,超交融数据库正在从一种概念构想转变为真正的落地利用。随着技术的继续迭代,以及利用场景的扩大和浸透,将来,超交融数据无望在数据库市场中占据越来越大的份额,成为企业数据基础架构的重要抉择。

以下是本次爱剖析对姚延栋学生访谈内容的精选。

爱剖析:您如何了解超交融数据库?为什么抉择这个方向守业?

姚延栋:咱们察看到,最近这 10 年数据库畛域呈现了显著的交融趋势,如 NewSQL、HTAP、Lakehouse 等,都是某种交融的体现,这是一个交融的时代。

那么,将来数据库的交融趋势会如何演进?我判断将来是一个超交融的趋势,并在 2020 年就提出了“超交融”这个概念,这里的超交融是指实现“OLTP+OLAP+ 大数据”三者的交融。

为什么我感觉超交融肯定是数据库的将来?以手机为例,在智能手机呈现前,性能手机只能接听电话,拍照、听音乐则须要用照相机、MP3。随着智能手机的呈现,这些繁多性能在智能手机这个平台上实现了交融。这个例子背地反映的是技术从简略到简单,再到升维后简化的主观倒退法则,数据库技术的倒退也必然合乎这样的法则。

从客户需要的角度,也能进一步验证超交融这个趋势。实际上,客户需要也是咱们守业的出发点。具体来讲,做数据库是一件长期的事件,单产品研发就可能消耗 3 - 5 年的工夫,所以咱们守业须要首先判断将来时代倒退的大机会在哪里。

显然,将来的时代是物联网 + 数智化转型的时代,而这个时代的用户主体是宽泛的传统企业。以后传统企业数据库体系简单,建设和保护须要大量的人力、工夫和资金老本,相较之下,购买可能间接解决大部分场景需要的超交融数据库产品,性价比更高。咱们预感,将来企业对超交融数据库产品有强需要,而超交融数据库也将以更具竞争力的老本劣势、更快的速度和更好的翻新形式赋能各行各业。

爱剖析:YMatrix 创建之初,为什么抉择以时序数据库作为超交融数据库的切入点?

姚延栋:下面提到,咱们的第一个判断是将来将会是万物互联和企业数智化转型的时代。在这个时代,最大的新变量就是时序数据,并且时序数据将快速增长成为主体数据。那么从产品端,咱们该如何反对时序数据?

对此,咱们做了第二个判断:时序的次要场景是剖析,剖析的主体数据是时序,针对时序数据的剖析性能肯定要做。这就是为什么咱们没有做诸如 InfluxDB 这类性能显著,但不具剖析性能的时序数据库产品,最终抉择面向剖析场景的 Greenplum 的分布式架构,并采纳关系型数据库 PostgreSQL 作为外围引擎研发超交融时序数据库。当然,还有一个额定的不言而喻的劣势,就是咱们的开创团队具备 10 年以上 Greenplum 研发教训。

爱剖析:YMatrix 的数据库产品目前实现了怎么的“超交融”?从技术上是如何实现的?

姚延栋:YMatrix 采纳了一种翻新的技术架构,咱们称为“多微内核凋谢架构”。就像 CPU 有多个核一样,当初数据库也能够是“多核”的。每个内核由不同的存储引擎和执行器组成,而这些都是针对场景优化过的。比方咱们专门针对时序场景的微内核,其中包含自研的 MARS2 时序存储引擎,以及通过向量化优化的执行器。目前咱们提供三种微内核,别离面向 TP、AP 及时序场景,外面有很多专项的优化,也有一些复用的局部。基于这种架构能够让咱们十分不便的进行场景扩大,比方将来针对某类新兴数据类型,咱们只须要是针对新的场景研发一款新的微内核,而不是从头到尾再从新研发一整套数据库,效率将大幅晋升。

爱剖析:与专用数据库相比,超交融数据库为了做到性能上的交融,是否会就义性能上的体现?
姚延栋:不会,性能也是咱们产品始终在打磨的方向。本次公布的 5.0 版对性能进行了全面优化,实现时序场景的写入及查问、单表查问、多表关联剖析、机器学习以及 OLTP 等全场景解决性能的跨越式晋升。

每个场景咱们都有实在的测试数据作为证实:

在时序场景的写入能力上,YMatrix5.0 在实在的生产场景中写入速度可达 1.52 亿数据点 / 秒。而通常一个工厂的数据点大略在 10 万点以内,1.52 亿是工厂场景规模的 1500 倍;

在时序场景的查问性能上,比照时序数据库独角兽 TimescaledDB 耗时是 YMatrix 的 5.1 倍;

在单表查问性能上,SSB 基准测试结果表明 YMatrix 超交融数据库比 ClickHouse 快 27%;

在多表关联剖析性能上,比照 MPP 数据库支流厂商 Greenplum,YMatrix 实现了数倍的性能晋升;

在机器学习场景性能上,YMatrix 库内机器学习性能相比 Spark 晋升了 8 倍;

在 OLTP 场景下,TPC- B 国际标准测试结果表明,YMatrix 超交融数据库主键查问 TPS 高达 160 万,而绝大多数低于 TPS5 万的水准。

爱剖析:目前 YMatrix 的商业化利用场景有哪些?服务了哪些客户?

姚延栋:YMatrix 超交融数据库的利用宽泛,尤其实用 OLAP 和时序数据处理的场景,如车联网、智能制作、智慧能源、智慧交通、智慧城市等畛域,可利用于工厂数据基座、智能网联汽车、物联设施智能经营、实时数据仓库等场景。目前 YMatrix 曾经服务了宁德时代、比亚迪、三一重工、现实汽车、小米等多家大型企业。

另外,YMatrix 还非常适合有“抉择艰难症”的客户。客户常常因为业务变动呈现数据库新需要,比方时序数据库、剖析型数据库或是湖仓一体等。YMatrix 反对时序场景、剖析型场景,能依据客户需要灵便利用。而且将来如果客户数据体量迅速扩增到更高级别比方 10PB,而客户基于老本思考不想再购买新数据库时,就能够应用 YMatrix 仓下建湖的能力,在架构底层搭建 S3 和 HDFS 进行海量数据存储。所以客户如果面向当下场景有数据库选型艰难的问题,面向未来业务场景有需要变动的危险,那么用 YMatrix 做起步是最合适的计划。

爱剖析:在数据库交融趋势下,市场上也有很多厂商推出了“多模数据库”。YMatrix 超交融数据库与多模数据库的区别是什么?

姚延栋:市场中提的“多种模式”实际上是指多种数据类型,并没有多个存储模型或者数据模型。多模数据库实现的是多数据类型的存储,但当利用时,多种数据类型会呈现存储空间占用高、协同速度慢以及查问难优化等问题,缺失操作层面的交融。多模数据库和 YMatrix 超交融数据库的区别是多模实现的只是 YMatrix 的底层存储层,YMatrix 还实现了下层数据操作层面的交融,反对基于 SQL 的全场景查问剖析和机器学习建模剖析。

爱剖析:怎么看将来超交融数据库的发展前景?

姚延栋:我认为,将来所有的数据库都会尝试往交融方向倒退,因为专用数据库只有做到在单场景下性能比通用数据库快 10 倍,能力有生存空间。预计到 2025 年左右,超交融数据库就会成为支流。
YMatrix 超交融数据库因为继承了数据库畛域中优良产品的成功经验,性能比少数专用数据库低劣,比照之下,一些专用数据库厂商还须要在数据库畛域多积攒教训,继续排汇学习后能力在数据库畛域占据一席之地。

爱剖析:下一步,YMatrix 在产品研发和商业化等方面有哪些布局?

后续,咱们会在曾经存在海量需要的时序场景深耕,尝试代替传统数据库和专用类产品。数据量大、指标量多的车联网、智能制作、智慧能源、智慧城市、智慧园区、智慧医疗等场景会是重要的方向。这些场景所产生的业务需要,将最大化体现超交融产品的价值。

注:复制下方链接,可理解更多 YMatrix 超交融数据库信息。
https://ymatrix.cn/article/102

正文完
 0