分布式关系型数据库概述
作为数据库演进方向之一,分布式能力受到更多用户的关注。从技术架构演进来看,数据库正走过了从单机式、集中式到分布式的倒退过程,目前是多种架构并存的阶段。分布式架构以其更好的存储与计算扩大能力,受到更多的关注。在墨天轮社区的中国数据库风行度排行榜上,收集了国内160 多家关系型数据库厂商产品。针对这些产品做个架构分类不难发现,从数量上来看,分布式与集中式架构不分伯仲,甚至分布式还稍有占优(如左下图)。如果思考到风行度因素,按架构分类统计相应数据库的风行度分数能够发现,分布式架构劣势更为显著(如右下图),这也阐明了分布式数据库产品受到更多风行关注。
从上述剖析来看,分布式产品正更多地受到关注,并已开始在用户场景落地。究其原因,可简略演绎为几点:
- 场景驱动。随着企业数字化转型深入,更多的数据被开掘,更多的场景被发现。上述变动对数据的重要载体 - 数据库来说,提出了更大存储规模与更强计算要求。分布式数据库的技术特点正能够满足上述要求。此外,随着数据价值被企业更加关注,对数据可用性、数据一致性要求更高,分布式数据库也有其可施展空间。
- 业务驱动。随着业务互联网化,很多企业都面临着敏态业务疾速倒退问题。这对于数据库提出了更高弹性要求,如何疾速满足多变的业务诉求。分布式数据库通常采纳的存算拆散架构,可提供存储与计算资源的弹性伸缩能力,十分符合这一诉求。
- 技术趋势。分布式技术倒退多年,在与数据库联合方面始终存在若干难点,但随着 Google 的三篇论文及工程化产品呈现,为分布式数据库的落地奠定了实践根底。很多分布式数据库产品正是踩着伟人的肩膀,疾速倒退起来。
- 硬件倒退。分布式架构因其组件拆分,人造对网络有着更高的要求。过来受限于网络技术自身,很难达到很好的成果。但随着高带宽、低延时网络技术实现冲破,为分布式架构提供了良好的根底。此外,如高速存储、多核 CPU 等技术也助力了分布式技术在数据库畛域的疾速成熟。
- 政策疏导。近年来,国家也非常重视根底软件的倒退,包含针对数据库产品。相干部门曾多次出台政策,明确指出要放慢分布式数据库产品的研发和利用推广。很多行业也明确提出的时间表,减速这一过程。
分布式关系型数据库产品点评
近年来分布式数据库产品倒退迅速,并且在多类场景中宽泛应用。在墨天轮榜单中,依照属性进行筛选能够发现,共收录有 85 款关系型分布式数据库。如下图是按 应用场景 进行分类统计,因局部产品反对多种场景,故进行反复统计。无论是 OLTP、OLAP 还是新兴的 HTAP 场景都有分布式架构产品。特地是 OLAP、HTAP 等畛域,因其承载数据规模及算力更大,分布式产品更有劣势。
从 部署形式 上来看,分布式架构产品多反对本地部署,同时也有局部产品反对云原生部署。从整体来看,依然是以本地部署形式为主,云原生的部署形式占多数,但相对而言分布式更容易利用云原生提供的计算与存储能力,因而将来将更多地反对云原生部署。
从分布式数据库 厂家分类 来看,大体可分为以下几类:
- 一是以 OceanBase、PolarDB、TDSQL 为代表的来自互联网大厂的产品;
- 二是以 GaussDB、GoldenDB 为代表的传统大厂产品;
- 三是以 TiDB 为代表的新兴数据库厂商产品;
- 四是以 GBase、AntDB 为代表的传统厂商产品。
上述几类厂商产品因其倒退路线、阶段不同,各产品差别也较大。
上面就作为支流的一些关系型分布式数据库产品加以点评。
- OceanBase
OceanBase 近年倒退迅速,目前占据榜单首位。在 22 年底的 4.0 版本中,其率先提出了“单机分布式一体化”理念,升高分布式数据库应用门槛,让用户可依据业务倒退平滑过渡。在 23 年上半年最新的 4.1 版本,则将“面向开发者”定位凸显,强化其在易用性、兼容性、高性能等方面能力。目前 OceanBase 在金融、政企、互联网等诸多行业失去宽泛应用。特地是其良好的兼容能力,受到很多传统企业关注,将其作为信创革新的首选计划。
- TiDB
TiDB 作为一款出名的开源分布式数据库产品,长期占据榜单前三名。在 23 年 4 月份,其正式公布了 7.0 版本。这一版本聚焦于帮忙用户通过可靠性能和简化数据库操作来疾速响应业务需要,从而满足客户的高期望值,并晋升开发人员和 IT 运维人员的生产力。重点个性包含多租户下的资源管控加强、TiFlash 数据落盘稳固剖析负载、主动执行打算缓存、TiFlash 反对存算拆散等。在产品经营上一方面通过与合作伙伴共建放慢国内落地步调,一方面继续扩充海内经营工作。
- GaussDB
GaussDB,是华为自研的企业级原生分布式关系型数据库,其重要是面向金融政企外围交易和企业生产零碎等简单场景。近年在传统畛域建树颇多,特地是在信创革新畛域,获得不少成绩。从产品倒退角度来看,GaussDB 与榜单上另一款单机开源产品 -openGauss,有着千头万绪的关联。目前 Gauss 系列已造成了商用数据库、开源数据库、基于开源数据库的第三方商用数据库的复合生态模式。当然从品牌建设角度,集体倡议还需进一步加强,造成品牌合力。
- PolarDB
PolarDB,是国内最早打出云原生数据库理念,并且实现工程化实际的代表产品。从晚期的存算拆散架构开始反对云根底环境;到近期的 Serverless 架构,多层解耦拆分,提供更为精密粒度的资源管理能力。走过了云原生的 1.0、2.0 到现在的 3.0,也成为最具代表性的云原生数据库产品。其与云原生环境的紧密结合,提供了极致的分布式能力。其产品已在云平台及私有化环境大量应用。
- TDSQL
TDSQL,作为来自互联网利用的又一产品,晚期反对腾讯社交、游戏等场景;前期商业化后大量反对如金融等要害畛域客户零碎。特地是近期,其刚刚通过 TPC- C 基准测试,并发明了新的世界纪录,在业内引发宽泛关注。
- GBase
GBase,作为老牌数据库厂商,很早就在分布式畛域布局。无论是其面向 OLAP 畛域的 GBase 8a 产品,还是面向交易及多模畛域的 GBase 8c\8s 产品,都将分布式能力作为其外围能力之一。通过多年积攒,已在寰球数百家客户中应用。
- AnalyticDB
AnalyticDB,是阿里云的一款 OLAP 产品,也是阿里云的自研两大外围产品之一。其特点是反对超大规模、极致性能,可满足在万亿数据规模下的秒级数据分析能力,在很多波及国计民生畛域被宽泛应用。其良好的兼容性,也为用户升高应用门槛。近期其与 PolarDB 联结,造成颇具竞争力的 HTAP 解决方案。
- AntDB
AntDB,是亚信团体的一款分布式、面向 TP 和 AP 多场景产品。晚期在电信畛域失去宽泛实际,现已走向全行业。近期其回升势头很猛,也失去了很多关注。
- GoldenDB
GoldenDB,作为来自中兴研发的一款分布式数据库,长期以来始终比拟低调。其实在金融、运营商等很多要害畛域,曾经失去十分宽泛的应用。近期其推出的 7.0 版本,在 HTAP、自动化工具及云原生方向有重大进展,已成为一支不可漠视的力量。
除了上述产品外,还有些产品近年来提高很快,咱们也盘点下
- Doris
Doris,作为 OLAP 畛域近年来一款景象级开源产品,失去宽泛关注,其在墨天轮榜单上的排名半年便晋升了 42 个位次。开源活跃度很高,版本迭代迅速。其已孵化了多款商业产品,并都获得不俗的商业停顿,间接证实其产品能力突出。其生态用户宽泛,笼罩很多头部互联网公司。
- PieCloudDB
PieCloudDB,其墨天轮风行度排名相较 2022 年 11 月晋升了 139 名,外围团队来自于驰名的 MPP 数据库 GreenPlum。其创造性地提出了全新 eMPP 分布式技术,实现云上弹性大规模并行计算。充分利用云根底施行,解决大规模数据分析的资源问题。近期其又公布基于 eMPP 分布式技术的存算拆散软硬件一体机,齐全反对国产化信创环境,标记其启动全面启动国产软硬件一体机商业化。
- MatrixOne
MatrixOne,定义为一款面向未来的超交融异构云原生数据库,其主打交融异构架构。一方面通过一份存储和一套计算引擎反对多种工作负载,一方面以对立技术架构,反对私有云、自建数据中心、边缘节点部署应用,利用乃至数据能够云上云下无缝迁徙。
- YaoBase
YaoBase,是一款自研云原生 NewSQL 分布式数据库,其在墨天轮榜单上排名 113 位,相较半年前的 172 位提高显著。其提出的增量汇集零碎架构,在实现高并发事务处理的同时,兼顾简单事务处理能力的可扩展性,补救了现有 NewSQL 类零碎解决简单事务的短板。
- CASICloud DBCP
CASICloud DBCP(航天天域数据库管理系统),由北京航天紫光科技自主研发,是一款是采纳无共享架构的分布式交易型通用数据库系统。之前在航天畛域曾经有十分多的实际,可作为国产数据库信创替换的选型之一,其性能较国产传统数据库有着显著劣势。
分布式技术发展趋势及察看
从分布式技术倒退来看,有一些明确的变化趋势。
- 云与分布式减速交融
云,作为一种新的资源供应形式,在过来十几年失去了疾速倒退。其人造具备的海量资源疾速供应,与分布式架构对资源的需要不约而同。能够说两者的强强联合,能够更大施展出分布式架构的威力。咱们能够看到,一方面云厂商的云数据库产品大都采纳分布式架构;一方面十分多的分布式数据库产品也开始云及云原生化。
- 分布式多场景适配
无论是传统的 OLTP 和 OLAP 业务,还是新兴的 HTAP 业务。只有是对规模、算力、一致性有着更好的要求,分布式架构都能够在肯定水平上解决。当然从应用场景来看,不同架构占比还有所差别。从察看来看,对于 OLAP、HTAP 场景,因其承载数据规模及算力要求更大,分布式产品更有劣势。
- 单机分布式一体化
如果说分布式产品还有什么缺点,较高应用门槛是其中最为次要的。分布式架构人造带来的复杂性、高老本,对客户造成很大的困扰。单机分布式一体化,正是为了解决这一问题。一方面通过这一架构优化可极大升高分布式数据库的门槛,另一方面也可将扩大需要把握在客户手中。真正做到“丰俭由人”,将分布式数据库做到了普惠公众。
- 分布式生态化减速
分布式产品作为一种新架构产品,如何让用户疾速承受?如何减低潜在的应用危险?这些都对分布式数据库提出了更高要求。构建残缺、敌对、沉闷的生态圈,将有助于解决上述问题。一方面分布式架构的复杂性、易用性,可通过生态工具减速在企业落地,升高应用门槛和危险;一方面良好的兼容性,充沛享受已有生态红利有成为很多分布式产品的倒退策略之一。
抉择分布式关系型数据库难点
尽管说分布式数据库代表着数据库重要的倒退方向之一,且曾经获得了不俗的体现。但在用户抉择上,依然存在着诸多痛点,这也障碍了分布式数据库的尽快遍及。这其中比拟重要的有以下几点:
- 稳定性、可靠性待验证
分布式数据库作为一种简单架构,其组件泛滥且与根底环境存在较多依赖。其单点可用性往往不高,其产品正是心愿其具备的分布式能力,通过整体的可用性解决单点问题,但这一过程还须要大量工程化实际积攒过程。因为一旦数据库呈现灾难性状况,也就意味着承载利用和业务中断。
- 运维复杂度大幅提高
作为一类新架构产品,其运维复杂度本身就比拟高。且很多传统运维教训在新架构下将失去意义,须要联合新产品去积攒欠缺运维体系。同时随同着产品的成熟度倒退同样须要一个过程等因素,也加大了运维难度。
- 分布式革新老本高
分布式数据库不仅对运维侧,同时对架构、研发侧也带来新的问题。分布式架构与集中式架构不同,两者在很多方面并不兼容,须要从多方位进行革新。同时因为行业内,尚无造成对立分布式数据库设计开发规范,利用开发不得不针对不同数据库采纳不同的策略,也加大的革新老本。
- 专业人才匮乏
好的技术,还须要懂的人才能施展最大作用。分布式数据库作为绝对较新的一类产品,还没有造成较为齐备的人才体系。无论是面向架构、开发、运维方面,都面临人才的短缺,且短时间内还无奈疾速补充。这须要有个长期的培养过程。
瞻望分布式关系型数据库将来:更快更高更强
分布式关系型数据库作为一种新架构根底软件,满足人们对数据在更大规模、更强算力、更高可用性上的要求。通过近些年工夫,其技术已展现出蓬勃的生命力,并已开始落地开花。外围的分布式理念,已成为将来数据库的倒退的重点方向之一,置信在将来其将获得更大的胜利,成为企业数字化转型的利器。
原文链接:https://www.modb.pro/db/636428
申明:本文为墨天轮作者 韩锋 原创内容,代表作者观点。如您对上述内容有意见和倡议,请在下方评论区指导和交换,或点击作者墨天轮主页留言。*
相干浏览
- 2023 年 5 月中国数据库排行榜:OTO 组合回归育新机,华为高斯蓄势待发展雄心
- 国产数据库大事记 - 往期合辑
更多精彩内容尽在墨天轮技术社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、流动直播、在线课程、文档阅览、资源下载、常识分享及在线运维为一体的对立平台,继续促成数据畛域的常识流传和技术创新。想要获取更多技术资讯、干货可增加墨天轮小助手(VX:modb666)。