简介: 深刻解读PolarDB-X的产品架构,以及分布式事务、通明分布式、程度扩大等技术底细。
一、PolarDB-X是什么
PolarDB-X最早起源于阿里团体2009年提出用分布式架构代替传统商业数据库,阿里研发了TDDL分库分表中间件。2014年阿里团体开始全面上云,将TDDL升级成DRDS分布式数据库服务,实现了在线扩缩容以及数据拆分等能力。2018年后,国内分布式数据库技术进入一个百家争鸣的场面,阿里在这方面也做了很多摸索,通过对X-DB、PolarDB等技术整合,诞生了PolarDB-X。
PolarDB-X联合了Sharding On MySQL、NewSQL、Cloud Native DB几种数据库理念的精髓,具备云原生分布式的个性,底层应用了PolarDB云原生数据库的技术,下层用到了很多分布式技术。
二、PolarDB-X 技术架构
PolarDB-X采纳经典的两层架构,分计算层和存储层。计算层用的PolarDB-X,能够独立程度扩大、扩缩容,各种能力齐备。在整个零碎里,一条SQL通过自研的解析器、优化器,失去分布式的执行打算;而后发送到存储节点执行;在两头的网络传输层,应用了定制的RPC协定,效率远高于传统的JDBC协定;之后执行打算会发送到PolarDB-X的执行引擎里去做具体的计算。
PolarDB-X目前具备高可用、高可扩大、极致弹性等几个个性,高兼容、HTAP、凋谢生态,在MySQL生态里是一款具备竞争力的产品。
三、PolarDB-X的几个关键技术
(一)分布式事务,如何实现ACID?
如果分布式数据库要反对金融转账场景,就必须反对分布式事务,能力保障一致性,不会产生数据失落等异样。纵观业界技术,能够归成以下几类,第一类是基于MySQL的XA技术,实现两阶段提交;毛病是不能保障全局统一,不能保障全局快照。第二类是TSO技术做全局调配,实现给全局的事务定序,从而实现分布式快照。第三是HLC技术,也存在肯定的局限性。第四类是在PG里比拟多应用的GTM技术。这几项技术目前没有一个能完满解决所有场景,都须要在性能、可用性、扩展性方面去做衡量。PolarDB-X认为TSO是比拟符合私有云以及混合云的技术。
PolarDB-X基于TSO技术实现全局分布式事务。第一个问题是如何去做全局时钟,也就是TSO。TSO会给分布式事务做定序,依照工夫戳的程序去做排序。第二个问题是如何基于MySQL的InnoDB做分布式事务。PolarDB-X对InnoDB的事务零碎做了深度革新,从本来的ReadView的事务机制革新成基于工夫戳的事务零碎。有了基于工夫戳的事务零碎之后,联合TSO技术,就能够实现全局统一的分布式事务。除此之外,事务里还有很多的技术难点,如何解决长写事务以及做全局的垃圾回收。
用TSO技术有一个必须要解决的问题——通常会减少几十微秒到几百微秒的RT。因而,PolarDB-X实现了一阶段提交、2PC的异步提交等优化,可能尽量克服TSO带来的性能损失。
实现上述性能优化之后,通过与业界产品在sysbench和TPCC等测试集做了性能比照,PolarDB-X的性能相对来说十分有竞争力。
(二)通明分布式,如何优化易用性?
通明分布式次要解决的问题是分布式数据库的应用门槛。很多分布式数据库技术听起来很好,但用户却认为很难用。比方用户经常困扰,为什么某些场景的性能会不如一个单机零碎,或者某些性能不具备,或者问题难以排查?从咱们对服务用户的教训来看,用户在应用分布式数据库过程中通常会遇到以下几个门槛,即如何抉择拆分键、如何优化分布式事务、如何优化慢查问。因而,咱们研发了通明分布式的我的项目,试图升高用户应用分布式数据库的门槛。
第一,如何做Sharding。每个产品都有不同的解决方案,PolarDB-X联合了MySQL分区表语法,从语法上齐全兼容MySQL列表,应用二级分区笼罩到用户的各种Workload。这背地是基于一致性哈希算法,实现分区级的动静决裂,大大降低扩缩容的代价。以Range分区为例,一开始可能是4千到5千这个数据范畴,当这个Range的数据变多之后,它能够决裂成多个Range,迁徙到多个机器上,防止数据过于集中。将这些技术融入PolarDB-X中,可能无效解决热点数据等问题。
第二,PolarDB-X做的跟其余产品有差异化的技术,是TableGroup。它解决的问题是Join下推,这是阿里的业务场景中十分常见。如果不能做Join的下推,做分布式Join的性能会比拟差。在PolarDB-X中,多个表按一个分区形式做Partition,它们就会搁置于同一个TableGroup,因而就能够实现Join下推。当然对应的,一个TableGroup中的分区决裂、迁徙,都须要以PartitionGroup为单位了。
第三,扩缩容离不开的一个问题,就是Online DDL。例如PolarDB-X反对单表、拆分表、分区表,当用户对表类型进行批改,把分区键从买家ID改成卖家ID的时候,背地就是用Online DDL的技术。PolarDB-X反对多种的Online DDL,包含拆分键批改、创立索引、加减列等等,这些操作都能够在线上间接执行,对用户业务影响十分小。
PolarDB-X的通明分布式提供了分区表、全局索引、Online DDL等技术,使得用户的业务可能以很低的老本接入到分布式数据库中,并且后续随着业务的倒退,数据库还能够做通过Scale-Up或者Scale-Out的形式进步性能。
(三)HTAP技术,如何进步剖析能力
所谓HTAP,在PolarDB-X的了解中,即是否在线上数据库中执行简单查问。它的价值有两方面,一方面是可能升高用户的应用老本、运维老本,另一方面,就是实时的剖析,可能从实时数据取得实时洞察。做HTAP面对的技术挑战有几方面,别离是负载隔离、计算能力、存储能力。
对应到PolarDB-X的架构,会通过只读节点做负载隔离,简略查问发到读写节点,简单查问发到只读节点执行,因而这两种负载可能失去较好的隔离,不会相互影响。这两头的智能路由是通过优化器的代价估算去实现,代价高的断定为AP查问,代价低的断定TP查问。除此之外,这种架构还须要解决的一个问题是一致性快照,PolarDB-X通过TSO技术,实现了只读节点的分布式事务。
接下来的问题是如何晋升计算能力和存储能力。
进步计算能力次要通过MPP并行计算、向量化计算等形式。此前PolarDB-X次要面向TP场景,做算子下推,以及通过分区裁剪尽量查问更少的分片,优化TP场景的性能。而面对AP场景,须要的技术则很不一样。具体来说,PolarDB-X提供了原生的MPP反对,可能充分发挥多个节点的资源进行计算。为此,优化器里中减少了MPP优化阶段,在单机执行打算之后,两头退出Exchange,变成分布式的执行打算,实现多机并行。具体到执行器,也会有两种执行模式,一种是本地单机执行,另一种是MPP分布式执行。
具体来看,在MPP并行计算中,PolarDB-X做了两层的并行,第一层是节点之间的并行,第二层是计算节点外部的运行。分为两层的益处在于可能缩小调度开销,缩小数据传输的开销。除此之外,PolarDB-X还做了内存池化、流水线化、向量化等精细化的技术,通过向量化进步执行器的执行效率,通过流水线化减少并行度缩小数据物化。这些技术使得PolarDB-X在执行简单SQL查问时具备较高的效率。
除此之外,就是进步存储方面的性能。从技术角度看,独自做一个行存、列存都不难,难的是做一个可能实时更新的列存。PolarDB-X采纳的计划是在写入节点用行存,在只读节点用列存,两头通过redo做异步复制,实现列存的实时更新。基于这样的架构,就能够实现行列混存,行存承当高并发写入,列存承当简单查问。联合MPP、行列混存、向量化等技术,PolarDB-X实现了TPC-H场景的5-10倍的性能晋升。这一成绩也行将在私有云上线,敬请期待。
四、总结
PolarDB-X可能高度兼容单机MySQL,从SQL兼容到事务兼容到生态兼容。在此基础上,通过通明分布式的技术升高用户应用门槛,使得用户能够疾速上手,适配各种用户业务,并通过弹性扩缩容的能力,适应用户的业务变动。而HTAP技术,将造成差异化的竞争力,使得用户可能从在线数据中取得实时洞察。
原文链接
本文为阿里云原创内容,未经容许不得转载。