关于数据库:深度干货｜云原生分布式数据库-PolarDBX-的技术演进

简介：深刻解读PolarDB-X的产品架构，以及分布式事务、通明分布式、程度扩大等技术底细。

一、PolarDB-X是什么

PolarDB-X最早起源于阿里团体2009年提出用分布式架构代替传统商业数据库，阿里研发了TDDL分库分表中间件。2014年阿里团体开始全面上云，将TDDL升级成DRDS分布式数据库服务，实现了在线扩缩容以及数据拆分等能力。2018年后，国内分布式数据库技术进入一个百家争鸣的场面，阿里在这方面也做了很多摸索，通过对X-DB、PolarDB等技术整合，诞生了PolarDB-X。

PolarDB-X联合了Sharding On MySQL、NewSQL、Cloud Native DB几种数据库理念的精髓，具备云原生分布式的个性，底层应用了PolarDB云原生数据库的技术，下层用到了很多分布式技术。

二、PolarDB-X 技术架构

PolarDB-X采纳经典的两层架构，分计算层和存储层。计算层用的PolarDB-X，能够独立程度扩大、扩缩容，各种能力齐备。在整个零碎里，一条SQL通过自研的解析器、优化器，失去分布式的执行打算；而后发送到存储节点执行；在两头的网络传输层，应用了定制的RPC协定，效率远高于传统的JDBC协定；之后执行打算会发送到PolarDB-X的执行引擎里去做具体的计算。

PolarDB-X目前具备高可用、高可扩大、极致弹性等几个个性，高兼容、HTAP、凋谢生态，在MySQL生态里是一款具备竞争力的产品。

三、PolarDB-X的几个关键技术

（一）分布式事务，如何实现ACID？

如果分布式数据库要反对金融转账场景，就必须反对分布式事务，能力保障一致性，不会产生数据失落等异样。纵观业界技术，能够归成以下几类，第一类是基于MySQL的XA技术，实现两阶段提交；毛病是不能保障全局统一，不能保障全局快照。第二类是TSO技术做全局调配，实现给全局的事务定序，从而实现分布式快照。第三是HLC技术，也存在肯定的局限性。第四类是在PG里比拟多应用的GTM技术。这几项技术目前没有一个能完满解决所有场景，都须要在性能、可用性、扩展性方面去做衡量。PolarDB-X认为TSO是比拟符合私有云以及混合云的技术。

PolarDB-X基于TSO技术实现全局分布式事务。第一个问题是如何去做全局时钟，也就是TSO。TSO会给分布式事务做定序，依照工夫戳的程序去做排序。第二个问题是如何基于MySQL的InnoDB做分布式事务。PolarDB-X对InnoDB的事务零碎做了深度革新，从本来的ReadView的事务机制革新成基于工夫戳的事务零碎。有了基于工夫戳的事务零碎之后，联合TSO技术，就能够实现全局统一的分布式事务。除此之外，事务里还有很多的技术难点，如何解决长写事务以及做全局的垃圾回收。

用TSO技术有一个必须要解决的问题——通常会减少几十微秒到几百微秒的RT。因而，PolarDB-X实现了一阶段提交、2PC的异步提交等优化，可能尽量克服TSO带来的性能损失。

实现上述性能优化之后，通过与业界产品在sysbench和TPCC等测试集做了性能比照，PolarDB-X的性能相对来说十分有竞争力。

（二）通明分布式，如何优化易用性？

通明分布式次要解决的问题是分布式数据库的应用门槛。很多分布式数据库技术听起来很好，但用户却认为很难用。比方用户经常困扰，为什么某些场景的性能会不如一个单机零碎，或者某些性能不具备，或者问题难以排查？从咱们对服务用户的教训来看，用户在应用分布式数据库过程中通常会遇到以下几个门槛，即如何抉择拆分键、如何优化分布式事务、如何优化慢查问。因而，咱们研发了通明分布式的我的项目，试图升高用户应用分布式数据库的门槛。

第一，如何做Sharding。每个产品都有不同的解决方案，PolarDB-X联合了MySQL分区表语法，从语法上齐全兼容MySQL列表，应用二级分区笼罩到用户的各种Workload。这背地是基于一致性哈希算法，实现分区级的动静决裂，大大降低扩缩容的代价。以Range分区为例，一开始可能是4千到5千这个数据范畴，当这个Range的数据变多之后，它能够决裂成多个Range，迁徙到多个机器上，防止数据过于集中。将这些技术融入PolarDB-X中，可能无效解决热点数据等问题。

第二，PolarDB-X做的跟其余产品有差异化的技术，是TableGroup。它解决的问题是Join下推，这是阿里的业务场景中十分常见。如果不能做Join的下推，做分布式Join的性能会比拟差。在PolarDB-X中，多个表按一个分区形式做Partition，它们就会搁置于同一个TableGroup，因而就能够实现Join下推。当然对应的，一个TableGroup中的分区决裂、迁徙，都须要以PartitionGroup为单位了。

第三，扩缩容离不开的一个问题，就是Online DDL。例如PolarDB-X反对单表、拆分表、分区表，当用户对表类型进行批改，把分区键从买家ID改成卖家ID的时候，背地就是用Online DDL的技术。PolarDB-X反对多种的Online DDL，包含拆分键批改、创立索引、加减列等等，这些操作都能够在线上间接执行，对用户业务影响十分小。

PolarDB-X的通明分布式提供了分区表、全局索引、Online DDL等技术，使得用户的业务可能以很低的老本接入到分布式数据库中，并且后续随着业务的倒退，数据库还能够做通过Scale-Up或者Scale-Out的形式进步性能。

（三）HTAP技术，如何进步剖析能力

所谓HTAP，在PolarDB-X的了解中，即是否在线上数据库中执行简单查问。它的价值有两方面，一方面是可能升高用户的应用老本、运维老本，另一方面，就是实时的剖析，可能从实时数据取得实时洞察。做HTAP面对的技术挑战有几方面，别离是负载隔离、计算能力、存储能力。

对应到PolarDB-X的架构，会通过只读节点做负载隔离，简略查问发到读写节点，简单查问发到只读节点执行，因而这两种负载可能失去较好的隔离，不会相互影响。这两头的智能路由是通过优化器的代价估算去实现，代价高的断定为AP查问，代价低的断定TP查问。除此之外，这种架构还须要解决的一个问题是一致性快照，PolarDB-X通过TSO技术，实现了只读节点的分布式事务。

接下来的问题是如何晋升计算能力和存储能力。

进步计算能力次要通过MPP并行计算、向量化计算等形式。此前PolarDB-X次要面向TP场景，做算子下推，以及通过分区裁剪尽量查问更少的分片，优化TP场景的性能。而面对AP场景，须要的技术则很不一样。具体来说，PolarDB-X提供了原生的MPP反对，可能充分发挥多个节点的资源进行计算。为此，优化器里中减少了MPP优化阶段，在单机执行打算之后，两头退出Exchange，变成分布式的执行打算，实现多机并行。具体到执行器，也会有两种执行模式，一种是本地单机执行，另一种是MPP分布式执行。

具体来看，在MPP并行计算中，PolarDB-X做了两层的并行，第一层是节点之间的并行，第二层是计算节点外部的运行。分为两层的益处在于可能缩小调度开销，缩小数据传输的开销。除此之外，PolarDB-X还做了内存池化、流水线化、向量化等精细化的技术，通过向量化进步执行器的执行效率，通过流水线化减少并行度缩小数据物化。这些技术使得PolarDB-X在执行简单SQL查问时具备较高的效率。

除此之外，就是进步存储方面的性能。从技术角度看，独自做一个行存、列存都不难，难的是做一个可能实时更新的列存。PolarDB-X采纳的计划是在写入节点用行存，在只读节点用列存，两头通过redo做异步复制，实现列存的实时更新。基于这样的架构，就能够实现行列混存，行存承当高并发写入，列存承当简单查问。联合MPP、行列混存、向量化等技术，PolarDB-X实现了TPC-H场景的5-10倍的性能晋升。这一成绩也行将在私有云上线，敬请期待。

四、总结

PolarDB-X可能高度兼容单机MySQL，从SQL兼容到事务兼容到生态兼容。在此基础上，通过通明分布式的技术升高用户应用门槛，使得用户能够疾速上手，适配各种用户业务，并通过弹性扩缩容的能力，适应用户的业务变动。而HTAP技术，将造成差异化的竞争力，使得用户可能从在线数据中取得实时洞察。

原文链接
本文为阿里云原创内容，未经容许不得转载。