关于数据库:分析型数据库分布式分析型数据库

剖析型数据库的另外一个倒退方向就是以分布式技术来代替 MPP 的并行计算，一方面分布式技术比 MPP 有更好的可扩展性，对底层的异构软硬件反对度更好，能够解决 MPP 数据库的几个要害架构问题。本文介绍分布式剖析型数据库。

目前在分布式剖析型数据库畛域，学术界往年的钻研不多，次要是工业界在推动相干的技术倒退。分布式剖析型数据库的存储层个别采纳分布式存储或云存储，而计算引擎层采纳独立的分布式计算引擎，而 MPP 数据库的存储层和计算层都是由多个数据库实例来承当的，这是两者最大的架构区别。

在 Hadoop 开始衰亡的时候，分布式架构的可扩展性和弹性劣势就逐步显现出来，以 HDFS 为代表的大数据技术使大数据的解决在扩展性、弹性、容错性、老本等方面获得提高，然而却就义了传统 SQL 数据库例如事务、SQL 语句、关系模型、平安管控等要害个性。SQL 作为数据库畛域的事实标准语言，相比拟用 API（如 MapReduce API，Spark API 等）来构建大数据分析的解决方案有着先天的劣势。从 2013 年开始大量的 SQL on Hadoop 引擎的呈现和疾速成熟，并且在国内外企业取得了大量生产落地，充分说明了 SQL 的重要性。

分布式剖析型数据库用于数据仓库的建设，就须要解决分布式事务以及高并发的批处理问题，因而须要从新构建分布式事务引擎和计算引擎。以后行业内不同的数据库采纳的技术计划不尽相同，分布式事务引擎大多须要从 0 到 1 的构建，而分布式计算引擎有采纳相似 DAG 的计算模型。

分布式数据库与 MPP 数据库的一个典型区别就是计算和存储的局部拆散，也就是存储服务和计算服务不再绑定在一个过程中，数量能够不统一，这样就实现了计算的弹性。在实在生产业务中，计算的弹性需要比拟大，而存储相当来说可预测性更强。一些厂商采纳自研存储的形式如星环科技的 ArgoDB，而另外局部企业就间接基于云存储的形式来构建其数据库，将指标市场间接定位在私有云端，如 AWS Redshift、Snowflake 和 Databricks SQL。不过公有云和私有云场景下的剖析型数据库的设计理念差别十分大，理论架构区别也非常明显，咱们将在后续章节开展。

因为分布式数据库起步较晚，设计者在做架构设计的时候就能充沛排汇 MPP 数据库和 Hadoop 等技术的劣势，避开 MPP 数据库的架构缺点，并且解决弹性化、多租户隔离等方面的各种问题。分布式剖析型数据图的逻辑架构如下图所示，次要蕴含了服务层、SQL 引擎、分布式事务引擎、分布式计算引擎和存储引擎。与 MPP 数据库的逻辑架构最次要的区别在于计算引擎和存储引擎独立，而 MPP 数据库底层基于某一种关系数据库，蕴含了 SQL、事务、计算和存储能力。因为几个引擎绝对独立，架构上的灵活性就保障了有多种形式能够解决原有 MPP 数据库的架构问题。

分布式存储引擎

在分布式存储引擎这一层，目前行业内有比拟多的基于 Paxos 或 Raft 协定打造的高可用的分布式存储。因为用于剖析型场景，数据存储格局个别都采纳列式数据存储，典型的实现有 ORC 和 Parquet 文件格式。在剖析场景下仅读取须要的列数据而无需读取其余不相干列，节俭了 IO 从而有很高的数据读吞吐；另外一个列的数据采纳同样的编码方式（如 RLE、Delta、字典编码等），因而数据有很高的数据压缩率，个别能够做到 5~10x 的压缩比。另外，因为不同的列曾经离开存储，个别会设计并行读数据的 API，每个线程读取不同的列数据，从而进步并行读数据能力。基于列式存储的另外一个益处就是更好的反对各种结构化和非结构化数据，从而能够在一个平台内反对多样的数据类型的数据分析。

列式存储对读数据有很大的性能劣势，个别都会设计接口跟下层的计算层对接，提供读取、过滤下推、索引等读写接口。在反对数据写入的能力上，列式存储不如行式存储，个别须要通过在下层减少一个内存 buffer 的形式来减速，如 MariaDB 的 Version Buffer。

另外分布式事务也是分布式存储的一个重要个性与要求，个别都采纳 MVCC 和 Compaction 机制来实现。在列式存储中去批改给定一行的数据是比较复杂的，因而在实际操作每个事务操作并不会间接批改对应的字段的值，而是在生成一个新的版本，并在对应字段的 block 生成一个只蕴含要批改的数据的新版本的数据块。每个新版本操作就生成一个新数据块，在读取数据的时候，会依据无效的事务号来读取相干的数据块并和根底数据合并生成最终的数据值。随着数据库的版本减少，数据读的速度会降落，因而须要启动 Compaction 机制来合并，将大量的多版本文件合并为大量的文件，从而实现读写能力的无效均衡。

在理论性能中，还须要思考对于分布式治理和运维方面的能力，包含对磁盘或节点的增删治理能力，数据迁徙能力等。

分布式计算引擎

分布式计算引擎是另外一个重要的组成，一个优良的引擎包含计算框架、各种分布式计算的算子、优化器以及资源管理能力。在计算框架方面，个别抉择 DAG 或 MPP 模式，依据不同的设计需要来抉择。在计算算子方面，围绕着 SQL 的原语，能够设计大量的算子，譬如 JOIN 算法就能够有包含 hash join、sort merge join、index scan join、skew scan join 等多种不同的实现，并对接到 CBO 优化器来做自动化的抉择。这个方向的长期演进方向就是自治数据库，通过大量的优化规定和机器学习能力来产生针对用户场景的更多优化规定，从而让数据库能够主动的抉择最合适的执行打算，无需 DBA 的手工干涉。
在资源管理方面，如果跟现有的资源管理框架无效联合也是分布式数据库的重要工作之一，包含 YARN、Kubernetes 以及各个私有云平台。无论是 Spark、Flink 等开源资源管理框架，还是各个商业的剖析型数据库，都在鼎力的推动资源管理模式的优化，从而更好的反对多租户以及与云计算的联合。

分布式事务引擎

在分布式数据库畛域，分布式事务处理和优化是十分热门的关键技术，如何在简单的零碎架构和容错设计下保证数据的一致性，以及有多种事务隔离级别的反对（串行化、可反复度、Read committed 等），可能拓展数据库去撑持更多的利用。两阶段提交（2PC）、MVCC、基于快照的事务隔离等都是重要的技术实现。因为剖析型数据库次要解决低并发度的事务操作，比拟多的都是批量的数据批改或插入，因而对事务的并发度要求不高。在实现中，甚至能够采纳一些低并发度然而实现简略的算法，如两阶段封闭（2PL）等算法。

SQL 引擎

SQL 引擎为开发者提供 SQL 开发能力，是业务开发的外围接口，因而各个数据库都在致力提供欠缺的 SQL 反对，以及残缺的 SQL 优化能力。因为 Oracle、Teradata 等数据库的 SQL 性能十分欠缺，提供 Oracle 与 Teradata 的数据库兼容性是个十分有挑战的工作，也须要长期继续的投入。

— 星环剖析型数据库 ArgoDB —

随着大数据技术在企业中利用得越来越深，国内的企业数据架构变得越来越简单，次要体现在离线业务与在线业务并存，剖析型业务与检索型业务并存，结构化数据与非结构化数据并存，对数据库性能、多租户服务能力的要求也越来越高。企业对性能要求超过弹性或者老本，因而亟需有极致性能的分布式剖析型数据库，这也是公有云畛域剖析型数据库的次要倒退方向。

软件的设计须要充分考虑硬件的个性，从 SAS 硬盘，到 SATA SSD，到 PCIE-SSD，再到 Memory，性能都有着数量级的增长，也推动着数据库架构的从新设计。在利用需要和技术架构的双重推动下，星环科技从 2014 年即开始布局不依赖于 Hadoop 存储的剖析型数据库，重用已有的 SQL、事务和分布式计算引擎的能力，自研新一代的基于闪存的分布式存储，到 2018 年正式推出了闪存数据库 ArgoDB，指标可能作为数据仓库、数据湖和数据集市的对立解决方案。

ArgoDB 的架构如上图所示，次要的外围组件次要包含分布式计算引擎 Crux、SQL 编译器、分布式存储管理层 TDDMS 以及存储引擎 Holodesk。

SQL 编译器继承了 Inceptor 产品的优良能力，实现了 SQL 99 的残缺兼容性，反对 PL/SQL 以及 DB2 SQL PL 存储过程标准，并且原创的反对了 Oracle、DB2 和 Teradata 的方言。为了满足企业的数仓需要，ArgoDB 也反对分布式事务管理和四种隔离级别。

ArgoDB 在数据库外部实现了本人的资源调度以更好的反对不同业务的并发 SQL 工作，并与平台自身的调度零碎联合，实现了两个层级的更加细化的资源管理和调度能力。首先 ArgoDB 有个常驻服务，数据库启动后就事后申请了 CPU 和内存资源，并将资源划分为多个资源池。除了基于 FIFO 或 FAIR 策略为每个 SQL 分配资源以外，ArgoDB 还减少了一个 Furion 机制，基于一个树形的构造来资源管理，同一个树节点下的各个子节点容许资源互借资源，每个树节点容许不同的用户或者利用设定 ACL 或 affinity，理论调度的时候，只有有一个 CPU core 资源闲暇，就调度某个 task，最大水平的让资源无效利用。为了更好的反对多业务，ArgoDB 容许依据用户名、IP、业务类型、提交工夫等个性来设定不同的优先级和调度策略，容许抢占式调度。另外每个资源池都保障最小的资源，从而防止饥饿调度问题。

ArgoDB 将分布式存储引擎解构为通用分布式存储管理层 TDDMS 与底层存储引擎 Holodesk 两块。TDDMS 将底层存储引擎形象为一组接口，包含存储的读写操作接口、事务操作接口、计算引擎的优化接口等，任何实现这些接口的存储引擎都能以插件的模式接入 ArgoDB。TDDMS 基于分布式一致性协定 Raft 实现的存储引擎，利用它能够实现存储引擎治理的高可用和备份灾备能力，并且提供运维治理能力。因为 TDDMS 在设计上的应用了数据存储的引擎化治理，它可能接入新的专用存储，从而解决了对 Hadoop 生态技术的依赖问题。TDDMS 在设计上能够接入多模态的存储，既而与下层计算引擎配合，实现多模态的对立存储和对立剖析能力，在理论业务中是个重要的翻新，防止每个数据库都要垂直的实现存储管理的工作。

Holodesk 通过基于闪存的行列混合存储，针对闪存 SSD 弱小的随机 IO 能力，以及优于一般 HDD 盘程序读写能力，做了数据读写的专项优化，实现了数据疾速的读写能力，进而能够是业务取得更优良的剖析能力。Holodesk 也反对多种辅助索引技术，反对数据块级别的事后聚合，极大地加强了数据的检索性能，能更好地适配混合型的业务场景。但 Holodesk 并不仅仅只能应用 SSD，也反对内存 + 闪存 + 磁盘的三级混合存储。多级存储使得用户能够更好的在性能和硬件估算间找到平衡点。

分布式计算引擎 Crux 是一个向量化的计算引擎，采纳的基于 DAG 模式的计算框架，外部由多个无状态的执行器组成，能够依据业务负载来调整计算弹性化。计算引擎既能够疾速读取批量存储文件，也能够高速地运行大量数据的简略查问和简单查问。内存数据格式的设计与列式存储适配，最大水平地缩小了数据在内存中转换的工夫。同时，可能动态分析 SQL 构造，基于向量化的思维选取高效的运行时行列对象模型，在晋升性能的同时显著节俭内存应用。

ArgoDB 的整体的业务查问架构如下所示，用户的 SQL 业务通过 SQL 编译器生产执行打算和 Runtime Context，而后发送给 Crux Executor；Executor 通过 TDDMS 来拜访存储层的数据，其中 F1/F2/F3/F4 等都代表一个数据块，Holodesk 默认采纳 3 正本形式存储，而后通过 TDDMS Tablet Server 来拜访本地文件系统上的存储的理论数据块。

Crux Executor 和 TDDMS 存储是独立分层的，它们各自能够依据负载状况来独立的弹性扩缩容，因而解决了可扩展性问题，尤其是计算的可扩大。将来，咱们打算将 TDDMS Tablet Server 与各个云平台对接，能够间接与云上的文件系统高速交互打造云上的数据分析能力，服务于私有云的企业客户。ArgoDB 自身实现了数据库内的资源管理，底层基于容器技术和 Kubernetes 做零碎层的资源调度，通过两层资源调度机制实现了十分好的多租户能力。

基于先进的架构设计与布局，ArgoDB 在 2 年内也落地了大量的金融级生产案例。此外，在国内基准组织 TPC 的数据分析决策测试 TPC-DS 的测试中，星环 Inceptor 是国内上首个通过测试的产品，而 ArgoDB 是寰球第四个，这也充分说明了整体架构的先进性。

— 小结—
本文介绍了分布式剖析型数据库的架构原理，以及星环剖析型数据库 ArgoDB 的外围能力。分布式数据库相比于 MPP 数据库可能实现存算拆散，这样就能实现了计算的弹性。那么更进一步的，在传统的企业数据使用中，经常会呈现企业的零碎数据散落在各个数据存储中的情况，数据分析需要往往是跨库的，这类需要又该如何解决呢？下一篇将介绍数据联邦架构。

关于数据库:分析型数据库分布式分析型数据库

— 背景介绍—

— 总体架构 —