关于数据库:华为云原生数据仓库GaussDBDWS深度技术解读融快大稳易

摘要：云原生数据仓库GaussDB(DWS)架构师应邀为大家解读数仓深度技术。

“云原生”在2020年成为备受瞩目的热词，云原生在确保企业数字化转型中资源疾速供应、按需应用的同时，反对麻利的利用开发、稳固的交付运维，减速企业的麻利翻新，是企业数字化转型、智能化降级的必经之路。

在华为云原生2.0技术峰会上，云原生数据仓库GaussDB(DWS)架构师应邀为大家解读数仓深度技术。

GaussDB(DWS)云原生数据仓库五大外围竞争力

要害能力1- 融：云原生架构，反对跨源数据交融剖析、冷热数据分级存储

交融剖析能力是云原生数据仓库GaussDB(DWS)外围亮点之一。GaussDB(DWS)采纳一套SQL引擎，反对Oracle、Mysql、HDFS等多源数据交融剖析，并通过算子下推、减速集群等技术对剖析性能进行了大幅优化，在数据免搬迁的前提下，实现了跨源数据免搬迁、高效剖析。

GaussDB(DWS)云原生数据仓库反对冷热数据多温存储，热数据存储于数仓外部，以取得良好的查问剖析性能，冷数据可分级存储到更低成本的OBS中，不仅升高存储老本，并且在OBS内，通过非法鉴权，数据可能共享凋谢，供其余引擎解决剖析，GaussDB(DWS)以后曾经反对表内不同分区间的冷热数据存储，将来还将反对更细粒度、更加智能的冷热数据管理。

要害能力2 – 快：聚合云海量算力，软硬垂直优化，效率最优

第二大特点，快。GaussDB(DWS)次要通过多层级全并行架构来实现。

并行的第一个层级，是集群内物理节点间的并行，CN将打算动静散布到多个服务器，通过分布式执行框架，将查问打算在集群内多台物理节点并行执行；

第二个层级，是算子级并行，在每个服务器内，查问算子可能利用一个节点内多个CPU外围进行并行计算；

第三个层级，是在一个CPU外围的指令序列中反对SIMD指令，联合咱们的向量化引擎，实现一个指令同时操作多条数据。

同时，咱们还集成了古代编译器技术，利用LLVM框架，运行时动静生成执行代码，缩小无关指令生成；数据量越大，可取得的性能晋升成果越好。

正是因为有这样一个全并行计算引擎，咱们能够将系统资源最大化利用，提供极致的剖析性能。

随着金融风控，以及IoT场景对数据实时处理剖析的诉求，咱们正式公布了GaussDB(DWS)实时数仓版本，快上放慢，将快施展到极致。实时数仓的快次要体现在两个方面。首先是入库速度快，与传统数仓不同，数据的加载不再是T+1的大批量加载模式，而是更加实时的高并发小批量模式。DWS实时数仓时序数据单机入库性能达10w/s，流数据达60w/s，并可能线性扩大。其次是计算剖析快，反对基于流式数据的继续计算查问，预置了丰盛的时序和流处理函数，通过SQL即可实现简单流式计算，可实现亿级数据，秒级聚合。

正所谓所有皆SQL，经验了几十年的倒退，SQL仍然是最简洁高效的数据开发语言，能极大的简化利用开发。以Druid监控的一个场景为例，原先1900行的脚本，在GaussDB(DWS)实时数仓中采纳SQL语句，仅用150行代码就能实现同样的性能，开发效率晋升10+倍。

要害能力3 – 大：云分布式、按需扩大，反对10PB级数据，大而有序

第三个特点，大。咱们在Shared-Nothing全分布式架构下，不仅实现了容量线性扩大，在数据加载、数据分析性能上同样实现了线性扩大，从小集群逐渐扩大到大集群规模过程中，随着节点数减少，线性扩大比能够高达0.9。

从技术上看，大集群须要攻克通信风暴、故障容错和数据备份复原一致性三大难题。咱们通过独创的Multi-Streams多流通信技术，反对集群内百亿级的通信连贯，冲破了大规模通信的技术瓶颈。在高可用方面，大规模集群下硬件故障成为常态，咱们积攒了多年，做了大量硬件故障感知及容错解决的工作，来保障大规模集群下的集群自愈和业务可用。在备份复原方面，咱们不仅通过多层级并行实现了线性扩大，还做到了齐全在线的全局强统一物理备份，甚至反对表级别的细粒度复原，竞争力达到了业界当先。

GaussDB(DWS)现网运行的PB级数据量以上的大集群曾经有10+个，最大商用单集群规模达到240节点。在产品能力上，GaussDB(DWS)可扩大至2048节点，并且该规模在12月已通过信通院的权威评测，建立了业界新标杆。另外，咱们还实现了逻辑集群个性，一套物理集群可针对不同业务划分多个逻辑集群，数据互相隔离，反对跨逻辑集群的计算资源调动。通过逻辑集群，能够进一步扩大集群的规模。

要害能力4 – 稳：高可用设计，反对跨AZ容灾，数据无忧、永远在线

第四大特点，稳。首先，产品所有外部组件CN、DN、GTM、CM等采纳多活或主备设计，通过集群治理进行故障检测和切换。其次，在硬件层面，除了最根本的宕机、断网的间接故障外，GaussDB(DWS)还针对夯死、慢节点、亚健康等僵而不死的简单场景，做了大量的建模和针对性优化，可能实现故障的精确探测和自愈。

在数据可靠性方面，对于数仓而言，数据存一份有单点故障问题，存三份又太浪费资源，一般来讲数据一主一备是个绝对正当的抉择，但在故障造成网络分区的场景下，很容易呈现双主“脑裂”问题，造成数据不统一。GaussDB(DWS)独创的“主-备-从”技术，引入“主”、“备”、“从”三种角色。集群失常时数据仅在主备间进行同步，产生单点故障时数据向“从”同步，从而保障任何情况下都有两正本的数据冗余。在网络分区等异样场景下，一旦主备产生数据分叉，从备又能够承当仲裁者的角色，通过日志比对找到持有正确数据的节点持续提供服务。从而既完满解决了一主一备的脑裂问题，又可能仅用两正本空间代价实现靠近三正本的可靠性。

对于可靠性要求更高的客户，咱们还提供了双集群容灾能力，通过跨AZ、跨Region的物理复制，实现异构集群容灾。通过多年的技术积攒，咱们根本做到了“数据无忧、永远在线”的指标。

要害能力5 – 易：疾速迁徙传统数仓，助力企业轻松上云

第五个特点，易。利用GaussDB(DWS)的迁徙工具，用户可能非常容易的将数据从线下的Teradata、Oracle等传统数仓疾速搬迁上云。

迁徙次要分为利用迁徙和数据迁徙两局部。利用迁徙是指因为线下传统数据仓库的语法及性能不同，导致业务脚本、存储过程等须要革新适配，为此，GaussDB(DWS)把深耕市场多年、胜利迁徙数十套Teradata和Oracle数仓的成功经验，开发为一套残缺的语法迁徙工具，可能反对对数据类型、SQL语法、DSQL脚本、存储过程等语法的自动化转换，对Teradata的罕用语法自动化转换率超过90%，对Oracle超过60%。

对于动辄几十TB、数百TB的海量数据而言，数据迁徙速度极大水平影响业务停机的工夫，这对网络、入库能力和迁徙工具的效率都提出了很高的要求，以咱们去年的某次数据搬迁为例，1PB的数据仅用11小时即实现传输，加上筹备工作和数据校验的工夫，端到端也仅用时17小时，搬迁速率91TB/小时，并且做到数据0失落。 GaussDB(DWS)通过近10年的技术积淀，已服务于寰球1000+客户，广泛应用于金融、政府、运营商、交通、物流、互联网等畛域。

本文分享自华为云社区《五大要害能力，华为云原生数据仓库GaussDB(DWS)深度技术解读》，原文作者：DWS殿阁大学士。

点击关注，第一工夫理解华为云陈腐技术~

关于数据库:华为云原生数据仓库GaussDBDWS深度技术解读融快大稳易

要害能力1- 融：云原生架构，反对跨源数据交融剖析、冷热数据分级存储

要害能力2 – 快：聚合云海量算力，软硬垂直优化，效率最优

要害能力3 – 大：云分布式、按需扩大，反对10PB级数据，大而有序

要害能力4 – 稳：高可用设计，反对跨AZ容灾，数据无忧、永远在线

要害能力5 – 易：疾速迁徙传统数仓，助力企业轻松上云

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:华为云原生数据仓库GaussDBDWS深度技术解读融快大稳易

要害能力1- 融：云原生架构，反对跨源数据交融剖析、冷热数据分级存储

要害能力2 – 快 ：聚合云海量算力，软硬垂直优化，效率最优

要害能力3 – 大 ：云分布式、按需扩大，反对10PB级数据，大而有序

要害能力4 – 稳：高可用设计，反对跨AZ容灾，数据无忧、永远在线

要害能力5 – 易：疾速迁徙传统数仓，助力企业轻松上云

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

要害能力2 – 快：聚合云海量算力，软硬垂直优化，效率最优

要害能力3 – 大：云分布式、按需扩大，反对10PB级数据，大而有序

发表回复取消回复