关于数据库:华为云原生数据仓库GaussDBDWS深度技术解读融快大稳易

7次阅读

共计 3006 个字符,预计需要花费 8 分钟才能阅读完成。

摘要:云原生数据仓库 GaussDB(DWS)架构师应邀为大家解读数仓深度技术。

“云原生”在 2020 年成为备受瞩目的热词,云原生在确保企业数字化转型中资源疾速供应、按需应用的同时,反对麻利的利用开发、稳固的交付运维,减速企业的麻利翻新,是企业数字化转型、智能化降级的必经之路。

在华为云原生 2.0 技术峰会上,云原生数据仓库 GaussDB(DWS)架构师应邀为大家解读数仓深度技术。

GaussDB(DWS)云原生数据仓库五大外围竞争力

要害能力 1 - 融:云原生架构,反对跨源数据交融剖析、冷热数据分级存储

交融剖析能力是云原生数据仓库 GaussDB(DWS)外围亮点之一。GaussDB(DWS)采纳一套 SQL 引擎,反对 Oracle、Mysql、HDFS 等多源数据交融剖析,并通过算子下推、减速集群等技术对剖析性能进行了大幅优化,在数据免搬迁的前提下,实现了跨源数据免搬迁、高效剖析。

GaussDB(DWS)云原生数据仓库反对冷热数据多温存储,热数据存储于数仓外部,以取得良好的查问剖析性能,冷数据可分级存储到更低成本的 OBS 中,不仅升高存储老本,并且在 OBS 内,通过非法鉴权,数据可能共享凋谢,供其余引擎解决剖析,GaussDB(DWS)以后曾经反对表内不同分区间的冷热数据存储,将来还将反对更细粒度、更加智能的冷热数据管理。

要害能力 2 – 快:聚合云海量算力,软硬垂直优化,效率最优

第二大特点,快。GaussDB(DWS)次要通过多层级全并行架构来实现。

并行的第一个层级,是集群内物理节点间的并行,CN 将打算动静散布到多个服务器,通过分布式执行框架,将查问打算在集群内多台物理节点并行执行;

第二个层级,是算子级并行,在每个服务器内,查问算子可能利用一个节点内多个 CPU 外围进行并行计算;

第三个层级,是在一个 CPU 外围的指令序列中反对 SIMD 指令,联合咱们的向量化引擎,实现一个指令同时操作多条数据。

同时,咱们还集成了古代编译器技术,利用 LLVM 框架,运行时动静生成执行代码,缩小无关指令生成;数据量越大,可取得的性能晋升成果越好。

正是因为有这样一个全并行计算引擎,咱们能够将系统资源最大化利用,提供极致的剖析性能。

随着金融风控,以及 IoT 场景对数据实时处理剖析的诉求,咱们正式公布了 GaussDB(DWS)实时数仓版本,快上放慢,将快施展到极致。实时数仓的快次要体现在两个方面。首先是入库速度快,与传统数仓不同,数据的加载不再是 T + 1 的大批量加载模式,而是更加实时的高并发小批量模式。DWS 实时数仓时序数据单机入库性能达 10w/s,流数据达 60w/s,并可能线性扩大。其次是计算剖析快,反对基于流式数据的继续计算查问,预置了丰盛的时序和流处理函数,通过 SQL 即可实现简单流式计算,可实现亿级数据,秒级聚合。

正所谓所有皆 SQL,经验了几十年的倒退,SQL 仍然是最简洁高效的数据开发语言,能极大的简化利用开发。以 Druid 监控的一个场景为例,原先 1900 行的脚本,在 GaussDB(DWS)实时数仓中采纳 SQL 语句,仅用 150 行代码就能实现同样的性能,开发效率晋升 10+ 倍。

要害能力 3 – 大:云分布式、按需扩大,反对 10PB 级数据,大而有序

第三个特点,大。咱们在 Shared-Nothing 全分布式架构下,不仅实现了容量线性扩大,在数据加载、数据分析性能上同样实现了线性扩大,从小集群逐渐扩大到大集群规模过程中,随着节点数减少,线性扩大比能够高达 0.9。

从技术上看,大集群须要攻克通信风暴、故障容错和数据备份复原一致性三大难题。咱们通过独创的 Multi-Streams 多流通信技术,反对集群内百亿级的通信连贯,冲破了大规模通信的技术瓶颈。在高可用方面,大规模集群下硬件故障成为常态,咱们积攒了多年,做了大量硬件故障感知及容错解决的工作,来保障大规模集群下的集群自愈和业务可用。在备份复原方面,咱们不仅通过多层级并行实现了线性扩大,还做到了齐全在线的全局强统一物理备份,甚至反对表级别的细粒度复原,竞争力达到了业界当先。

GaussDB(DWS)现网运行的 PB 级数据量以上的大集群曾经有 10+ 个,最大商用单集群规模达到 240 节点。在产品能力上,GaussDB(DWS)可扩大至 2048 节点,并且该规模在 12 月已通过信通院的权威评测,建立了业界新标杆。另外,咱们还实现了逻辑集群个性,一套物理集群可针对不同业务划分多个逻辑集群,数据互相隔离,反对跨逻辑集群的计算资源调动。通过逻辑集群,能够进一步扩大集群的规模。

要害能力 4 – 稳:高可用设计,反对跨 AZ 容灾,数据无忧、永远在线

第四大特点,稳 。首先,产品所有外部组件 CN、DN、GTM、CM 等采纳多活或主备设计,通过集群治理进行故障检测和切换。其次,在硬件层面,除了最根本的宕机、断网的间接故障外,GaussDB(DWS) 还针对夯死、慢节点、亚健康等僵而不死的简单场景,做了大量的建模和针对性优化,可能实现故障的精确探测和自愈。

在数据可靠性方面,对于数仓而言,数据存一份有单点故障问题,存三份又太浪费资源,一般来讲数据一主一备是个绝对正当的抉择,但在故障造成网络分区的场景下,很容易呈现双主“脑裂”问题,造成数据不统一。GaussDB(DWS)独创的“主 - 备 - 从”技术,引入“主”、“备”、“从”三种角色。集群失常时数据仅在主备间进行同步,产生单点故障时数据向“从”同步,从而保障任何情况下都有两正本的数据冗余。在网络分区等异样场景下,一旦主备产生数据分叉,从备又能够承当仲裁者的角色,通过日志比对找到持有正确数据的节点持续提供服务。从而既完满解决了一主一备的脑裂问题,又可能仅用两正本空间代价实现靠近三正本的可靠性。

对于可靠性要求更高的客户,咱们还提供了双集群容灾能力,通过跨 AZ、跨 Region 的物理复制,实现异构集群容灾。通过多年的技术积攒,咱们根本做到了“数据无忧、永远在线”的指标。

要害能力 5 – 易:疾速迁徙传统数仓,助力企业轻松上云

第五个特点,易 利用 GaussDB(DWS)的迁徙工具,用户可能非常容易的将数据从线下的 Teradata、Oracle 等传统数仓疾速搬迁上云。

迁徙次要分为 利用迁徙 数据迁徙 两局部。利用迁徙是指因为线下传统数据仓库的语法及性能不同,导致业务脚本、存储过程等须要革新适配,为此,GaussDB(DWS)把深耕市场多年、胜利迁徙数十套 Teradata 和 Oracle 数仓的成功经验,开发为一套残缺的语法迁徙工具,可能反对对数据类型、SQL 语法、DSQL 脚本、存储过程等语法的自动化转换,对 Teradata 的罕用语法自动化转换率超过 90%,对 Oracle 超过 60%。

对于动辄几十 TB、数百 TB 的海量数据而言,数据迁徙速度极大水平影响业务停机的工夫,这对网络、入库能力和迁徙工具的效率都提出了很高的要求,以咱们去年的某次数据搬迁为例,1PB 的数据仅用 11 小时即实现传输,加上筹备工作和数据校验的工夫,端到端也仅用时 17 小时,搬迁速率 91TB/ 小时,并且做到数据 0 失落。GaussDB(DWS)通过近 10 年的技术积淀,已服务于寰球 1000+ 客户,广泛应用于金融、政府、运营商、交通、物流、互联网等畛域。

本文分享自华为云社区《五大要害能力,华为云原生数据仓库 GaussDB(DWS)深度技术解读》,原文作者:DWS 殿阁大学士。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0