近年来,随着数字经济的倒退,作为大数据底层撑持的数据库管理系统在企业数字化转型中正处于前所未有的重要地位。简直所有的企业级数据、终端数据和边缘设施数据,都须要通过数据库系统的治理和剖析才可能赋能下层利用或企业决策,施展其最大的价值。
面对日益减少的数据规模和数据类型多元化的发展趋势,企业数据分析复杂度一直晋升,传统 MPP 数据仓库平台,在资源弹性、老本等方面曾经很难适应企业业务需要。
近日,HashData 解决方案架构师吴昊通过在线直播的形式,与网友分享了大数据时代数据库技术的倒退和改革。
吴昊介绍,数据库技术的倒退始终随着企业业务需要的变动而演进。以后,随着云计算技术的遍及,云原生数据库应运而生,基于云原生架构的数据仓库正成为越来越多企业的抉择。
以下为直播文字实录摘选,与大家共飨:
HashData 数据仓库采纳以 Snowflake、Databricks 和 Google BigQuery 为代表的业界当先的云原生大数据系统设计理念,围绕着对象存储和形象服务构建,通过元数据、计算和存储三者拆散、多集群共享对立数据存储层的架构,最大限度施展云计算劣势,利用云平台的弹性 + 分布式的特点,实现疾速部署、按需伸缩、不停机交付等,大幅升高企业进行大数据分析的门槛。
作为一款企业级云端数据仓库,HashData 交融了 MPP 数据库的高性能和丰盛剖析性能、大数据平台的扩展性和灵活性,以及云计算的弹性和敏捷性,提供了传统解决方案无法比拟的高并发、易用性、高可用性、高性能和扩展性。
HashData 的元数据服务通过寰球可拜访的分布式系统提供,负责数据长久化的对象存储通过 RESTFUL 接口提供数据拜访能力,两头的计算层则实现了齐全无状态化。
HashData 与传统 MPP 数据库比拟
与传统 MPP 架构数据库相比,HashData 具备以下劣势和特点:
1. 秒级的扩缩容能力
传统的 MPP 采纳紧耦合设计,在扩容时,须要对磁盘内全副数据进行读写,操作繁琐,对系统 IO 耗费大,扩容周期长,对业务影响较大。
HashData 得益于存算拆散的架构,通过一致性哈希来防止数据从新逻辑分组,通过共享存储防止数据从新物理散布,能够实现集群的秒级扩缩容。
2. 打消数据“孤岛”和冗余
传统 MPP 在应用过程中,随着数据量的增长,每个集群的数据都保留在计算节点本地磁盘,集群之间的数据无奈做到无效共享,造成“数据孤岛”景象。同时,大量数据拷贝操作,造成数据重大冗余。
为避免出现“数据孤岛”和冗余,HashData 采纳共享存储架构,任何一个计算集群都能够去拜访同一份数据,所有集群共享同一份元数据,彻底消除“数据孤岛”和冗余,确保数据的实时性、一致性。
3. 高度弹性的并发能力
传统 MPP 数据库的每个计算节点都会参加到每条查问的执行中,零碎反对的并发查问数量由单个计算节点的硬件资源决定。实践上来讲,能够通过减少集群规模晋升并发查问的数量。但在理论应用过程中,扩充集群规模只是升高了单条查问的延时,不能进步并发查问数量(有时候因为调度的开销,甚至可能比原来慢),成果微不足道。依照咱们的教训,传统 MPP 架构的并发量其实十分无限。
HashData 因为采纳云原生架构,多个集群共享对立的元数据、对立的数据存储,集群间不竞争 CPU、内存和 IO 资源,能够依据业务需要有限地创立集群。为了进步并发数量,只须要减少计算集群,来满足弹性、高并发的要求,代价显著升高。
4. 具备自愈性能的高可用
传统 MPP 架构数据库次要通过正本的形式,来保证系统的可用性。这样做的代价是,一旦其中一个节点呈现故障,工作会调度到 Mirror 节点,对系统性能造成影响。同时,新节点代替失败节点,数据须要从 Mirror 节点同步到新节点,导致 Mirror 节点负载减少,成为零碎瓶颈;此外,新节点的数据恢复窗口很长,运维压力十分大。
HashData 云数仓将数据存储在共享存储下面,计算节点与数据块的对应关系能够动静调整。不存在所谓的 Mirror 节点,因此可能实现分钟级新节点复原,整个过程不须要任何的人工干预。
5. 灵便的利用反对能力
传统 MPP 架构数据库产品,每个集群运行作业根本固定,无奈动静调整。HashData 云数仓能够依照业务需要动静调整集群规模,防止数据冗余和资源节约,灵便撑持业务倒退。
6. 高效应对各种数据库运维难题
传统 MPP 架构的数据库,动辄几百台甚至上千台服务器的规模,零碎运维工作量大。
HashData 能够依据业务需要,动静地对数据仓库集群进行纵向伸缩和横向伸缩。同时,因为是齐全托管的云服务, HashData 数据仓库承当了所有的集群资源配置、数据库治理、继续监控、健康检查、谬误复原、高可用和降级等纷繁复杂、极易出错的运维工作,让用户安心专一于业务剖析下面。