乐趣区

关于数据库:对象存储与HashData多云战略

|多云架构的应运而生

明天,随着企业数字化过程的推动,多云成为了企业 IT 基础设施建设的重要特点。多云策略的施行,帮忙企业升高了老本,进步了服务效率及安全性。特地是全球性跨国公司,不仅须要业务集中化治理,同时须要满足不同地区的业务经营和监管需要。相比于 AWS、Azure、谷歌云等私有云上的云原生数据仓库,HashData 通过反对多种对象存储,可能提供齐全兼容多个私有云与混合云的数据管理能力。

|对象存储的劣势

以 Amazon S3 为例,如下表格从多个维度将对象存储与 Hadoop 体系架构中的 HDFS 进行比拟:

咱们能够看到,绝对于传统的 HDFS 分布式存储,以 S3 为代表的对象存储服务不仅具备弹性能力,同时在可用性与持久性上也进步了约一个数量级,而老本却只有前者的十分之一。由此可见,在云计算时代,对象存储曾经全面超过 HDFS,成为将来大数据的根底。

此外,对象存储的拜访形式是基于 HTTP 协定的,可能无缝与各种 Web 利用和工具集成,并利用于广域网,从而实现跨数据中心、跨云平台的数据拜访,使多云架构、跨云数据共享成为可能。

|HashData 反对多种对象存储

在支流的数据库系统(包含 Oracle、DB2、PostgreSQL 等)术语中,都有一个叫表空间(Tablespace)的概念。表空间是数据库系统中,数据库逻辑构造和文件系统物理构造之间建设映射的重要存储构造,它作为数据库与理论存储数据的物理存储设备之间的中间层,用来指明数据库中数据寄存的物理地位。任何表的创立都必须显式或隐式地为其指定表空间,且数据库中的所有数据均位于表空间中。

继承于 PostgreSQL 的表空间,HashData 云数据仓库创新性地在传统的表空间与对象存储中的存储桶(Bucket)之间建设映射关系,通过不同的表空间无缝对接多个跨平台、跨地区的对象存储系统,从而实现在一个集群中拜访不同平台、不同类型、不同地区的对象存储系统,使得利用能够依据数据重要性、拜访地区等因素选择性地将不同数据放在不同的对象存储系统中。

|产品架构

上面,咱们以数据加载为例,比拟一下传统 ETL 架构图(基于 Greenplum Database)与 HashData 基础架构比照图:

HashData 数据库 ETL 架构(上图右)绝对于传统的数据库 ETL 架构(上图左)不须要额定的 ETL 服务器反对以及配置简单的 ETL 过程。咱们只须要将原始数据文件上传到对象存储上,而后在数据库中创立指向这些数据文件的内部表,便能够应用 OSS 协定,通过 segment 进行并行的数据导入,并将通过格局转化、编码压缩的数据(不便后续的高效拜访)从新落回到对象存储中,实现 ETL 过程。

|如何进行利用实际

以某网省数据迁徙为例,本来利用的商业版对象存储,在自建对象存储团队后,用自研对象存储替换商业版对象存储,总数据量约为 2PB,存储半年数据,利用计划如下:

  1. 在原有 HashData 集群中创立新的表空间,指向新对象存储;
  2. 在新的表空间中创立表构造跟原表一样的空表;
  3. 从原表中扫描进去数据插入到新表中,实现数据从一个对象存储到另一个对象存储的迁徙;

实际中,以下为整个计划的外围过程模仿,通过 HashData 集群将数据从一个 Bucket(代表旧的对象存储)迁徙到另一个 Bucket(代表新的对象存储)上面,应用的对象存储是青云 QingCloud 的对象存储服务 QingStor:

|小结

多云环境下,面对市场上多个私有云厂商(如 AWS、阿里云、腾讯云等,它们提供各自的对象存储服务)及品种繁多的公有云解决方案(它们的对象存储大多基于开源的 Ceph,Swift,Minio 等),如何高效、平安且低成本地施行多云策略是每个 CIO 须要认真思考的问题。自公司创建之初,咱们就深信对象存储将成为将来大数据的根底。作为公司旗舰产品,HashData 云数据仓库围绕着对象存储和形象服务构建,通过将计算与存储解耦,反对多种对象存储,使跨云、跨数据中心的数据共享成为了可能,为企业多云策略的施行提供了一个灵便而易用的解决方案。

退出移动版