关于数据库:全新的-eMPPElastic-MPP超越-MPP-的超弹性架构

43次阅读

共计 3464 个字符,预计需要花费 9 分钟才能阅读完成。

“大数据时代”的概念最早由驰名征询公司麦肯锡提出。麦肯锡示意:”数据已渗透到明天的每个行业和业务性能畛域,并已成为重要的生产因素。”数据在精美的算法中被开掘,数据分析变得至关重要,大家开始达成一个共识:”数据计算,可能找到新发现。”

博思艾伦征询公司的合伙人 Josh Suillivan 在其著述《数字时代的企业进化》一书中提到,其团队钻研了数百个组织,提炼出形成将来胜利组织模型的因素,这类胜利组织被称为”数据公司”。而进化成”数字公司”的要害,是”组织是由数据驱动的”。在大数据时代,企业不再轻易删除数据,而是心愿把数据存储起来用于剖析。数据库也成为了企业基础架构必不可少的一部分。

什么是 MPP?

MPP(Massive Parallel Processing,大规模并行处理),始终被誉为当今数据库的支流架构,被宽泛用于泛滥数据库产品中,包含 Greenplum、Teradata、Vertica 等。MPP 数据库是针对剖析工作负载进行了优化的数据库,以满足用户聚合和解决大型数据集的需要。MPP 剖析型数据库将工作并行的散布到多个服务器和节点上,并在实现计算后,将后果返回并汇总,从而实现对海量数据的剖析解决。

MPP 数据库的劣势 MPP

数据库集群有可扩展性、高可用性、高性能等泛滥劣势。MPP 数据库的诞生解决了单个 SQL 数据库无奈寄存海量数据,很难在一台物理机器上实现剖析需要的难题。

海量数据处理能力

MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的集群形式来扩大存储和计算。假如一个宽表有 3 亿条记录,MPP 数据库会尝试在每台 PC 服务器的硬盘上散布 1 亿条记录。数据计算时,所有机器同时并行计算,实践上最高能够把计算工夫升高到单机部署的 1/n(n 为机器数量),节俭了海量数据的解决工夫。

对 SQL 的完满兼容

大部分传统 MPP 数据库均实现了对 SQL 的完满兼容,包含 ANSI SQL 2008 规范,以及 SQL 2003 OLAP 扩大。对 SQL 的全面反对使得 MPP 数据库能够无缝集成业内常见的提取 / 转换 / 加载(ETL)和 BI(商业智能)工具,齐全反对和认证规范数据库接口。企业只需安顿大量的集成工作,就能够应用现有的应用规范 SQL 构造和接口的剖析工具让利用在 数据库上运行,从而防止了企业受制于供应商,帮忙企业在克制业务危险的同时推动翻新。

计算的高度并行化

MPP 架构给数据库的高并发性带来了极大的弹性。架构赋予数据库数据和查问的主动并行化能力,数据能够做到主动在数据库的所有节点上分区,并以高度协调的形式应用所有节点来布局和执行查问。企业能够依据本身的并发需要扩大集群,达到所需的并发需要。

程度扩大能力

MPP 数据库具备良好的程度扩大能力,企业能够依据业务需要,通过减少服务器,用更多的节点撑持更大的剖析需要。

传统 MPP 数据库的瓶颈

尽管 MPP 数据库有泛滥劣势,因此成为泛滥剖析型数据库产品的支流架构。然而,传统 MPP 数据库也有泛滥瓶颈和限度。

存算耦合

传统数据仓库的计算和存储是严密耦合的,计算资源和存储资源按某一比例强绑定,因而用户在扩容时,必须同时扩容计算资源和存储资源,在扩容、运维、迁徙上都存在肯定的挑战。企业业务倒退的不确定性,当企业遇到负载顶峰时刻,传统数据仓库无奈及时扩资源,可能会导致大数据系统无奈及时剖析业务数据,错失了充沛开掘数据价值所带来的商业机会。

业务受限

传统的 MPP 数据库尽管实现了程度扩大,然而因为存算耦合,程度扩大流程简单且迟缓。随着用户的数据规模增长,每次扩缩容进行减少节点的操作时,大量的 I/O 申请会影响业务的处理速度,对业务的持续性会造成肯定的影响。当用户负载忽然增大时,无奈迅速进步算力以响应业务变动,在负载升高时也无奈膨胀以节约老本。存算的严密耦合,导致用户无奈依据理论需要申请资源,动静扩大,导致用户的业务受限。

老本昂扬

传统数据库价格昂扬的软硬件导致微小的后期投入。随着存储和工作负载需要的日益增长,面临数据库的扩容和降级时,因为传统 MPP 数据库架构存储和计算的严密耦合,往往须要企业破费微小的运维和工夫老本,且操作繁琐。

木桶效应

传统 MPP 数据库架构存在”木桶效应”,数据库整体执行速度取决于最”短板”单机(Straggler)的性能。单机故障会”拖垮”整个数据库的性能,导致查问速度变慢。因而传统的 MPP 架构往往要求新增的 PC 机和之前的 PC 机是一样的老配置,不然任何一个集群的”短板”就会影响整个数据库的性能,也就说摩尔定理不论多厉害,MPP 集群拿老机器的存储和性能”一刀切”而取低值。

数据孤岛

随着业务的倒退,数据量的减少,和信息化建设的需要,企业会为不同部门建设相应的业务信息化零碎。然而 MPP 的程度”扩大“能力和事实上的”动态“我的项目施行是矛盾的。“扩大”实践上是和工夫关联的一个概念,而基于 PC 机的 MPP 设计并不是”工夫的敌人“。因为后面提到的存算耦合和”木桶效应”,企业在购买新机器的时候,往往会抉择”重整旗鼓”,新建一个集群,从而造成”数据孤岛”,重大妨碍了企业实现大数据指标。

全新的 eMPP:传统 MPP 数据库的进阶版

面对传统 MPP 数据库的短板,OpenPie 团队打造的云原生数据库 PieCloudDB,发明了全新的 eMPP 分布式架构,构建以云原生、剖析型分布式数据库为引擎数据计算平台

什么是 eMPP?

eMPP 由 OpenPie 团队打造,全称是 Elastic Massive Parallel Processing(Elastic MPP,弹性大规模并行计算)。

eMPP 超过传统 MPP 架构,更合乎云时代的需要。云平台在信息技术倒退过程中具备划时代意义,它带给用户的不仅仅是快捷和便当,更是极大的灵活性和可配置性。用户能够自行定义云主机的配置,定义云主机的数量等,并且能够便捷的减少和删除云主机。一句话来说,云平台给企业应用架构带来了极大的弹性。

MPP 架构和云平台相结合,就诞生了 eMPP。为了适应云平台的弹性,新的 eMPP 架构实现了云上存储计算拆散。也就是说,计算资源和存储资源能够在云上实现独立的进行程度扩大。

eMPP 的劣势

存算拆散赋予 eMPP 数据库”真正”的弹性。eMPP 架构继承了前文中提到的 MPP 数据库所有劣势,并从根本上躲避了传统 MPP 数据库的缺点,领有泛滥劣势。

  • 弹性扩大
    基于云计算平台、存算拆散的 eMPP(弹性大规模并行计算)架构赋予数据库多维度、智能弹性扩大能力,让用户可能依据业务需要进行横向或纵向的弹性伸缩。
    存储侧反对规范对象存储,能够充分利用云计算平台的劣势,让对象存储靠近有限的容量,防止了企业对集群进行扩容时,因计算资源和存储资源的绑定而造成的资源节约,可独自进行计算或者存储资源的扩大,存储扩容性价比高。
    计算侧在设计上充分考虑无状态实现,计算节点能够充分利用云平台海量的计算节点池,能够按需扩容和缩容。企业能够灵便思考业务和数据量的变动,动静调整 数据库集群中计算节点的数量,用最适宜的资源量来满足其业务需要。
  • 灵便麻利
    eMPP 架构计算和存储拆散,防止了资源的节约。企业可依据对资源的需要,灵便的以低成本和高效的形式,独自地进行存储或计算资源的弹性扩大,进步了资源的利用率,节俭空间老本和能耗开销。
  • 降本增效
    eMPP 架构带来的动静扩大能力,企业可依据本人对资源的需要进行扩大,防止了资源的节约,相比于传统数据库,具备更高的性价比。
  • 高可用性
    eMPP 架构中,计算节点不存储用户数据,保障了计算节点的无状态性。无状态的计算节点启动和进行非常容易,企业能够依据本身的需要启动足够的冗余计算节点保障 eMPP 数据库的高可用性。在 eMPP 数据库 中,用户数据存储在云计算平台的对象存储中,充分利用云存储的劣势保障用户数据高可用性。

PieCloudDB:基于云计算的全新 eMPP 架构

PieCloudDB,采纳基于云计算的全新 eMPP(Elastic MPP)弹性并行计算架构,集成了 MPP 数据库的泛滥长处,并完满解决了基于 PC 的传统 MPP 数据库的缺点。计算和存储拆散。存储和计算作为两个独立变量,能够在云端进行独立的弹性伸缩,防止了资源的节约。企业可依据业务对资源的需要,灵便的以低成本和高效的形式,独自地进行存储或计算资源的弹性扩大,进步了资源的利用率,节俭空间老本和能耗开销。

元数据 – 计算 – 数据拆散的三层独立架构让 PieCloudDB 实现了将数据集中存储,而元数据独立存储。企业能够像治理商品数据一样来治理本人的数据产品的元数据。企业能够将所有数据在云中存储,为已有和将来的利用真正实现数据共享。

正文完
 0