“大数据时代” 的概念最早由驰名征询公司麦肯锡提出。麦肯锡示意:” 数据已渗透到明天的每个行业和业务性能畛域,并已成为重要的生产因素。” 数据在精美的算法中被开掘,数据分析变得至关重要,大家开始达成一个共识:” 数据计算,可能找到新发现。”
博思艾伦征询公司的合伙人 Josh Suillivan 在其著述《数字时代的企业进化》一书中提到,其团队钻研了数百个组织,提炼出形成将来胜利组织模型的因素,这类胜利组织被称为” 数据公司”。而进化成” 数字公司” 的要害,是” 组织是由数据驱动的”。 在大数据时代,企业不再轻易删除数据,而是心愿把数据存储起来用于剖析。数据库也成为了企业基础架构必不可少的一部分。
什么是 MPP?
MPP(Massive Parallel Processing,大规模并行处理),始终被誉为当今数据库的支流架构,被宽泛用于泛滥数据库产品中,包含 Greenplum、Teradata、Vertica 等。MPP 数据库是针对剖析工作负载进行了优化的数据库,以满足用户聚合和解决大型数据集的需要。 MPP 剖析型数据库将工作并行的散布到多个服务器和节点上,并在实现计算后,将后果返回并汇总,从而实现对海量数据的剖析解决。
MPP 数据库的劣势MPP
数据库集群有可扩展性、高可用性、高性能等泛滥劣势。MPP 数据库的诞生解决了单个 SQL 数据库无奈寄存海量数据,很难在一台物理机器上实现剖析需要的难题。
海量数据处理能力
MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的集群形式来扩大存储和计算。假如一个宽表有 3 亿条记录,MPP 数据库会尝试在每台 PC 服务器的硬盘上散布 1 亿条记录。数据计算时,所有机器同时并行计算,实践上最高能够把计算工夫升高到单机部署的 1/n(n 为机器数量),节俭了海量数据的解决工夫。
对 SQL 的完满兼容
大部分传统 MPP 数据库均实现了对 SQL 的完满兼容,包含 ANSI SQL 2008 规范,以及 SQL 2003 OLAP 扩大。对 SQL 的全面反对使得 MPP 数据库能够无缝集成业内常见的提取 / 转换 / 加载(ETL)和 BI(商业智能)工具,齐全反对和认证规范数据库接口。企业只需安顿大量的集成工作,就能够应用现有的应用规范 SQL 构造和接口的剖析工具让利用在 数据库上运行,从而防止了企业受制于供应商,帮忙企业在克制业务危险的同时推动翻新。
计算的高度并行化
MPP 架构给数据库的高并发性带来了极大的弹性。架构赋予数据库数据和查问的主动并行化能力,数据能够做到主动在数据库的所有节点上分区,并以高度协调的形式应用所有节点来布局和执行查问。企业能够依据本身的并发需要扩大集群,达到所需的并发需要。
程度扩大能力
MPP数据库具备良好的程度扩大能力,企业能够依据业务需要,通过减少服务器,用更多的节点撑持更大的剖析需要。
传统 MPP 数据库的瓶颈
尽管 MPP 数据库有泛滥劣势,因此成为泛滥剖析型数据库产品的支流架构。然而,传统 MPP 数据库也有泛滥瓶颈和限度。
存算耦合
传统数据仓库的计算和存储是严密耦合的,计算资源和存储资源按某一比例强绑定,因而用户在扩容时,必须同时扩容计算资源和存储资源,在扩容、运维、迁徙上都存在肯定的挑战。企业业务倒退的不确定性,当企业遇到负载顶峰时刻,传统数据仓库无奈及时扩资源,可能会导致大数据系统无奈及时剖析业务数据,错失了充沛开掘数据价值所带来的商业机会。
业务受限
传统的 MPP 数据库尽管实现了程度扩大,然而因为存算耦合,程度扩大流程简单且迟缓。随着用户的数据规模增长,每次扩缩容进行减少节点的操作时,大量的 I/O 申请会影响业务的处理速度,对业务的持续性会造成肯定的影响。当用户负载忽然增大时,无奈迅速进步算力以响应业务变动,在负载升高时也无奈膨胀以节约老本。存算的严密耦合,导致用户无奈依据理论需要申请资源,动静扩大,导致用户的业务受限。
老本昂扬
传统数据库价格昂扬的软硬件导致微小的后期投入。随着存储和工作负载需要的日益增长,面临数据库的扩容和降级时,因为传统 MPP 数据库架构存储和计算的严密耦合,往往须要企业破费微小的运维和工夫老本,且操作繁琐。
木桶效应
传统 MPP 数据库架构存在” 木桶效应”,数据库整体执行速度取决于最” 短板” 单机(Straggler)的性能。单机故障会” 拖垮” 整个数据库的性能,导致查问速度变慢。 因而传统的 MPP 架构往往要求新增的 PC 机和之前的 PC 机是一样的老配置,不然任何一个集群的” 短板” 就会影响整个数据库的性能,也就说摩尔定理不论多厉害,MPP 集群拿老机器的存储和性能” 一刀切” 而取低值。
数据孤岛
随着业务的倒退,数据量的减少,和信息化建设的需要,企业会为不同部门建设相应的业务信息化零碎。然而 MPP 的程度” 扩大 “能力和事实上的” 动态 “我的项目施行是矛盾的。“扩大” 实践上是和工夫关联的一个概念,而基于 PC 机的 MPP 设计并不是” 工夫的敌人 “。因为后面提到的存算耦合和” 木桶效应”,企业在购买新机器的时候,往往会抉择” 重整旗鼓”,新建一个集群,从而造成” 数据孤岛”,重大妨碍了企业实现大数据指标。
全新的 eMPP:传统 MPP 数据库的进阶版
面对传统 MPP 数据库的短板,OpenPie 团队打造的云原生数据库 PieCloudDB,发明了全新的 eMPP 分布式架构,构建以云原生、剖析型分布式数据库为引擎数据计算平台。
什么是 eMPP?
eMPP 由 OpenPie 团队打造,全称是 Elastic Massive Parallel Processing(Elastic MPP,弹性大规模并行计算)。
eMPP 超过传统 MPP 架构,更合乎云时代的需要。云平台在信息技术倒退过程中具备划时代意义,它带给用户的不仅仅是快捷和便当,更是极大的灵活性和可配置性。用户能够自行定义云主机的配置,定义云主机的数量等,并且能够便捷的减少和删除云主机。一句话来说,云平台给企业应用架构带来了极大的弹性。
MPP 架构和云平台相结合,就诞生了 eMPP。为了适应云平台的弹性,新的 eMPP 架构实现了云上存储计算拆散。也就是说,计算资源和存储资源能够在云上实现独立的进行程度扩大。
eMPP 的劣势
存算拆散赋予 eMPP 数据库 ” 真正” 的弹性。eMPP 架构继承了前文中提到的 MPP 数据库所有劣势,并从根本上躲避了传统 MPP 数据库的缺点,领有泛滥劣势。
- 弹性扩大
基于云计算平台、存算拆散的 eMPP(弹性大规模并行计算)架构赋予数据库多维度、智能弹性扩大能力,让用户可能依据业务需要进行横向或纵向的弹性伸缩。
存储侧反对规范对象存储,能够充分利用云计算平台的劣势,让对象存储靠近有限的容量,防止了企业对集群进行扩容时,因计算资源和存储资源的绑定而造成的资源节约,可独自进行计算或者存储资源的扩大,存储扩容性价比高。
计算侧在设计上充分考虑无状态实现,计算节点能够充分利用云平台海量的计算节点池,能够按需扩容和缩容。企业能够灵便思考业务和数据量的变动,动静调整 数据库集群中计算节点的数量,用最适宜的资源量来满足其业务需要。 - 灵便麻利
eMPP 架构计算和存储拆散,防止了资源的节约。企业可依据对资源的需要,灵便的以低成本和高效的形式,独自地进行存储或计算资源的弹性扩大,进步了资源的利用率,节俭空间老本和能耗开销。 - 降本增效
eMPP 架构带来的动静扩大能力,企业可依据本人对资源的需要进行扩大,防止了资源的节约,相比于传统数据库,具备更高的性价比。 - 高可用性
eMPP 架构中,计算节点不存储用户数据,保障了计算节点的无状态性。无状态的计算节点启动和进行非常容易,企业能够依据本身的需要启动足够的冗余计算节点保障 eMPP 数据库的高可用性。在 eMPP 数据库 中,用户数据存储在云计算平台的对象存储中,充分利用云存储的劣势保障用户数据高可用性。
PieCloudDB:基于云计算的全新 eMPP 架构
PieCloudDB,采纳基于云计算的全新 eMPP(Elastic MPP)弹性并行计算架构,集成了 MPP 数据库的泛滥长处,并完满解决了基于 PC 的传统 MPP 数据库的缺点。计算和存储拆散。存储和计算作为两个独立变量,能够在云端进行独立的弹性伸缩,防止了资源的节约。企业可依据业务对资源的需要,灵便的以低成本和高效的形式,独自地进行存储或计算资源的弹性扩大,进步了资源的利用率,节俭空间老本和能耗开销。
元数据 - 计算 - 数据拆散的三层独立架构让 PieCloudDB 实现了将数据集中存储,而元数据独立存储。企业能够像治理商品数据一样来治理本人的数据产品的元数据。企业能够将所有数据在云中存储,为已有和将来的利用真正实现数据共享。