简介: 近几年,数据湖架构的概念逐步衰亡,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需要,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖治理结构化数据甚至是半结构化数据的痛点而设计的,包含数据治理性能和查问减速性能。
概述
近几年,数据湖架构的概念逐步衰亡,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需要,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖治理结构化数据甚至是半结构化数据的痛点而设计的,包含数据治理性能和查问减速性能。
数据优化
数据湖须要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍感懊恼。在存储计算拆散的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目录 list 工夫显著变长,小文件也会影响很多计算引擎的并发度。此外,因为对象存储个别以对象为单位,小文件也会导致申请数量的回升,会显著影响元数据操作的性能,更会减少企业须要领取的费用。而如果数据文件过大,如果数据又应用了不可分割的压缩格局,后续计算的并发度会过低,导致无奈充分发挥集群的计算能力。因而,即便是数据湖架构中,对数据文件进行治理和优化也是十分必要的。
基于数据湖所治理的元数据信息,JindoTable 为客户提供了一键式的优化性能,用户只有在资源较为闲暇时触发优化指令,JindoTable 能够主动为用户优化数据,规整文件大小,进行适当的排序、预计算,生成适当的索引信息和统计信息,联合计算引擎的批改,能够为这些数据生成更加高效的执行打算,大幅缩小用户查问的执行工夫。数据优化对用户通明,优化前后不会呈现读取的数据不统一的状况。这也是数据湖的数据治理所不可或缺的性能。
查问减速
JindoTable 还有一项重磅性能,就是查问减速性能。在数仓中,数据分析总是越快越好。尤其是 Ad-Hoc 场景,对查问提早十分敏感。当初“湖仓一体”的概念也很火,对于数据湖这种广泛应用存储计算拆散场景的架构,如何尽可能减少 IO 开销,对于缩短查问工夫是十分要害的。
之前介绍的 JindoTable 数据优化性能,是在存储端缩小额定开销,并且通过提前的计算,为运行时优化打好根底。JindoTable 的查问减速性能则是在查问执行时,通过把计算推向存储,缩小计算时整体的 IO 压力,同时利用存储端闲暇的计算资源提供高效的计算,缩短整体查问工夫。JindoTable 的减速服务联合批改后的各种计算引擎,能够把尽可能多的算子下推到缓存端,并且利用高效的 native 计算能力过滤大量原始数据,再把数据高效地传输给计算引擎。这样,计算引擎所需解决的数据大大减少,甚至一些计算也能够间接略过,后续的计算所需的工夫天然也就大为缩小。
分层存储
数据湖所存储的数据量通常增长迅速。对于传统的 Hadoop 集群,如果数据量急剧增长,所需的存储资源也要相应减少,这样会导致集群规模迅速扩充,计算资源也会变得过剩。抛开集群规模增长导致的其余问题不谈,光是经营集群的老本问题就足够让人头疼。好在私有云平台提供了对象存储的服务,咱们能够按存储的数据量来付费,这在节约老本的同时,用户也不必放心 HDFS 在集群资源和数据量快速增长状况下的稳定性问题。但数据量快速增长还是会等比例的减少整体开销。
阿里云的对象存储服务 OSS,为用户提供了低频存储和归档存储,对于拜访不是那么频繁的数据,如果可能转为低频或归档模式来存储,能够尽量节约老本。而一部分数据如果有频繁的拜访需要,放在远离计算资源的对象存储上,又会导致计算时的 IO 呈现瓶颈。JindoTable 对接数据湖中各种计算引擎,以表或分区为最小单位,统计数据的拜访频次。依据用户设定的规定,JindoTable 能够通知用户哪些表或者分区的拜访频次较高,让用户能够通过 JindoTable 命令,借助 JindoFS 提供的底层反对,把这些表或者分区对应的数据缓存到计算集群内,减速查问的执行。同时,对于拜访频次较低的表或者分区,用户也能够应用 JindoTable 把对应的数据转为低频或者归档存储类型,或是设置生命周期。在须要对归档数据操作的时候,能够间接用 JindoTable 对归档数据进行冻结。JindoTable 还为用户提供了元数据管理,不便用户检视表或者分区以后的存储状态。JindoTable 让用户能尽可能高效地治理本人的数据,节约老本的同时,不就义计算性能。
小结
对于企业来说,数据湖为各种起源的数据提供了整合的可能性。背靠丰盛的云产品体系,数据湖架构能够帮忙客户进一步挖掘数据价值,实现企业愿景。JindoTable 在数据湖解决方案中,为用户提供数据治理和查问减速的增值性能,进一步升高用户数据入湖的门槛,帮忙用户在更低的老本下,实现更高的数据价值。
原文链接
本文为阿里云原创内容,未经容许不得转载。