关于数据管理:如何避免数据湖变成数据沼泽

3次阅读

共计 2522 个字符,预计需要花费 7 分钟才能阅读完成。

本文转载自 www.dbta.com,作者李栋

往年,Gartner 公布了《剖析查问减速的市场疏导报告》(Market Guide for Analytics Query Accelerators),指出企业在享受数据湖带来灵活性的同时,也接受着因数据应用和数据管理凌乱带来的不利影响。Kyligence 智能多维数据库产品及解决方案曾经助力多家企业无效解决这一难题。

1. 数据湖带来的治理难题

数据湖采纳“读时模式”(schema-on-read)的数据存储构造,在存储 PB 级数据和撑持业务利用方面具备弱小的能力。然而,任何事物都有两面性。作为一种语义灵便的数据存储形式,数据湖在数据治理方面不免有所欠缺,如果治理不善就会变成凌乱的数据沼泽。

1.1 数据信赖的挑战

翻新的数据洞察个别来自多个数据主题的交融剖析。传统的数据分析模式往往依赖数据工程师开发 ETL 取数,以满足特定场景的剖析需要。在这种状况下,即便数据分析师心愿可能灵便地摸索更多数据,但因为很难把握这些数据的生成逻辑,只能审慎地抉择,免得复用其余部门或业务上的数据。

1.2 宽表爆炸的挑战

长此以往,数据孤岛更加重大,数据湖上的表日渐增多。例如,一家领有 5700+ 张源表的互联网公司可在数据湖上生成近百万张宽表和聚合表。宽表爆炸逐步成为数据团队的一大挑战,他们不仅要确保数据的品质及一致性,还要应答数据爆炸式增长所带来的老本继续上行的压力。

1.3 老本过高的挑战

在数据湖上寄存数以百万计的表,除了会占用大量的计算资源和存储资源,还需投入相当多的人力进行开发和保护。而这些投入带来的回报,如每张表的理论使用量、单次查问的老本等都将难以计算。

为了应答上述挑战,不少企业尝试将数据仓库技术引入数据湖,并构建湖仓一体(Lakehouse)的架构,数据仓库技术对数据品质和规范有严格的要求,有助于补救数据湖在数据治理方面的有余。

2. 多维数据库的劣势

自上世纪 60 年代问世以来,多维数据库技术曾经渐趋成熟 [1]。多维数据库是关系模型的一种变体,采纳多维数据模型来整顿数据并表白数据之间的关系 [2]。多维数据库是当今被宽泛认可的联机剖析解决(OLAP)技术,广泛应用于数据仓库中的数据集市层。

数据是两维的,业务是多维的。与传统的关系型数据库应用“表”作为数据库要害实体不同,多维数据库依据表之间的关系定义多维数据模型,并以“多维模型”作为数据库的要害实体。多维模型蕴含业务维度和度量(而非列和行),构建对立的语义层,为业务指标提供繁多的数据源。基于标准化的语义定义,业务用户能够全面拉齐对业务数据的了解,有助于解决数据应用中互不信赖的痛点。

从存储的角度来看,多维数据库将以 OLAP Cube(多维立方体)的模式保留数据。OLAP Cube 会基于维度的多种组合进行聚合计算并保留计算结果,减速多维分析。数据工程师只需筹备待剖析的事实表和维度表,并将表接入多维星型或雪花模型,不再须要为每个数据利用或 BI 报表开发宽表。得益于此,数据工程师还能够通过治理 OLAP Cube 中的聚合索引来妥善治理存储的数据,让数据存储变得颠三倒四。

随着越来越多的企业上云,IT 团队正致力于寻求更无效的办法,以更低的老本满足更多的数据量和剖析需要。对云上资源而言,相较于计算和网络资源,存储资源的价格更加低廉,多维数据库采纳预计算技术构建 OLAP Cube,正是应用更为便宜的存储来节俭计算和网络资源的耗费。尤其是对于自助式 BI 剖析、数据服务 API 等利用场景,多维数据库将比关系型 MPP 数据库具备更高的 ROI。

除此之外,多维数据库中存储了易于业务用户了解的维度和度量信息。无论业务用户,还是数据分析师,都可能通过对立语义层自助地找到任何想要的数据。与此同时,数据工程师能够轻松地治理数据湖,将热门数据模型疾速辨认为最有价值的数据。

3. Kyligence 智能多维数据库

Kyligence 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。Apache Kylin 是开源 OLAP 的领导者,是第一个由中国团队奉献到 Apache 软件基金会(ASF)的顶级开源我的项目,已被寰球超过 1500 多家公司作为外围大数据分析平台应用,点击「浏览原文」即可理解更多 Kyligence 客户案例。

Kyligence 通过 AI 加强引擎从外围业务查问中辨认要害特色和模式,并主动构建和治理分布式数据集市,为业务提供更牢靠的指标体系,进一步缩短数据湖开发流程,开释业务自助剖析后劲。Kyligence 的对立 SQL 接口及服务,可能在云端对象存储(如 AWS S3、Azure ADLS 等)、多维立方体(OLAP Cube)、高速索引及底层数据源上进行智能路由,为下层剖析利用提供老本最优的高性能查问能力,以撑持商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景。

参考资料:

[1] An Introduction to Multidimensional Database Technology (fing.edu.uy)

[2] Multidimensional analysis – Wikipedia

对于 Kyligence

上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 加强的高性能剖析引擎、对立 SQL 服务接口、业务语义层等性能,Kyligence 提供老本最优的多维数据分析能力,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发等行业客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等寰球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成寰球合作伙伴关系。目前公司曾经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

正文完
 0