关于数据:怎么理解数据网格Data-Mesh

42次阅读

共计 2070 个字符,预计需要花费 6 分钟才能阅读完成。

​数据网格是一种架构模式,用于在大型简单组织中实现企业数据平台。它有助于扩大剖析的采纳范畴,使其超过单个平台和单个施行团队

—— 01 ——

背景

对剖析的需要并不陈腐。组织总是须要剖析业务绩效,自从引入计算机以来,就始终应用计算机来剖析业务绩效。大概在 20 世纪 80 年代,组织开始通过应用专门用于决策反对的数据库来构建数据仓库解决方案。这些解决方案长期以来为组织提供了良好的服务。

然而,随着业务的变动以及生成的数据越来越多样化,应用关系数据库的数据仓库解决方案可能并不总是最佳解决方案。在 2000 年代,大数据作为一个通用术语被引入。疾速采纳了新的解决方案,能够剖析以极高速度生成的大量不同数据。这包含数据湖和剖析大量数据的横向扩大解决方案等技术。

近年来,许多组织胜利地应用了古代体系结构和剖析模式,这些模式将数据仓库技术和最新的大数据技术相结合。

然而,一些组织在应用此模式部署剖析解决方案时会遇到问题。这些解决方案通常仍作为整体解决方案施行,其中一个团队是平台提供商,另一个团队是进行数据集成的团队。从团队设置的角度来看,这实用于较小的组织和高度集中的组织。然而,仅应用一个团队通常会在大型组织中造成瓶颈。这一瓶颈导致了大量积压工作,组织中的一些部门不得不期待数据集成服务和剖析解决方案。

随着组织采纳古代数据迷信解决方案,这种模式变得越来越广泛。与过来的传统商业智能解决方案相比,许多数据迷信解决方案须要更多的数据。

最近转向应用微服务作为利用程序开发模式是围绕数据集成的长期积压的另一个驱动因素,因为它减少了数据源的数量。

在大型组织中,让一个团队在一个平台上解决所有数据摄取也可能会有问题。一个团队很少有针对每个数据源的专家。从业务角度来看,大多数组织都是扩散和散布的。不同的业务部门和部门解决不同的操作局部,因而数据专家通常散布在各个部门。

为了解决这些问题,几年前引入了一种称为数据网格的新体系结构模式。Data mesh 的指标是让分布式团队以扩散和灵便的形式解决和共享信息。

数据网格是一种技术模式,也须要组织变革。数据网格办法的益处是通过施行公布和应用数据产品的多学科团队来实现的。

以下概念是了解数据网格体系结构的根底:

—— 02 ——

数据域

数据域是数据网格的根底。数据域的概念来自畛域驱动的开发,这是一种在软件开发中常常用来建模简单软件解决方案的范式。在数据网格中,数据域是定义企业数据四周边界的一种办法。域可能因组织而异,在某些状况下,您能够围绕组织定义域。在其余状况下,您能够抉择基于业务流程或源系统对数据域进行建模。

数据域有三个方面:

  • 您抉择的边界使其成为长期所有权。它们存在了很长一段时间,并确定了所有者。
  • 畛域应该合乎事实,而不仅仅是实践概念。
  • 您的域须要具备原子完整性。如果区域之间没有关系,不要将它们组合在一个域中。

无关数据域以及如何定义它们的更多信息,请参阅什么是数据域?

—— 03 ——

产品数据

数据产品是数据网格的另一个重要组成部分。数据产品旨在将产品思维带入数据世界。为了使您的数据产品获得成功,它须要为指标用户提供长期的业务价值。在数据网格中,数据产品波及数据、代码资产、元数据和相干策略。数据产品能够作为 API、报表、表或数据湖中的数据集交付。

胜利的数据产品必须:

对于本节,如果您将其格局设置为:

可用:您的产品必须有间接数据域之外的用户。

价值:您的产品必须随着工夫的推移放弃价值。如果没有长期价值,就不会胜利。

可行:你的产品必须是可行的。如果你不能真正构建它,那么这个产品就不会胜利。从数据可用性和技术角度来看,您的产品必须是可行的。

数据产品的代码资产包含生成数据产品的代码和交付数据产品的代码。它还包含用于创立产品和产品最终报告的管道。

无关应用数据网格的具体指导,请参阅什么是数据产品

—— 04 ——

自助服务平台

数据网格的外围是有一个平台,容许数据域本人构建数据产品。他们须要可能通过应用与其用户相干的工具和流程来定义其数据产品,而不须要对地方平台或地方平台团队有强烈的依赖性。在数据网格中,您领有开发和治理自主产品的自主团队。

在与理解您的数据的业务用户进行扩散和协调的同时,您还将有多面手在您的平台上工作。因而,您不能将须要专业知识能力操作的业余工具作为基于网格的平台的外围根底

—— 05 ——

联结治理

当您采纳自助式分布式数据平台时,您必须更加器重治理。不足治理会导致跨数据域的竖井和数据反复。联结您的治理,因为理解治理需要的人存在于与域统一的团队和数据所有者中。

要创立联结治理,请围绕平台和数据需要施行自动化策略。应用高度自动化进行测试和监控。采纳代码优先的施行策略,将规范、策略、数据产品和平台部署作为代码解决

—— 06 ——

总结

数据网格是实现企业数据平台的无效办法,但它不是所有组织的最佳解决方案。数据网格须要可能独立工作的自治团队。它在须要将其剖析采纳范畴扩大到单个平台和施行团队之外并领有独立业务部门的大型简单组织中成果最好。

应用数据网格时,在施行治理时要特地小心,免得创立竖井。始终将对数据的产品思考作为施行的外围,以确保胜利。

正文完
 0