关于oushudb-hawq:OushuDB-小课堂丨通过数据网格和数据治理进行创新

40次阅读

共计 2610 个字符,预计需要花费 7 分钟才能阅读完成。

大型组织心愿创立一个灵便的环境,以依据新的数据洞察力进行翻新和疾速响应。但与此同时,这些企业想要一些好的构造 数据品质,适宜生产的数据,简化和减速数据拜访。应用数据网格,这是一种扩散的数据架构(收集、集成和剖析来自断开连接的零碎的数据),具备联结 数据治理(专一于合乎隐衷要求的启用和拜访)合乎指标。本文将解释数据网格和数据治理如何穿插并摸索各自的劣势。

数据网格:一种去中心化的架构
去中心化架构形成了数据网格的外围。核心节点(下面的蓝色框)代表将数据提供给其余公司部门的域。将核心节点视为围绕特定上下文应用硬件设施或软件服务组合的业务知识畛域。例如,人力资源 (HR) 可能有一个核心,而财务有不同的核心。

辐条连贯网络中的核心节点,通过中心点疏导数据流量进出节点,因而数据能够在多个网络中疾速流动。例如,通过分支,HR 能够同时连贯到各个部门,如财务、客户反对或任何其余部门。

链接、物理电缆或电线,或软件连贯编织在辐条之间。因而,HR 可能仅将其数据链接到财务,而没有连贯其余畛域。

数据网格形容了核心、辐条和链路模型,路由数据 通过辐条和多个链接在核心节点之间。这些链接提供了灵活性的数据网格选项。比方 HR 的 spoke 坏了,然而 finance 的连贯很好,那么 finance 能够持续拿到 hr 的数据。

一个组织中的数据网格看起来与其余组织中的十分不同。建设取决于个别业务的须要。

为什么公司抉择数据网格架构?
企业抉择一个 数据网格 克服“集中和繁多”数据平台的局限性,正如 扎马克·德哈尼,Thoughtworks 新兴技术总监。

像这样的技术 数据湖 仓库试图将所有数据整合到一个中央,但企业会发现数据卡在那里。

一家公司可能只有一个集中式数据存储库——通常是 IT 等团队——为公司中的其余所有人提供数据。因为瓶颈,这会减慢数据访问速度。例如,财务部门的数据拜访申请曾经花了几天工夫才取得 HR 隐衷批准,而后可能会在 IT 部门的一两个人的收件箱中再寄存几天。

相同,数据网格将数据控制权交给为该数据提供服务的每个域。域中的主题专家 (SME) 管制这些数据的组织、治理和交付形式。

通过域数据管理产生的灵便的联结技术使组织 三大外围劣势:

简略性:整个组织的用户都能够自助拜访他们须要的数据。他们能够即时查找数据并与之交互 独立地,无需通过部门看门人。
可扩展性:数据网格将数据分布在不同的组织域中,以便他们能够管制该数据。如果外围业务心愿扩充或缩减其业务部门,它能够在持续提供对其余畛域的拜访的同时疾速实现。
牢靠的近程连贯:数据网格连贯和集成来自各种独立零碎的数据。如果链路或分支呈现故障,其灵便的网络能够从新路由数据申请。

独自应用数据网格的毛病
没有任何数据治理的数据网格面临两个毛病:

复杂性:尽管用户能够从任何域疾速获取数据,但从多个域获取数据会变得相当简单。用户发现每个人或团队都有一个独特的零碎或流程来容许拜访他们的数据。

例如,HR 可能要求用户应用 JavaScript 查问数据,而财务只响应在 Visual Basic 中造成的数据查问。

设想一下,如果散布在整个企业中的每个部门都有一组特定的编程语言或流程来获取数据。而后,通过将所有这些信息拼凑在一起来取得组合数据集,一个部门会很头疼。

低性能:因为每个域都能够通过网格惟一地传输其数据,因而组合来自多个域的数据可能须要工夫。查问此数据将 受到与特定域的最慢连贯的限度。

此外,集体或团队面临平缓的技术学习曲线,以使他们的畛域数据在他们的业务中可用。除非有人对组织的去中心化架构有深厚的专业知识,否则用户须要花工夫弄清楚如何无效地取得组合数据集。数据网格的复杂性和低性能问题凸显了组织一致性的不足。

用数据产品的心态对立公司
为了解决复杂性和低性能问题,领有数据网格的组织应该采纳 数据产品心态。在这种办法中,每个域都表演外部供应商的角色,负责它在网格中提供的精密数据,以及该服务如何满足其客户、其余业务部门或内部客户的需要。

因而,每个畛域都定义了它的数据产品的作用、其余畛域须要它的起因以及它的要害性能。而后,与域关联的团队或集体在外部数据市场中推广这些数据产品,确定何时公布它们,并反对其客户(其余域成员)。

域能够依据其生成的数据提供一种或多种产品,并安顿公布产品的工夫。联合外部数据产品形成内部客户从公司购买的商品或服务的根底。

畛域调整他们的产品以更好地适应整个组织或放弃。衰弱的文化为多个畛域寻找技术和零碎共性以经济地开发其产品奠定了根底。

应用联结数据治理模型领导域
数据治理的作用是领导整个组织的数据产品创立和应用。如果没有数据治理,公司可能会因政治、复杂性减少和绩效降落而放缓。

例如,一组须要 JavaScript 编程语言进行数据拜访,而另一组则须要 Ruby。其余畛域想要简化和标准化,但必须就应用何种编程语言达成统一。联结数据治理均衡了组织的数据市场,帮忙公司通过其数据产品实现经营指标。

在联结模型中,业务建设了一个“实际社区”或数据架构师协会。该行会在每个畛域至多蕴含一名代表,他们共同努力就规范达成统一,并举荐将其利用于数据产品的地位。

通常,外围小组或卓越核心 (CoE) 会主持围绕规范的探讨,并在呈现抵触时染指。该公会在高层次上设计需要,以便整个公司的用户发现不同的数据产品能够互操作。

运行良好的联结数据治理框架执行以下操作:

通过简化所有权来驯服复杂性:联结数据治理使领有数据产品的集体或团队负责。此外,数据治理廓清了域之间的个别主题边界,使谁监督什么信息变得更加明确。
通过缩小反复来缩小提早:随着数据架构师协会走到一起,他们对不同畛域创立的其余数据产品有了更深刻的理解。因而,他们更有可能采纳其余团队的工具或流程,而不是创立本人的工具或流程。
因而,这种数据治理能够防止从新创造轮子,并进步整个公司拜访数据的效率。团队能够更好地理解他们的数据产品给组织带来了什么,并且能够更轻松地浏览和应用其余团队开发的产品。

论断
具备联结数据治理的数据网格均衡了专业知识、灵活性和速度,以及不同畛域之间的数据产品互操作性。应用数据网格,对其主题最理解的人负责他们的数据。

今后,组织将持续 面临挑战 提供良好的联结数据治理以通过数据网格拜访数据。随着公司通过裁员、重新分配或雇用员工来适应稳定的经济,数据所有权变得辣手。然而,如果公司牢记其数据网格和联结数据治理之间的均衡,他们将更容易克服这些艰难并蓬勃发展。

更多内容请关注 OushuDB 小课堂

正文完
 0