组织多年来的一贯做法是将所有数据整合到繁多地位,例如数据仓库或近年来衰亡的数据湖。然而,集中式数据基础架构的一些弊病已初现端倪:
- 集中式数据团队对数据的理解水平无奈与只专一于全副数据中特定局部的具体业务团队等量齐观。
- 集中式数据基础架构不足灵活性,难以满足组织内所有不同部门的需要。
- 集中多个数据源的数据不仅会消耗大量工夫,而且还会导致数据使用者无奈按需拜访数据。
为了克服这些问题,技术顾问 Zhamak Dehghani 提议采纳一种名为“数据网格”的分散式数据基础架构。
在数据网格配置中,组织内的不同部门或群组将领有独自的“数据域”,由地方自助式数据平台提供反对,并依照一套总体规范进行治理,以确保互操作性。每个数据域都将提供“数据产品”,设计上不便指标受众应用,且合乎组织全局规范。
值得一提的是,只管所有权扩散,但预配和治理放弃集中。此架构具备直观意义,并无望克服齐全集中式基础架构的局限性,但组织如何在取得地方数据平台反对与放弃域的独立性之间实现一种奥妙的均衡呢?
进入数据虚拟化
Denodo 数据虚拟化作为一种数据集成技术,堪称实现数据网格的完满抉择。与提取、转换和加载 (ETL) 流程以及其余面向批处理的数据集成办法不同,数据虚拟化让数据使用者无需先将数据复制到集中式存储库即可拜访数据。因而,数据虚拟化在实质上能够被视为一种“分散式”数据集成策略。
数据虚拟化是一个建设在组织内不同数据源之上的企业范畴的层。要在不同数据源之间进行查问时,数据使用者只需查问数据虚拟化层,而后该层便会检索所需数据,让使用者不用受困于拜访的复杂性。
图片
图片
数据虚拟化层不含理论数据; 但其存储了拜访各种数据源所需的所有元数据。数据虚拟化提供繁多地位来存储元数据,反对组织从繁多控制点,在整个组织范畴内主动实现基于角色的安全性和执行数据治理协定。例如,组织能够主动脱敏解决薪资数据,用户必须领有必要凭据才可查看此类信息。
数据虚拟化层提供数据网格架构中所需的“自助式数据平台”的所有必要性能。组织可在数据虚拟化层之上施行多个语义层,由不同部门架构,并作为半自治数据域运行。每一个语义层都能够灵便地调整、更改或移除,而不会扭转或影响底层数据。此外,组织能够轻松地建设反对跨域重用的规范数据定义。
数据虚拟化和数据产品
数据虚拟化齐全实用于数据产品开发。即便编码能力无限,利益相关者也可利用数据虚拟化层创立虚构模型,无需理解为之馈送信息的数据源的复杂性。随后,他们能够利用一系列灵便的办法(例如 SQL、REST、OData、GraphQL 或 MDX),使这些虚构模型作为数据产品被拜访,此过程同样不须要编写代码。
“开箱即用”型数据虚拟化设置的初衷是为数据产品提供反对,使其兼容数据因循跟踪、自主记录、变更影响剖析、身份治理和单点登录 (SSO) 等性能。
此外,数据虚拟化还反对在组织范畴内的数据产品目录中注册数据产品。通过集中存储元数据,数据虚拟化层可向组织中按域有序排列的数据资产提供全功能综合目录的所有必要成分。
数据虚拟化和数据域自治
数据虚拟化使组织可能在不影响底层数据的状况下,在源数据之上构建视图和语义模型,因而,数据虚拟化为数据域自治提供了现成的根底。
在基于数据虚拟化的架构中,数据域利益相关者将可能抉择为其产品馈送数据的数据源,并依据须要更改这一组合。许多业务部门曾经在经营本人的数据集市和满足偏好的 SaaS 应用程序,并且在数据网格配置中重用这些内容大海捞针。数据域能够通过数据虚拟化独立扩大。
请务必留神,数据虚拟化不能取代数据仓库和数据湖等单体存储库; 数据虚拟化解决此类存储库的形式与任何其余数据源雷同,在数据网格配置中,它们将成为网格中的节点。这意味着与现有数据仓库或数据湖分割严密的数据域能够持续通过这种形式为某些数据产品提供服务,例如须要机器学习的数据产品。在这种状况下,数据产品仍将通过虚构层被拜访,治理数据产品的协定也与治理数据网格其余部分的协定雷同。
编织网格
数据网格能够避开高度集中型数据基础架构的许多陷阱,是一种前景广大的新架构。侥幸的是,数据虚拟化作为一种古代数据集成和数据管理技术,无望以一种简单明了的形式落实数据网格理念,而无需更换旧硬件。