乐趣区

关于大数据:QCon-回顾-Data-Fabric逻辑统一物理分散

Data Fabric(数据编织),自 2019 年开始就在 Gartner 年度技术趋势榜单上安家,并在 2022 年被列为数据分析畛域十大技术趋势之首,它到底有哪些价值?又如何在企业落地?

在近日举办的寰球软件开发大会 QCon 广州站上,网易数帆大数据产品技术负责人郭忆做了题为《基于 Data Fabric 的逻辑数据湖架构实际》的分享,介绍了 Data Fabric 的最新实际。

Data Fabric:益处与误区

Data Fabric,Gartner 将其定义为一种设计理念——构建一个数据和连贯过程的集成层(Fabric),以反对数据系统跨平台的设计、部署和应用,实现灵便的数据交付。网易数帆在 Data Fabric 方向上,进行了落地实际,咱们将其称之为逻辑数据湖,网易数帆认为,这个集成层就是跨平台的逻辑模型,咱们认为通过逻辑模型,能够帮忙业务人员屏蔽底层简单的数据架构,业务人员在逻辑模型层之上,只须要抉择数据汇合,即可达到开箱即用的目标。从后果来看,无论数据存储在何处,这种架构模式都能够帮忙企业低成本、及时地取得正确的数据,并且实现数据端到端的治理。郭忆总结了 Data Fabric 的两大关键词:逻辑对立、物理扩散——这也是网易数帆逻辑数据湖实际的指导思想。

Data Fabric 的益处不言而喻。郭忆介绍道,首先,它能够帮忙咱们节俭 70% 的工作量,包含在数据发现、数据分析以及数据开发工作;其次,能够帮忙咱们的业务人员更疾速的应用数据进行商业剖析,不须要所有的数据只有入湖能力进行剖析;再次,它在业务人员和数据团队之间构建了一个对立的界面,也就是逻辑模型层,让数据团队和业务团队之间的合作更加高效;此外,它反对业务人员能够自助实现数据的生产,使得数据应用的范畴大幅度扩充。

实现这些成果,Data Fabric 天然须要一系列欠缺的外围能力,贯通数据源到数据生产。

有了真香的 Data Fabric,是否意味着企业之前消耗大量精力与资源建设的数据湖、数据仓库就没用了?并非如此!

联合网易数帆的实践经验,郭忆给出了 4 点揭示:首先,Data Fabric 并不是真的要去湖或者去仓,而是构建一个去中心化的数据拜访层,湖或者仓能够作为其中的一个数据源存在。其次,在数据量大的状况下,Data Fabric 会有性能问题,咱们能够按需将数据固化到湖或者仓中,Data Fabric 并不是肯定要间接去拜访数据源。再次,Data Fabric 只是提供了一种更丰盛的数据拜访界面,既能够间接去拜访数据源,也能够通过固化的形式,提供更加高效的拜访。还有很重要的一点,Data Fabric 并不是要去除 ETL,恰恰相反,DataOps 和数据治理是 Data Fabric 根底。

网易数帆逻辑数据湖:元数据管理是要害

逻辑数据湖是网易数帆落地 Data Fabric 的技术计划。驱动网易数帆研发逻辑数据湖的因素,是撑持网易业务时面临的简单数据架构、数据分析效率问题、数据部门成为瓶颈以及资源利旧的问题。郭忆分享了网易数帆的逻辑数据湖架构,包含数据源治理、数据目录、元数据管理、DataOps 全生命周期开发、数据模型层、物化视图等重要模块,笼罩数据的管、算、用。

其中元数据管理是连贯不同数据源实现 Data Fabric 的要害。网易数帆逻辑数据湖通过流程引擎、指标零碎、平安核心、数据地图、数据规范、模型设计核心和数据品质核心等七大组件来撑持元数据管理,并严格定义了湖外和湖内元数据公布的外围流程,以前述组件确保这些流程得以执行。

客户实践证明了网易数帆逻辑数据湖架构的价值。以一家大型企业客户为例,客户引入逻辑数据湖构建一站式开发经营模式,以中台粗放数据开发推动数据作业五对立:对立逻辑入湖、对立开发、对立调度、对立治理、对立服务,晋升数据交付效率和共享能力,从而取得多方面的收益。从平台能力来看,客户胜利引入了成熟的数据中台产品,以及配套相干的治理标准。从数据工作模式来看,逻辑数据湖让业务人员由需求者成为生产者,让数据开发人员没有难找的数据。

经营指标的实现,首先是开发效率晋升,报表开发效率晋升 50%,可视化数据利用页面开发效率晋升 1 倍;其次是数据自助剖析能力,自助模式占各部门所有取数剖析工作的比例到 30%,并造就 200 个自助剖析的业务人员;而长期经营指标方面,客户通过数据中台能力晋升,割接本地网部署的数据集市和数据平台,扭转省内以后 1+N 的模式,进一步晋升作业效率和数据安全。

小结

企业数字化转型的外围指标是降本增效,数据价值的施展是至关重要,Data Fabric 提供了一种低成本的形式反对企业平滑、疾速地落实这一指标,逻辑数据湖则是一种验证卓有成效的落地计划。逻辑数据湖也使得网易数帆数据技术栈可能灵便地与不同行业不同企业的数据架构格格不入,帮忙客户实现数据存储到生产力的转换,满足数据驱动业务翻新的需要。

退出移动版