关于数据挖掘:星环云原生数据湖为企业精准决策提供全方位技术支撑

83次阅读

共计 2205 个字符,预计需要花费 6 分钟才能阅读完成。

随着数据价值由数据统一化逐步到数据生态化演进,企业对数据平台的需要越来越高,许多企业面临外部数据孤岛等现状,须要全团体对立的、可共享的数据平台,来推动建设对立的数据平台,构建数据驱动业务的数字化转型策略,为企业治理和决策提供数据根底与剖析能力保障,助力企业倒退。

数据湖作为撑持企业数字化转型的数据底座,可能为企业提供数据驱动、精准决策等全方位技术撑持,因而企业级数据湖的建设,是数据价值逐步开释的根底,是企业数字化策略转型的要害。


企业建设数据湖一个重要的指标是,面向企业各个事业部、子公司,建设对立数据湖,用来对立整合企业内、内部各类业务零碎数据,保障企业数据全面性和唯一性,以及对立治理内外部数据资产,造成企业对立数据治理规范及标准,增强数据安全管控及数据安全。

基于 TDC 的数据湖整体计划

一个残缺的数据湖解决方案须要建设在数据接入、数据存储、数据计算、数据利用、数据治理、元数据、数据品质、数据资源目录、数据安全及数据审计等一些列技术之上。市场上的数据湖解决方案少数只具备局部能力,给企业建设数据湖带来阻碍。

基于星环科技数据云平台 Transwarp Data Cloud(TDC)、星环大数据开发工具 Transwarp Data Studio(TDS)等产品的星环数据湖解决方案,可能一站式解决企业从建湖到管湖全副过程,为企业治理和决策提供数据根底与剖析能力保障,助力企业倒退。

在数据入湖阶段,星环科技大数据整合工具 Transporter 负责将扩散于各个中央、各种平台上的各种格局的数据同步或集成到大数据平台上。而星环大数据根底平台 Transwarp Data Hub (TDH)内置 8 种独立的存储引擎,反对业界支流的 10 种存储模型,解决数据湖须要的结构化、非结构化、半结构化数据存储能力。在数据治理、元数据、数据品质、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。

基于 TDC 建设数据湖的基础架构设计

TDC 数据云平台的数据湖基础架构,核心理念是以多租户的模式,承载整整个团体的数据业务。

包含团体级核心数据湖、主题库和数据集市,以及事业部、子公司等独立租户,同时可为任何组织部门按需提供数据沙箱,基于团体数据湖数据进行二次数据摸索和剖析。

TDC 数据湖解决方案在银行的最佳实际

以银行客户为例,某银行须要部署一个数据湖,并须要将公共的数据放在数据湖租户中,用数据湖来承载团体的全副数据,并由团体 IT 部对立治理。容许各子公司、事业部、各个部门有条件应用该数据。

同时,因为银行数据湖业务负载有潮汐差异性,为了更好的响应业务的解决要求,在业务忙碌时,心愿能主动调整配置,以响应业务负载,当业务负载下降时,能及时缩小资源配置,以将资源给其它租户或利用应用,这其中波及计算单元的主动弹性伸缩。此外,该银行的数据量每天会有一定量的减少,须要定时扩容。

根据上述背景,咱们能够将客户的要害需要总结为:

布局多租户,由独立的租户承建数据湖,保证数据湖的隔离性;配置数据湖的主动弹性扩大能力;数据湖计量,为了不便对每个租户进行老本治理或企业外部计算,须要对各个租户应用的资源进行计量和计费。

星环科技数据云平台 TDC 反对不同的操作系统和 CPU 架构,能够采纳图形化的形式部署和配置异构集群。在 TDC 之上,该银行部署数据湖,咱们提供了一套图形化向导形式,一步一步帮忙银行实现各项抉择和配置。

针对该银行的数据湖需要,基于星环数据云平台 TDC 做了如下工作:

为该银行创立两个租户,一个为寄存公共数据的数据湖租户 datalake,一个为应用数据湖数据的租户 marketing;

将租户 datalake 设置为共享租户;

开启租户 datalake 的 TDFS 组件的数据共享;

在租户下 datalake 下部署一个实例 datalake_1,并开启组件 TDFS 的共享;

开启 datalake_1 实例的弹性伸缩性能;

在租户 marketing 下部署一个实例 marketing_1,援用租户 datalake 的 TDFS 组件;

数据湖与多个数据租户是一种协同分层解决方案。TDC 的租户是指一个包含资源、利用和数据的隔离,租户之间互相独立,齐全隔离,同时可能通过平安可控和共享模块的配置,实现资源、数据、利用的跨租户共享。通过共享租户在数据湖中实现数据、平台、工具和模型的对立,通过隔离实现每个部署空间的独立性、安全性。

数据湖租户设置为共享租户,通过将数据存储 TDFS 组件凋谢并共享进去。须要共享的数据、工具、模型都放在一个租户中,设为共享租户,其余租户能够查看或应用该租户共享进去的数据。数据湖的多租户布局即为将数据湖租户设置为共享租户,其余租户建设本人的数据仓库时可查看并抉择该共享组件,这样其余租户即可依赖数据湖租户共享进去的 TDFS,实现数据的共享。

基于星环科技 TDC 建设的数据湖,承载了该银行团体的全副数据,并由团体 IT 部对立治理。容许各子公司、事业部、各个部门有条件应用该数据,实现了数据的集中治理以及平安的共享替换。

目前,星环科技新一代智能数据云平台 Transwarp Data Cloud(TDC)曾经在泛滥行业有成熟的全方位解决方案落地,满足了各种数据处理场景的需要,实现了企业数据与利用的生态化建设。将来星环将在数据云畛域继续深耕,助力企业一直晋升大数据能力,引领企业数字化转型降级浪潮。

正文完
 0