关于大数据处理:字节跳动一站式数据治理解决方案及平台架构

3次阅读

共计 6303 个字符,预计需要花费 16 分钟才能阅读完成。

“一站式数据治理解决方案及平台架构”的分享会分为四个局部开展:

首先,明确数据治理的概念,从平台视角登程,介绍在字节跳动外部数据治理所服务的指标
其次,介绍字节跳动外部数据治理的现状与咱们须要解决的问题
第三,介绍以后咱们的解决方案
最初分享一站式数据治理的平台架构

数据治理的概念

数据治理是一种数据管理的概念,确保组织能在数据的全生命周期中具备高质量的数据品质能力,并且实现对数据的齐全治理,以反对业务的指标。

在这外面有些关键词:在一些组织、一些公司外部关注的是数据全生命周期,心愿它有一个较高的品质,指标则是用来反对业务。

所以数据治理的指标次要由以下几点形成:
第一,最大化数据价值。
第二,治理数据的危险。
第三,升高数据的老本。

数据治理是一个比拟大的概念。它包含政策、规定、组织构造、治理过程,以及一些技术的反对。畛域包含数据品质、数据老本、数据可用性以及数据安全等方面。

所以,在影响数据治理打算的驱动因素是多样的,比如说数据法规、隐衷政策的限度,数据品质参差不齐、数据治理老本高,或者是资源受限等等。此外,治理施行的形式和范畴也不同,比方:有可能是由对立的组织,诸如数据治理委员会在整个企业或者公司的范畴内发动一些治理指标与打算,来推动整个组织的数据治理;也可能是在一些部门、团队外部去进行无限范畴内的治理。数据治理打算的指标实现必须得用适当的工具来解决,数据治理的形式也越来越偏向于朝着系统化和工具化的方向来倒退。

字节跳动数据治理背景

在字节跳动外部,作为对立的数据治理平台方,咱们的指标是:“建设一站式、全链路的数据治理解决方案平台”,治理平台肩负了四个使命:

第一,让数据价值最大化。这外面包含全生命周期数据品质的保障,既要做到高价值,又能实现低成本。
第二,提供全链路解决方案。数据治理在理论过程中会由多个不同角色独特参加,包含了管理者视角和执行者视角。咱们心愿不同的角色在咱们的平台里,都可能使用一些工具、伎俩来推动治理的执行。
第三,工具和方法论的联合。字节跳动外部数据治理平台的建设是以方法论来疏导建设,心愿工具可能提供十分齐备的治理能力。
第四,提供增强型的治理能力。在零碎的能力上能够被动发现一些隐患问题,做一些举荐或者倡议的策略来晋升治理效率。

在字节外部,不同角色对数据治理的视角不同。比方,管理者或者是责任者的视角,他们可能会思考如何去制订一些治理的指标,如何可能让组织、团队来去实现这些治理的指标;他们可能会关注于这个指标什么时候可能实现、进度如何;他们也会思考,当他们真得去做了这些治理之后,些数据或者资产是否可能继续衰弱。

而从执行者的视角上,则要思考有数据治理指标下达之后,我该如何去做;我本人有哪些资产,资产有什么问题;我去做治理的时候,怎么样可能进步治理效率;我能不能及时发现数据资产的问题,并疾速治理。

数据治理流程链路

因而在整个数据治理的流程中,遵循如下几个步骤:

第一:我有什么?比方我的计算工作,资产的存储,品质的一些规定,SLA 的承诺或者一些异样报警,哪些是属于我的。
第二,清晰通晓治理指标。要晓得我要去治理什么,从哪些开始下手,哪些资产是有问题的,我的一些规定是否是设置的正当的。
第三,怎么治理。比方在面临一个具体的治理问题,他人是如何治理的,他们是不是有一些相干的教训能够借鉴;在具体的施行过程里,如何去提效治理。
第四,掂量治理成果。也就是咱们的治理是否达到了一些指标,或者取得了哪些收益。
最初,总结与复盘。做完了整个治理链路流程之后的总结,如经验总结、问题演绎等等。

数据治理解决方案

基于上述是数据治理流程链路中波及到的方方面面,在平台侧咱们是如何解决每个流程中对应的问题呢?整体从思路上,划分为三个维度:

一站式


在建设一站式解决方案里,咱们细分了三层。
第一层:视图层。这个视图层就是来满足咱们可能晓得,咱们有哪些资产,咱们有什么,咱们的指标是什么,该怎么制订,这个咱们称之为治理全景层。
第二层:计划层。也就是真正施行去推动这个治理过程的这一层。在这一层外面咱们提出了两种治理的门路,一种是主动式的布局门路,另二种是零碎发现式的门路。

零碎布局式门路:符合于从上而下的视角来去满足于治理的指标,针对它做一些布局,做了一些布局之后对相应的资产进行诊断。诊断之后诊断出资产的问题来进行相应的一些问题推动执行,最初到一些收益的统计和总结。这是一个被动布局的局部。

零碎发现式门路:零碎发现这个门路其实次要解决的是,我怎么可能日常的去将我这些资产或者治理问题,可能继续的进行。日常化治理而不是一个静止式治理形式。这个是基于咱们平台外面的一些全局规定来定义,通过零碎来去订阅,定期在零碎外面去进行运行扫描,发现一些资产的问题,通过一些音讯的形式推送到这些资产的责任人,进行一些比如说根因的注销,问题的注销,事变的复盘,最初进行一些总结和教训的共享等等;

第三层:工具能力层。即为了满足于下面的视图层和计划层,咱们在工具侧提供的一些能力,包含一些垂直的治理场景和品质,平安老本,稳定性,报警起夜等等方面。还有一些根底服务来撑持这些咱们工具的建设。比方咱们会抽出一些音讯的核心,云数据的核心,规定引擎或者数据服务等等。

上述是咱们一站式的思路。

全链路


全链路是指咱们心愿治理可能达到一个闭环的状态。
在整个链路外面,可能针对于不同的角色,会有一些不同的应用形式,或者是一些运行形式。在整个的门路外面会有从资产的视图来看咱们有哪些货色。在这些资产视图根底之下来定一些指标和布局。比如说有些内部驱动的指标,业务驱动的一些指标或者是一些合规或者是政策类的指标等等,来制订咱们治理的指标。

针对这些指标,咱们去做一些计划的制订。

举个例子,比方去做一些存储资产的升高,可能通过一些规定来去圈选进去资产有问题的局部。之后推动这个治理的施行,可能在一些治理决策者或者一些团队的负责人方面,他可能会去进行一些拉群的督办,或者是一些定时的订阅揭示等等。在推动治理计划过程中,还心愿资产的责任人,也就是治理的实施者在咱们这个平台工具外面可能具体去施行治理的动作,如一些基于 SLA 的申报、参数的优化、存储规定的设置、规定的调优等等。

进行了一系列治理之后,咱们必定要有一个验收的环节,可能会是一个整体指标的验收,业务是否达标了,指标是否正当,最初进行一些教训的总结,这个是全链路的局部。

当然在全链路外面也包含了方才所说的这种零碎式、扫描式的门路。这个也是通过一些规定的制订,在零碎外面去发动规定的定义和订阅。通过零碎的扫描去发现一些问题,发现问题之后通过一些施行的治理,可能再反哺到咱们具体的一些规定的制订下面去。比如说更进一步配置一些监控规定,来预防治理的一些问题。

这个是全链路的局部。

全规定


全规定指标是提供比拟齐备的治理规定能力,可能服务于方才所说的这种布局式资产组合与响应式资产扫描。这个是在平台的能力齐备性方面的一些思考。目前咱们提供了存储计算、品质报警等四个维度,当初有数十个这种治理的规定可供任意的圈选和组合。其中包含一些全局的规定和自定义的规定。

比方全局规定,比方近 7 天的产出为空的工作,是否有暴力扫描的工作。或者是一些定义,比方生命周期能够任意抉择一个时间段来去进行扫描或者近 xxx 天工作为空,把这些工作圈选进去,这些是自定义的局部。

同时还有一些统计类和开掘类。统计类就是基于数据建设对元数据的利用和加工。举个例子,比方近 90 天无拜访表,或者是数据歪斜工作的圈选。开掘类其实是在元数据的根底上进行一些更深层次的开掘,去找到一些数据的问题,比方类似的库表,类似的工作等。

一站式数据治理平台架构

下面介绍了咱们应答数据治理的解决方案,包含全规定、全链路和一站式。接下来,介绍具体的平台架构。

整体架构

首先在整体的架构局部,这是治理平台内整体的架构图。

其中灰色的局部是在平台透出给用户的产品能力,包含治理全景。治理全景对应于方才在一站式的视图层可能通知用户,有哪些资产,这些资产的状况是怎么样的。而后是治理的工作台。工作台的局部是针对于治理的实施者,他可能疾速定位或者跳跃到相干一些治理的计划和平台去进行治理。这个是一些包含待办项和这些资产的剖析等等。之后是一些诊断布局的局部。也就是服务于主动式布局这条门路的一个模块。它会对咱们这些资产进行一些规定式的组合,来进行一个最终的诊断。还有一些资源的优化,报警与订阅和 SLA 保障等几个垂直类的治理场景。最初有一个复盘治理局部,是做经验总结和积淀的一个模块,以零碎的形式进行记录。

两头的局部是基于全规定的思维,将存储规定、计算规定、品质规定和报警规定,出现在平台里,让用户来进行自在圈选,达到灵便、全面的目标。

上面绿色层是零碎组件层面的一些形象服务,咱们会针对数据治理的典型场景,在底层的根底设计上做一些形象,达到灵便适新的规定或者治理场景的目标。

元数据建设

在数据治理外面,咱们认为元数据其实是治理的外围,治理其实是须要元数据来去驱动的。在咱们治理工作外面,元数据建设治理次要有以下五个方面:

第一,元数据的采集。咱们会采集底层组件架构的一些数据,yarn 队列,Hive、Spark、Flink 等各种组件的数据,以及一些平台级的元数据采集,包含调度零碎,数据地图、血统、权限、工作、存储、数据利用等平台的一些元数据,在采集之后,会进行一些系统化的加工,咱们遵循于数据仓的层级标准的建设来晋升数据的应用性。同时,在加工的过程中也齐全遵循于数据治理理念保障数据都是高质牢靠。

第二,元数据利用。在元数据利用局部咱们会通过元数据仓库为根底,给上游的产品平台提供更多利用的能力反对。

第三,剖析局部。咱们会制订很多业务的外围指标和一些外部指标,通过一些治理场景用户的行为剖析来挖掘一些潜在的数据问题。另外就是会在各个维度去建设各类剖析看板。

第四,开掘局部。这个是在数据上更高一层的利用,咱们会推动一些开掘算法和机制,去发现一些可治理的问题,比方咱们可能会对于一些数据资产的相似性进行开掘。基于历史数据对将来的一些预测,比如说一些数据表行数的不动值预测,一些提效的举荐类开掘。

最初是元数据的凋谢局部。咱们会和字节跳动外部各个数据团队来去单干共建按需凋谢,提供元数据能力。

产品模块

上面介绍平台侧的产品模块,同样也能够在火山引擎 DataLeap 产品中看到。

第一、治理全景。解决有哪些资产问题。目前在平台上有一些大盘,包含数据的 SLA 大盘、存储大盘、计算大盘、报警大盘等等,这些大盘针对于不同的治理场景会有一些不同维度的展现,包含一些数据趋势,一些占比列表,或者是一些聚合明细等数据。撑持治理全景的是咱们底层的元数据仓库以及方才说的数据利用的局部,对数据进行一些加工。

第二、衰弱分。咱们心愿衰弱分可能掂量资产的衰弱度,让资产继续衰弱。在衰弱分的建设外面,咱们遵循几个步骤。第一是首先在衰弱分的建设外面,通过元数据仓库提供衰弱分的各维度的剖析建设,包含一些成员排名。第二个局部是有了这些衰弱分之后提供更多的维度剖析,以及扣分项剖析,老本剖析,可能将衰弱分拆解,拆分成可治理的这样的我的项目,有了这些可治理的我的项目之后,具体关联到一些数据治理的操作和计划的设计。比方,咱们能够针对于一些衰弱分的扣分项,来跳转到一些垂直治理的场景界面来去进行一些操作设置或者是做一些布局式治理计划的关联。这个是衰弱分的一些思路。

在衰弱分的设计方面,咱们遵循了一个三层架构的思路。首先第一层是比拟大宏观的资产层。包含存储的衰弱分,计算衰弱分,数据品质等等。第二层是针对于这一类自办的一些聚合类指标,包含比如说存储衰弱分外面的有效数据,或者是高效存储的问题。计算衰弱分外面有效工作和高效计算的问题。数据品质方面的 SLA 或者是监控保障的问题。最初一层是比拟具体的规定层。包含存储外面 TTL 设置,或者是无查问的一些资产。比如说计算外面的间断失败工作或者是资源利用率比拟低的一些工作。数据品质外面的一些 SLA 的事变数或者是一些监控的缺失、有效报警等等。

在有了资产全景和看板之后,咱们其实能够进行一些治理操作,对应于一站式外面的第二层治理操作的局部。后面介绍到咱们其实有两种门路,第一类是布局类的门路,可能是从一个比拟高的视角来去拆解治理的问题。这个门路外面,咱们是要指标明确,过程可拆解,收益可量化,后果可验收。

零碎设计

最初咱们来说一下零碎是如何来撑持布局式的架构呢?

  • 布局式架构:

在底层的基础架构设计方面次要有几个模块。

首先在后端是一个主逻辑的操作局部,包含了方才所说的规定,治理规定、治理域,一些圈选的能力,资产的查问和收益的统计,治理指标的制订,治理后果的查看,治理的催办和具体的治理操作。

撑持于后端逻辑的局部,有几个形象的服务模块。第一个模块是数据查问服务,次要解决的一个问题是底层不同存储异构的适配。将这些原数据通过一些下层利用的加工,放到不同利用的存储外面来适应不同的查问类型。通过这个服务来进行一些解耦。这个服务外面数据的起源就是事件的收集服务,咱们会做一些格局的转换,音讯的解决,包含一些底层组件的关联和零碎回调和数据采集等等。

同时与这个服务有关联的就是治理具体实施的模块,这个和零碎外面治理的操作无关。

举个例子,比方进行一些表的生命周期设置,或者是删除表等等操作。这些操作都会以音讯的模式,经由执行模块去进行一些工作的下发和底层的组件进行调用。通过一些状态来把治理是否失去一些收益,音讯是否胜利,也由方才的事件收集服务来放到查问服务外面,造成收益可查问的数据。

最初在治理规定和治理域的局部,提供了全规定能力,这部分咱们提供了一些规定引擎的服务,包含对规定进行一些解析、查问转换,查问提交以及后果汇总,这个是底层架构对于上述性能的一些反对。

  • 响应式架构:

接下来是响应式的流程,这个和主动式的流程十分像。包含音讯触发,问题剖析,推动治理,问题注销,总结复盘等等流程。响应式流程的框架和布局其实也是十分像。

次要有几个不同的局部。第一是左侧有个音讯服务,因为咱们这个门路其实是以音讯来处发的,咱们会买通与研发平台,品质平台,天然平台等很多处发消息和报警的一些平台,将他们的音讯和报警对立收归到咱们这个服务外面进行下发。下发的渠道能够有,比如说字节跳动用的飞书,或者邮件、电话、短信等等。这些音讯造成的一些数据也会经由数据的收集放到查问服务外面,去做一些报警的展现。另外在音讯这里,咱们会和复盘模块进行强关联,对问题进行注销核准复盘。

最初是工作台,次要为了提效,解决待治理项,比如说当初有一些待治理的局部须要去解决,可能尽快去发动这个治理或者说我集体的一些资产状况,这个是工作台的核心思想。

治理场景的局部次要有品质、数据 SLA、资源和报警的局部。

在资源优化场景上的指标次要是可能提供自主剖析和低门槛优化能力。

当初次要集中在存储和计算两个方面,并提供了很多的垂直治理的能力。比方,能够在平台外面间接设置一些这种温存、降正本、TTL 设置。计算方面,能够间接跳转工作详情做剖析,工作下线和参数调整倡议等等。

最初也谈谈咱们的将来工作瞻望,如图所示:

第一个方面是继续加强我工具闭环能力。第二个方面是从通用数据治理的问题解决到更精细化的一些治理,包含自定义的指标、计划,以业务的视角来对待理论的问题。最初是增强型的数据治理,咱们心愿是可能在数据侧通过一些统计类、开掘类,回升为一些算法和智能型的这种平台。

立刻跳转 [[火山引擎大数据研发治理套件 DataLeap 官网]](https://www.volcengine.com/pr…) 理解详情!

正文完
 0