关于数据结构:数据治理实践-网易某业务线的计算资源治理

37次阅读

共计 4508 个字符,预计需要花费 12 分钟才能阅读完成。

本文从计算资源治理实际登程,带大家分明意识计算资源治理到底该如何进行,并如何利用到其余我的项目中。

01 前言

因为数据治理层面能够分多个层面且内容繁多(包含模型合规、数据品质、数据安全、计算 / 存储资源、数据价值等治理内容),因而须要独自拆分为 6 个模块独自去论述其中内容。

笔者作为数仓开发常常会收到大量集群资源满载、工作产出延时等音讯 / 邮件,甚至上游数分及其他同学也会询问工作运行慢的状况,在这里很少数仓同学遇到这类问题第一想到的都是加资源解决,但事实真不肯定是短少资源,而是须要优化以后问题工作。所以本期从团队做计算资源治理视角登程,带大家分明意识计算资源治理到底该如何进行。

02 问题呈现

在做计算治理之前(2022.12)咱们团队盘点了下以后计算资源存在的几个问题:

(1)30+ 高耗费工作:因为数仓前中期业务扩张,要笼罩大量场景利用,存在大量问题代码运行时数据歪斜,在耗费大量集群计算资源下,产出工夫也久;

(2)200w+ 的小文件:当前任务存在未合并小文件、工作 Reduce 数量过多、上游数据源接入(尤其是 API 数据接入)会造成过多小文件呈现,小文件过多会开启更多数据读取,执行会节约大量的资源,重大影响性能;

(3)任务调度安顿不合理:少数工作集中在凌晨 2 - 5 点执行且该区间 CPU 满载,导致该时间段资源耗费成了重灾区,所有外围 / 非核心工作都在争抢资源,局部外围工作不能按时产出始终在期待阶段;

(4)线上有效 DQC(数据品质监控)& 监控配置资源过小:存在局部历史工作没下线表及 DQC 场景,每日都在空跑无意义 DQC 浪费资源,同时 DQC 资源过少导致 DQC 须要运行过长时间;

(5)反复开发工作 / 无用工作:晚期帮助上游做了较多烟囱数据模型,因为种种原因,局部工作不再被应用,烟囱模型扩散加工导致资源复用率升高;

(6)工作短少调优参数 & 局部工作依然应用 MapReduce/Spark2 计算引擎:工作短少调优参数导致资源不能适配及动静调整,甚至线上仍有晚期配置 MapReduce/Spark2 计算引擎导致运行效率较低。

03 思考与口头

3.1 治理前的思考:

在治理之前我想到一个问题,切入点该从哪里开始最合适?

通过与团队屡次脑暴对以后治理优先级 / 改变老本大小 / 难度做了一个排序,咱们先抉择从简略的参数调优 & 工作引擎切换开始 -> 小文件治理 ->DQC 治理 -> 高耗费工作治理 -> 调度安顿 -> 下线无用模型及积淀指标到其余数据资产,同时在初期咱们实现各类元数据接入搭建治理看板以及团队治理产出统计数据模型,并通过网易数帆提供的数据治理平台解决具体细节问题。

数据治理平台截图

3.2 治理口头:

(1)大部分工作切换至 Spark3 计算引擎 & 补充工作调优参数

补充 Spark 调优参数(参数内容详见文末),工作对立应用 Spark3 引擎减速,并充分利用 Spark3 的 AQE 个性及 Z -Order 排序算法个性。

AQE 解释:Spark 社区在 DAG Scheduler 中,新增了一个 API 在反对提交单个 Map 阶段,以及在运行时批改 shuffle 分区数等等,而这些就是 AQE,在 Spark 运行时,每当一个 Shuffle、Map 阶段进行结束,AQE 就会统计这个阶段的信息,并且基于规定进行动静调整并修改还未执行的工作逻辑计算与物理打算(在条件运行的状况下),使得 Spark 程序在接下来的运行过程中失去优化。

Z-Order 解释:Z-Order 是一种能够将多维数据压缩到一维的技术,在时空索引以及图像方面应用较广,比方咱们罕用 order by a,b,c 会面临索引笼罩的问题,Z-Order by a,b,c 成果对每个字段是对等的

(2)小文件治理

在这里咱们应用外部数据治理平台 - 数据治理 360 对存在小文件较多表提供内容展现(实质采集 HDFS 对应门路下文件数的日志去显示)

以后小文件解决:

对于分区较多应用 Spark3 进行动静分区刷新,(Spark3 具备小文件主动合并性能,如未应用 Spark3 可配置 Spark3/Hive 小文件合并参数刷新,参数详见文末),代码如下:

1 set hive.exec.dynamic.partition.mode=nonstrict;
2 insert overwrite table xxx.xxx partition (ds)
3 select column
4 ,ds
5 from xxx.xxx

对于分区较少或未分区的表采纳重建表,补数据办法回刷。

小文件预防:

  • 应用 Spark3 引擎,主动合并小文件
  • 缩小 Reduce 的数量 (能够应用参数进行管制)
  • 用 Distribute By Rand 管制分区中数据量
  • 增加合并小文件参数
  • 将数据源抽取后的表做一个工作(实质也是回刷分区合并小文件工作)去解决小文件保障从数据源开始小文件不向上游流去

(3)DQC 治理

有效 DQC 下线:难点在于须要查找所有 DQC 对应的线上工作,查看该 DQC 工作是否与线上工作一一匹配,从而找到有效 DQC 工作下线,内容繁冗耗时较多。

DQC 资源:因为之前 DQC 配置资源为集群默认参数,效率极低导致所有 DQC 运行时长均超过 10min,从而使得整体工作链路运行时长过久,调整 Driver 内存为 2048M,Executor 个数为 2,Executor 内存为 4096M

(4)高耗费工作调优

这里存在 2 个难点:优化成果不可控、高耗费工作调整到何种水平算适合,针对这个这个难点咱们取所有外围数据资产工作均值,保障单个工作耗费小于均匀耗费,同时咱们针对以后高耗费工作列举出如下可优化的形式:

  • 关联表过多,需拆分
  • 关联时一对多,数据收缩
  • 资源配置过多,运行时资源重大节约,须要将配置调小(包含 Driver 内存、Executor 个数、Executor 内存)
  • 代码结尾增加 Distribute By Rand(),用来管制 Map 输入后果的散发
  • 查问中列和行未裁剪、分区未限定、Where 条件未限定
  • SQL 中 Distinct 切换为 Group by(Distinct 会被 hive 翻译成一个全局惟一 Reduce 工作来做去重操作,Group by 则会被 hive 翻译成分组聚合运算,会有多个 Reduce 工作并行处理,每个 Reduce 对收到的一部分数据组,进行每组聚合(去重))
  • 关联后计算切换为子查问计算好后再关联
  • 应用 Map Join(Map Join 会把小表全副读入内存中,在 Map 阶段间接拿另外一个表的数据和内存中表数据做匹配,因为在 Map 是进行了 Join 操作,省去了 Reduce 运行的效率也会高很多)可用参数代替

(5)任务调度正当优化

对于调度优化一开始会无从下手,统计凌晨 2 - 5 点区间下大略 600+ 工作难梳理,同时存在工作依赖,批改起来可能会对上游整体有大的影响,因而咱们抉择循序渐进先梳理再改善。

  • 找到所有表的输入输出点即启始 ODS 与开端 ADS
  • 划分其中外围表 / 非核心表,及对应工作开始工夫与完结工夫
  • 依照梳理内容把非核心的工作穿插在以后集群资源非顶峰期间(2 点前与 5 点后),同时把外围任务调度提前,保障 CDM 层工作及时产出
  • 对实际后内容再度调优,达到资源最大利用率

(6)烟囱工作下沉 & 无用工作下线

烟囱表过多,需下沉指标到 DWS 中晋升复用性,对于无用工作也须要及时下线(这里须要拿到元数据血统最好到报表层级的数据血统,避免工作下线后导致可视化内容问题产生),缩小开发资源耗费。

04 治理成果

(1)Hive 与 Spark2 工作降级 Spark3.1,总计降级工作 137 个, 降级工作后总体工作执行效率晋升 43%,cpu 资源耗费升高 41%,内存资源耗费升高 46%

(2)治理小文件数大于 10000+ 以上的数仓表总计 30+ 张,小文件总数由 216w 降落至 67w

(3)下线有效 DQC 工作总计 50+,批改 DQC 配置资源升高运行时长,由原来 10min 优化至 3min 内

(4)实现线上 20+ 个工作优化及 10+ 个工作下线及 10+ 表指标下沉,优化后节俭工作耗时 146 分钟,缩小 CPU 损耗 800w+,升高内存耗费 2600w+(相当于节俭了 8 个 200+ 字段 1 亿数据量工作耗费)

(5)调度重新分配后 2 - 5 点资源使用率由 90+% 升高至 50+%,保障日用资源趋势图无大突刺稳定

05 小结

计算资源治理外围在于降本增效,用无限资源去运行更多任务,通过一系列治理操作也让数仓同学积攒技术教训同时规范化本身开发规范,让治理反推动组内技术提高。

计算资源治理是一件短暂之事,并不能因为资源缓和才去治理,而要将计算治理常态化,可通过周 / 月资源扫描内容及时推送给每个同学,并为之打分,让每个工作都有源可循,有办法可优化。

参数内容

参数并不是设置越多任务性能越好,依据数据量、耗费、运行工夫进行调整达到正当成果。

Hive:

(1)set hive.auto.convert.join = true;(是否主动转化成 Map Join)

(2)set hive.map.aggr=true;(用于管制负载平衡,顶层的聚合操作放在 Map 阶段执行,从而加重荡涤阶段数据传输和 Reduce 阶段的执行工夫,晋升总体性能,该设置会耗费更多的内存)

(3)set hive.groupby.skewindata=true;(用于管制负载平衡,当数据呈现歪斜时,如果该变量设置为 true,那么 Hive 会主动进行负载平衡)

(4)set hive.merge.mapfiles=true;(用于 hive 引擎合并小文件应用)

(5)set mapreduce.map.memory.mb=4096;(设置 Map 内存大小,解决 Memory 占用过大 / 小)

(6)set mapreduce.reduce.memory.mb=4096;(设置 Reduce 内存大小,解决 Memory 占用过大 / 小)

(7)set hive.exec.dynamic.partition.mode=nonstrict;(动静分区开启)

Spark:

(1)set spark.sql.legacy.parquet.datetimeRebaseModeInRead=LEGACY;(用于 spark3 中字段类型不匹配(例如 datetime 无奈转换成 date),打消 sql 中工夫歧义,将 Spark .sql. LEGACY . timeparserpolicy 设置为 LEGACY 来复原 Spark 3.0 之前的状态来转化)

(2)set spark.sql.adaptive.enabled=true;(是否开启调整 Partition 性能,如果开启,spark.sql.shuffle.partitions 设置的 Partition 可能会被合并到一个 Reducer 里运行。平台默认开启,同时强烈建议开启。理由:更好利用单个 Executor 的性能,还能缓解小文件问题)

(3)set spark.sql.hive.convertInsertingPartitionedTable=false;(解决数据无奈同步 Impala 问题,应用 Spark3 引擎必填)

(4)set spark.sql.finalStage.adaptive.advisoryPartitionSizeInBytes=2048M;(Spark 小文件合并)

作者简介: 语兴,网易数据开发工程师。

限时凋谢, 收费试用网易数据治理产品

正文完
 0