关于数据结构:数据治理实践-网易某业务线的计算资源治理

本文从计算资源治理实际登程，带大家分明意识计算资源治理到底该如何进行，并如何利用到其余我的项目中。

01前言

因为数据治理层面能够分多个层面且内容繁多（包含模型合规、数据品质、数据安全、计算/存储资源、数据价值等治理内容），因而须要独自拆分为6个模块独自去论述其中内容。

笔者作为数仓开发常常会收到大量集群资源满载、工作产出延时等音讯/邮件，甚至上游数分及其他同学也会询问工作运行慢的状况，在这里很少数仓同学遇到这类问题第一想到的都是加资源解决，但事实真不肯定是短少资源，而是须要优化以后问题工作。所以本期从团队做计算资源治理视角登程，带大家分明意识计算资源治理到底该如何进行。

02问题呈现

在做计算治理之前（2022.12）咱们团队盘点了下以后计算资源存在的几个问题：

（1）30+高耗费工作：因为数仓前中期业务扩张，要笼罩大量场景利用，存在大量问题代码运行时数据歪斜，在耗费大量集群计算资源下，产出工夫也久；

（2）200w+的小文件：当前任务存在未合并小文件、工作Reduce数量过多、上游数据源接入（尤其是API数据接入）会造成过多小文件呈现，小文件过多会开启更多数据读取，执行会节约大量的资源，重大影响性能；

（3）任务调度安顿不合理：少数工作集中在凌晨2-5点执行且该区间CPU满载，导致该时间段资源耗费成了重灾区，所有外围/非核心工作都在争抢资源，局部外围工作不能按时产出始终在期待阶段；

（4）线上有效DQC（数据品质监控）&监控配置资源过小：存在局部历史工作没下线表及DQC场景，每日都在空跑无意义DQC浪费资源，同时DQC资源过少导致DQC须要运行过长时间；

（5）反复开发工作/无用工作：晚期帮助上游做了较多烟囱数据模型，因为种种原因，局部工作不再被应用，烟囱模型扩散加工导致资源复用率升高；

（6）工作短少调优参数&局部工作依然应用MapReduce/Spark2计算引擎：工作短少调优参数导致资源不能适配及动静调整，甚至线上仍有晚期配置MapReduce/Spark2计算引擎导致运行效率较低。

03思考与口头

3.1 治理前的思考：

在治理之前我想到一个问题，切入点该从哪里开始最合适？

通过与团队屡次脑暴对以后治理优先级/改变老本大小/难度做了一个排序，咱们先抉择从简略的参数调优&工作引擎切换开始->小文件治理->DQC治理->高耗费工作治理->调度安顿->下线无用模型及积淀指标到其余数据资产，同时在初期咱们实现各类元数据接入搭建治理看板以及团队治理产出统计数据模型，并通过网易数帆提供的数据治理平台解决具体细节问题。

数据治理平台截图

3.2 治理口头：

（1）大部分工作切换至Spark3计算引擎&补充工作调优参数

补充Spark调优参数（参数内容详见文末），工作对立应用Spark3引擎减速，并充分利用Spark3的AQE个性及Z-Order排序算法个性。

AQE解释：Spark 社区在 DAG Scheduler 中，新增了一个 API 在反对提交单个 Map 阶段，以及在运行时批改 shuffle 分区数等等，而这些就是 AQE，在 Spark 运行时，每当一个 Shuffle、Map 阶段进行结束，AQE 就会统计这个阶段的信息，并且基于规定进行动静调整并修改还未执行的工作逻辑计算与物理打算（在条件运行的状况下），使得 Spark 程序在接下来的运行过程中失去优化。

Z-Order解释：Z-Order 是一种能够将多维数据压缩到一维的技术，在时空索引以及图像方面应用较广，比方咱们罕用order by a,b,c 会面临索引笼罩的问题，Z-Order by a,b,c 成果对每个字段是对等的

（2）小文件治理

在这里咱们应用外部数据治理平台-数据治理360对存在小文件较多表提供内容展现（实质采集HDFS对应门路下文件数的日志去显示）

以后小文件解决：

对于分区较多应用Spark3进行动静分区刷新，（Spark3具备小文件主动合并性能，如未应用Spark3可配置Spark3/Hive小文件合并参数刷新，参数详见文末），代码如下：

1 set hive.exec.dynamic.partition.mode=nonstrict;2 insert overwrite table xxx.xxx partition (ds)3 select column4 ,ds5 from xxx.xxx

对于分区较少或未分区的表采纳重建表，补数据办法回刷。

小文件预防：

应用Spark3引擎，主动合并小文件
缩小Reduce的数量(能够应用参数进行管制)
用Distribute By Rand管制分区中数据量
增加合并小文件参数
将数据源抽取后的表做一个工作（实质也是回刷分区合并小文件工作）去解决小文件保障从数据源开始小文件不向上游流去

（3）DQC治理

有效DQC下线：难点在于须要查找所有DQC对应的线上工作，查看该DQC工作是否与线上工作一一匹配，从而找到有效DQC工作下线，内容繁冗耗时较多。

DQC资源：因为之前DQC配置资源为集群默认参数，效率极低导致所有DQC运行时长均超过10min，从而使得整体工作链路运行时长过久，调整Driver内存为2048M，Executor个数为2，Executor内存为4096M

（4）高耗费工作调优

这里存在2个难点：优化成果不可控、高耗费工作调整到何种水平算适合，针对这个这个难点咱们取所有外围数据资产工作均值，保障单个工作耗费小于均匀耗费，同时咱们针对以后高耗费工作列举出如下可优化的形式：

关联表过多，需拆分
关联时一对多，数据收缩
资源配置过多，运行时资源重大节约，须要将配置调小（包含Driver内存、Executor个数、Executor内存）
代码结尾增加Distribute By Rand（），用来管制Map输入后果的散发
查问中列和行未裁剪、分区未限定、Where条件未限定
SQL中Distinct切换为Group by（Distinct会被hive翻译成一个全局惟一Reduce工作来做去重操作，Group by则会被hive翻译成分组聚合运算，会有多个Reduce工作并行处理，每个Reduce对收到的一部分数据组，进行每组聚合（去重））
关联后计算切换为子查问计算好后再关联
应用Map Join（Map Join会把小表全副读入内存中，在Map阶段间接拿另外一个表的数据和内存中表数据做匹配，因为在Map是进行了Join操作，省去了Reduce运行的效率也会高很多）可用参数代替

（5）任务调度正当优化

对于调度优化一开始会无从下手，统计凌晨2-5点区间下大略600+工作难梳理，同时存在工作依赖，批改起来可能会对上游整体有大的影响，因而咱们抉择循序渐进先梳理再改善。

找到所有表的输入输出点即启始ODS与开端ADS
划分其中外围表/非核心表，及对应工作开始工夫与完结工夫
依照梳理内容把非核心的工作穿插在以后集群资源非顶峰期间（2点前与5点后），同时把外围任务调度提前，保障CDM层工作及时产出
对实际后内容再度调优，达到资源最大利用率

（6）烟囱工作下沉&无用工作下线

烟囱表过多，需下沉指标到DWS中晋升复用性，对于无用工作也须要及时下线（这里须要拿到元数据血统最好到报表层级的数据血统，避免工作下线后导致可视化内容问题产生），缩小开发资源耗费。

04治理成果

（1）Hive与Spark2工作降级Spark3.1，总计降级工作137个,降级工作后总体工作执行效率晋升43%，cpu资源耗费升高41%，内存资源耗费升高46%

（2）治理小文件数大于10000+以上的数仓表总计30+张，小文件总数由216w降落至67w

（3）下线有效DQC工作总计50+，批改DQC配置资源升高运行时长，由原来10min优化至3min内

（4）实现线上20+个工作优化及10+个工作下线及10+表指标下沉，优化后节俭工作耗时146分钟，缩小CPU损耗800w+，升高内存耗费2600w+（相当于节俭了8个200+字段1亿数据量工作耗费）

（5）调度重新分配后2-5点资源使用率由90+%升高至50+%，保障日用资源趋势图无大突刺稳定

05小结

计算资源治理外围在于降本增效，用无限资源去运行更多任务，通过一系列治理操作也让数仓同学积攒技术教训同时规范化本身开发规范，让治理反推动组内技术提高。

计算资源治理是一件短暂之事，并不能因为资源缓和才去治理，而要将计算治理常态化，可通过周/月资源扫描内容及时推送给每个同学，并为之打分，让每个工作都有源可循，有办法可优化。

参数内容

参数并不是设置越多任务性能越好，依据数据量、耗费、运行工夫进行调整达到正当成果。

Hive：

（1）set hive.auto.convert.join = true; （是否主动转化成Map Join）

（2）set hive.map.aggr=true; （用于管制负载平衡，顶层的聚合操作放在Map阶段执行，从而加重荡涤阶段数据传输和Reduce阶段的执行工夫，晋升总体性能，该设置会耗费更多的内存）

（3）set hive.groupby.skewindata=true; （用于管制负载平衡，当数据呈现歪斜时，如果该变量设置为true，那么Hive会主动进行负载平衡）

（4）set hive.merge.mapfiles=true; （用于hive引擎合并小文件应用）

（5）set mapreduce.map.memory.mb=4096; （设置Map内存大小，解决Memory占用过大/小）

（6）set mapreduce.reduce.memory.mb=4096;（设置Reduce内存大小，解决Memory占用过大/小）

（7）set hive.exec.dynamic.partition.mode=nonstrict;（动静分区开启）

Spark：

（1）set spark.sql.legacy.parquet.datetimeRebaseModeInRead=LEGACY;（用于spark3中字段类型不匹配（例如datetime无奈转换成date），打消sql中工夫歧义，将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来复原Spark 3.0之前的状态来转化）

（2）set spark.sql.adaptive.enabled=true;（是否开启调整Partition性能，如果开启，spark.sql.shuffle.partitions设置的Partition可能会被合并到一个Reducer里运行。平台默认开启，同时强烈建议开启。理由：更好利用单个Executor的性能，还能缓解小文件问题）

（3）set spark.sql.hive.convertInsertingPartitionedTable=false;（解决数据无奈同步Impala问题，应用Spark3引擎必填）

（4）set spark.sql.finalStage.adaptive.advisoryPartitionSizeInBytes=2048M;（Spark小文件合并）

作者简介： 语兴，网易数据开发工程师。

限时凋谢，收费试用网易数据治理产品