关于运维:Hive优化之监控三

Hive 是大数据畛域罕用的组件之一，次要是大数据离线数仓的运算，对于 Hive 的性能调优在日常工作和面试中是常常波及的一个点，因而把握一些 Hive 调优是必不可少的技能。影响 Hive 效率的次要有数据歪斜、数据冗余、job 的 IO 以及不同底层引擎配置状况和 Hive 自身参数和 HiveSQL 的执行等因素。本文次要是从监控运维的角度对 Hive 进行整体性能把控，通过对 hive 元数据监控，提前发现 Hive 表的不合理处及可优化点，将被动运维转化为被动运维。

Hive 元数据个别会存储在关系数据库中，mysql 是最常见的抉择，这里介绍的就是 Hive 元数据就是存储在 myslq 中的，本次会介绍几张次要的元数据表，DBS、TBLS、SDS、PARTITIONS

元数据表字段

阐明

示例数据

DB_ID

数据库 ID

DESC

数据库形容

测试库

DB_LOCATION_URI

数据库 HDFS 门路

hdfs://namenode/user/hive/warehouse/hhh1234.db

NAME

数据库名

hhh1234

OWNER_NAME

数据库所有者用户名

hhh1234

OWNER_TYPE

所有者角色

USER

元数据表字段

阐明

示例数据

TBL_ID

表 ID

CREATE_TIME

创立工夫

1436317071

DB_ID

数据库 ID

2，对应 DBS 中的 DB_ID

LAST_ACCESS_TIME

上次访问工夫

1436317071

OWNER

所有者

hhh

RETENTION

保留字段

SD_ID

序列化配置信息

86，对应 SDS 表中的 SD_ID

TBL_NAME

表名

hhh1234

TBL_TYPE

表类型

MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_VIEW

VIEW_EXPANDED_TEXT

视图的具体 HQL 语句

select hhh1234.pt, hhh1234.pcid from liuxiaowen.hhh1234

VIEW_ORIGINAL_TEXT

视图的原始 HQL 语句

select * from lxw1234

元数据表字段

阐明

示例数据

SD_ID

存储信息 ID

CD_ID

字段信息 ID

21，对应 CDS 表

INPUT_FORMAT

文件输出格局

org.apache.hadoop.mapred.TextInputFormat

IS_COMPRESSED

是否压缩

IS_STOREDASSUBDIRECTORIES

是否以子目录存储

LOCATION

HDFS 门路

hdfs://namenode/hivedata/warehouse/ut.db/t_hhh

NUM_BUCKETS

分桶数量

OUTPUT_FORMAT

文件输入格局

org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

SERDE_ID

序列化类 ID

3，对应 SERDES 表

元数据表字段

阐明

示例数据

PART_ID

分区 ID

CREATE_TIME

分区创立工夫

LAST_ACCESS_TIME

最初一次拜访工夫

PART_NAME

分区名

pt=2020-09-26

SD_ID

分区存储 ID

TBL_ID

表 ID

在应用 Hive 元数据做监控时要确保相应表或者分区的元数据信息曾经被收集。收集元数据的形式如下

analyze table 表名 compute statistic;

analyze table 表名 compute statistic for columns;

analyze table 表名 partition(分区列) compute statistic;

analyze table 表名 partition(分区列 = 分区值) compute statistic;

analyze table 表名 partition(分区列) compute statistic for columns;

对于大的文件块可能导致数据在读取时产生数据歪斜，影响集群工作的运行效率。上面 sql 是对于大于两倍 HDFS 文件块大小的表：

— 整体逻辑：通过 DBS 找到对应库上面的表 TBLS，再通过 TBLS 找到每个表对应的表属性，获得 totalSize 和 numFiles 两个属性，前者示意文件大小，后者示意文件数量

SELECT

TBL_NAME,round(avgfilesize,1) as ‘fileSize(Mb)’

FROM (

SELECT

tp.totalSize/(1024*1024)/numFiles avgfilesize,TBL_NAME

FROM metastore.dbs d

INNER join metastore.tbls t on d.DB_ID = t.DB_ID

left join (

SELECT TBL_ID,

MAX(case PARAM_KEY when ‘numFiles’ then PARAM_VALUE ELSE 0 END) numFiles,

MAX(case PARAM_KEY when ‘totalSize’ then PARAM_VALUE ELSE 0 END ) totalSize

from metastore.table_params

GROUP by TBL_ID

) tp on t.TBL_ID = tp.TBL_ID

where d.NAME = ‘ 要监控的库 ’

and tp.numFiles is not NULL

and tp.numFiles > 0

) a where avgfilesize > hdfs 的文件块大小 *2

ORDER BY avgfilesize desc;

— 整体逻辑：先用 DBS 关联 TBLS 表，TBLS 表关联 PARTITIONS 表 PARTITION 表关联 PARTITION_PARAMS

SELECT

TBL_NAME,part_name,round(avgfilesize,1) as ‘fileSize(Mb)’

FROM (

SELECT

pp.totalSize/(1024*1024)/numFiles avgfilesize,TBL_NAME,part.PART_NAME

FROM metastore.dbs d

INNER join metastore.TBLS t on d.DB_ID = t.DB_ID

INNER join metastore.PARTITIONS part on t.TBL_ID = part.TBL_ID

left join (

SELECT PART_ID,

— 每个表存储的文件个数

MAX(case PARAM_KEY when ‘numFiles’ then PARAM_VALUE ELSE 0 END) numFiles,

— 文件存储的大小

MAX(case PARAM_KEY when ‘totalSize’ then PARAM_VALUE ELSE 0 END ) totalSize

from metastore.PARTITION_PARAMS

GROUP by PART_ID

) pp on part.PART_ID = pp.PART_ID

where d.NAME = ‘ 要监控的库 ’

and pp.numFiles is not NULL

and pp.numFiles > 0

) a where avgfilesize >hdfs 的文件块大小 *2

ORDER BY avgfilesize desc;

对于大数据量的表，如果不进行分区，意味着程序在读取雷同的数据时须要遍历更多的文件块，性能会降落很多。

select t.TBL_NAME ,round(totalSize/1024/1024,1) as ‘fileSize(Mb)’

FROM metastore.DBS d

inner join metastore.TBLS t on d.DB_ID = t.DB_ID

inner join (

select TBL_ID,max(case PARAM_KEY when ‘totalSize’ then PARAM_VALUE else 0 end) totalSize

from TABLE_PARAMS

group by TBL_ID

) tp on t.TBL_ID = tp.TBL_ID

left join

(

select distinct TBL_ID from metastore.PARTITIONS p

) part on t.TBL_ID = part.TBL_ID

where d.NAME = ‘ 要监控的库 ’

and part.TBL_ID is null

and totalSize/1024/1024/1024 > 30

ORDER BY totalSize/1024 desc;

理解表的分区数量，在做全表 join 时如果一个表数量不大，分区很多，能够思考分区合并等优化伎俩

SELECT

t.TBL_NAME ‘ 表名 ’,d.NAME ‘ 库名 ’, COUNT(part.PART_NAME) ‘ 分区数 ’

FROM

DBS d

INNER JOIN TBLS t on d.DB_ID = t.DB_ID

INNER join PARTITIONS part on part.TBL_ID = t.TBL_ID

WHERE d.NAME = ‘ 要监控的库 ’

GROUP by t.TBL_NAME,d.NAME

ORDER BY COUNT(part.PART_NAME) desc;

Hive 元数据的监控次要目标就是对 Hive 中表状况的整体把控，这里次要介绍了大数据块、不分区表、表分区这几个指标的监控，当然还有很多，比方 hive 的小文件、表的数据存储格局等等，对这些信息的长期监控，最好能够和 grafana 这些联合展现，这对整个数仓的稳固运行至关重要。前面咱们还会出 Hive SQL 调优相干的文章，敬请期待。

更多业务信息请查看云掣官网 https://www.dtstack.com/dtsmart/

关于运维:Hive优化之监控三

1 Hive 元数据简介

1.1 Hive 数据库相干的元数据表（DBS）

1.2 Hive 表和视图相干的元数据表（TBLS）

1.3 Hive 文件存储信息相干的元数据表（SDS）

1.4 Hive 数据库相干的元数据表（PARTITIONS）

2 收集 Hive 元数据

2.1 收集表的元数据

2.2 收集表的字段的元数据

2.3 收集所有分区的元数据

2.4 指定特定分区进行收集元数据

2.5 收集所有分区的列的元数据

3 Hive 元数据监控案例

3.1 监控一般表存储的文件的均匀大小

3.2 监控分区存储的文件均匀大小，大于两倍 HDFS 文件块大小的分区，

3.3 监控大表不分区的表

3.4 监控表分区的数量

结语：