关于hive:hive调优

89次阅读

共计 1763 个字符，预计需要花费 5 分钟才能阅读完成。

hive 内置函数不满足业务能够应用 java 写自定义函数导入 hive
UDF 函数：大部分都是，
- 一进一出
UDAF
- 多进一出
  - 如：聚合函数
UDTF
- 一进多出
  - 如：explode

压缩计划罕用的 gzip,bzip2,lzo,snappy，思考的不仅是压缩后体积，而应该再联合解压和压缩的速度

设置不同阶段的输入
- 输出 map，
- map 输入到 reduce 时，
- reduce 输入时能够压缩
配置压缩参数能够到 mapred-site.xml,core-site.xml 中
- io.compression.codecs
- mapreduce.map.output.compress
- mapreduce.output

textFile 行,sequenceFile 行,orc 列,parquet 列是
罕用 textFile,orc
- 只有 textFile 反对 load 加载
行式存储，列式存储
- 空间，查问速度
  - 行存储在查找时只须要找到其中一个值其余的数据在相邻地位
  - 列存储能够有针对性的查找，而舍弃一些无关数据查找的损耗
    - 压缩显著
    - 缩小不必要的 io 开销
    - 数据空间小，读盘更快
    - 自在的压缩算法，更灵便

fetch 本地抓去，能不走 mr 尽量不走
能本地 mr 尽量本地 mr

编写 sql 时:1.x 之前小表在 join 后面。之后都一样
小表和大表 join
- hdfs 提供 distribute block cache 分布式块缓存
- 主动开启 mapjoin
- 配置大小表阈值
中大型表 join 大表
- 先过滤（看是否能够转为小表）再 join
- bucket join: 分桶的 mapjoin 计划
大表和大表
- 先过滤再 join，缩小 map 到 reduce 数据传输量
- 如果大表中的数据有很多空值，须要解决，因为空值会导致 reduce 容易呈现数据歪斜
  - 计划一：提前过滤 null
  - 计划二：随机数替换 null
- SMB JOIN：分桶表排序 MAPJOIN 计划

列裁剪
分区裁剪
- 操作分区表，倡议携带上分区字段，从而缩小扫描量，晋升效率，同时如果表能过滤，就先过滤再 join
combiner 解决数据歪斜
两次 mr，将数据不管男女平均分发给两个 reduce
防止 count(distinct)，对整个表进行聚合操作翻译后只有一个 reduce，若此时执行一个 distinct（reduce 中执行），而去重操作必须在 reduce 端才能够，数据量大的话，reduce 端会接受大量数据，导致执行效率变慢

 select count(ip) from (select ip from table group by ip) tmp;
执行两个 mr 前面那个可用于去重，先 group by 再 count 尽管会多一个 job 然而在数据量大的状况下会更优

笛卡尔积：hive 中多表 join 不给 on(一边关联，一边过滤)，不能用 where(先笛卡尔再条件过滤)

sql 查问原始表中，必须要将分区字段搁置在整个表后果最初面
敞开 hive 严格语法模式

insert into table 分区表 2 partition(month) select * from 分区表 1;

如何调整 map 数量和 reduce 数量
- 放大 map 数：
  - map 之前合并文件
  - 调大文件切片
- 增大 map 数：
–
- combiner
- 默认 hive 会主动调整 reduce 数量
  - hive.exec.reducers.max 默认 999
  - hive.exec.reducers.bytes.per.reducer 调小 reducer 增多
  - order by 只有一个 reduce, 没有 group by 的聚合只有一个 reduce, 笛卡尔积也只有一个 (关联的时候用了 where)

执行 hive sql 时可能会被翻译为多个 mr，并且多个 mr 之间没有任何关联，那么此时能够运行多个 mr 并行执行晋升效率
set hive.exec.parallel=true; — 关上工作并行执行执行
set hive.exec.parallel.thread.number = 16; — 最大并行读，默认为 8

 select * from A
union all
select * from B;

分区表查问，不携带分区字段
应用 order by 不必 limit
sql 中呈现笛卡尔

让 mr 可重复使用资源容器

关掉，否则失败反复申请资源做雷同的工作，依然有大概率失败

正文完

hive

发表至： hive

2021-02-05

0

hive报错Both-left-and-right-aliases-encountered-in-JOIN

关于hive:关于在hive任务中number-of-reducers的探讨

关于hive:关于Hive数据查询的18种方

关于hive:Hive

关于软件工程:软件工程抽象泄漏与编程

关于hive:hive调优

自定义函数

hive 调优

压缩

存储格局

其余优化

hive join 优化

sql 优化

动静分区

动静歪斜

并行执行

严格模式（数据量大的状况下）：限度（执行效率差的）sql 的申请

内置的 jvm 重用

揣测执行

Just My Socks（注册教程内含优惠码）

	select count(ip) from (select ip from table group by ip) tmp;
	执行两个 mr 前面那个可用于去重，先 group by 再 count 尽管会多一个 job 然而在数据量大的状况下会更优

关于hive:hive调优

自定义函数

hive 调优

压缩

存储格局

其余优化

hive join 优化

sql 优化

动静分区

动静歪斜

并行执行

严格模式（数据量大的状况下）：限度（执行效率差的）sql 的申请

内置的 jvm 重用

揣测执行

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）