关于大数据:Hive架构及Hive-SQL的执行流程解读

1、Hive产生背景

MapReduce编程的不便性
HDFS上的文件短少Schema(表名，名称，ID等，为数据库对象的汇合)

2、Hive是什么

Hive的应用场景是什么？

基于Hadoop做一些数据荡涤啊（ETL）、报表啊、数据分析

能够将结构化的数据文件映射为一张数据库表，并提供类SQL查问性能。

Hive是SQL解析引擎，它将SQL语句转译成M/R Job而后在Hadoop执行。

由Facebook开源，最后用于解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive定义了一品种SQL查询语言：HQL（相似SQL但不完全相同）
通常用于进行离线数据处理（晚期采纳MapReduce）
底层反对多种不同的执行引擎（当初能够间接把Hive跑在Spark下面）

Hive底层的执行引擎有：MapReduce、Tez、Spark

3、Hive 特点

Hive 最大的特点是 Hive 通过类 SQL 来剖析大数据，而防止了写 MapReduce 程序来剖析数据，这样使得剖析数据更容易
Hive 是将数据映射成数据库和一张张的表，库和表的元数据信息个别存在关系型数据库上（比方 MySQL）
Hive 自身并不提供数据的存储性能，数据个别都是存储在 HDFS 上的（对数据完整性、格局要求并不严格）
Hive 很容易扩大本人的存储能力和计算能力，这个是继承自 hadoop 的（实用于大规模的并行计算）
Hive 是专为 OLAP(在线剖析解决) 设计，不反对事务

4、Hive体系架构

Hive是C/S模式

客户端：

Client端有JDBC/ODBC和Thrift Client，可近程拜访Hive

能够通过shell脚本的形式拜访，或者通过Thrift协定，依照平时编写JDBC的形式实现对Hive的数据操作

Server：CLI、Thrift Server、HWI(Hive web Interface)、Driver、Metastore

其中CLI、Thrift Server、HWI是裸露给Client拜访的独立部署的Hive服务
Driver、Metastore是Hive外部组件，Metastore还能够供第三方SQL on Hadoop框架应用
beeine(Hive 0.11引入)，作为Hive JDBC Client拜访HiveServer2，解决了CLI并发拜访问题

Driver：

输出了sql字符串，对sql字符串进行解析，转化程形象语法树，再转化成逻辑打算，而后应用优化工具对逻辑打算进行优化，最终生成物理打算（序列化反序列化，UDF函数），交给Execution执行引擎，提交到MapReduce上执行（输出和输入能够是本地的也能够是HDFS/Hbase）见下图的hive架构

Metastore：

Metastore进行元数据管理：Derby（内置）、Mysql；Derby：Derby只承受一个Hive的会话拜访；Mysql：Hive跑在Hadoop之上的，Mysql进行主备（定时同步操作）

由上图可知，hadoop 和 mapreduce 是 hive 架构的根基。

MetaStore：存储和治理Hive的元数据，应用关系数据库来保留元数据信息。

解析器和编译器：将SQL语句生成语法树，而后再生成DAG模式的Job链，成为逻辑打算

优化器：只提供了基于规定的优化

列过滤：去除查问中不须要的列
行过滤：Where条件判断等在TableScan阶段就进行过滤，利用Partition信息，只读取符合条件的Partition
谓词下推：缩小前面的数据量
Join形式
。 Map端join：调整Join程序，确保以大表作为驱动表，小表载入所有mapper内存中
。 shuffle join：依照hash函数，将两张表的数据发送给join
。对于数据分布不平衡的表Group by时，为防止数据集中到多数的reducer上，分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle，而后在reduce端局部聚合，减小数据规模，第二个map-reduce阶段再按group-by列聚合。
。 sort merge join：排序，依照程序切割数据，雷同的范畴发送给雷同的节点(运行前在后盾创建设两张排序表，或者建表的时候指定)
。在map端用hash进行局部聚合，减小reduce端数据处理规模。

执行器：执行器将DAG转换为MR工作。执行器会程序执行其中所有的Job，如果Job不存在依赖关系，采纳并发的形式进行执行。

5、基于Hadoop上的Hive SQL的执行流程

sql写进去当前只是一些字符串的拼接，所以要通过一系列的解析解决，能力最终变成集群上的执行的作业

1.Parser：将sql解析为AST（形象语法树），会进行语法校验，AST实质还是字符串

2.Analyzer：语法解析，生成QB（query block）

3.Logicl Plan：逻辑执行打算解析，生成一堆Opertator Tree

4.Logical optimizer:进行逻辑执行打算优化，生成一堆优化后的Opertator Tree

5.Phsical plan：物理执行打算解析，生成tasktree

6.Phsical Optimizer：进行物理执行打算优化，生成优化后的tasktree，该工作即是集群上的执行的作业

论断：通过以上的六步，一般的字符串sql被解析映射成了集群上的执行工作，最重要的两步是逻辑执行打算优化和物理执行打算优化（图中红线圈画）

查看执行打算。

explain select id,name from emp where deptid = 1001 order by id