关于hadoop:基于Hadoop的数据仓库工具Hive附超实用示例

Hive性能

Hive是基于Hadoop构建的一套数据仓库剖析零碎，它提供了丰盛的SQL查问形式来剖析存储在Hadoop分布式文件系统中的数据：能够将结构化的数据文件映射为一张数据库表，并提供残缺的SQL查问性能；能够将SQL语句转换为MapReduce工作运行，通过本人的SQL查问剖析须要的内容，这套SQL简称Hive SQL，使不相熟mapreduce的用户能够很不便地利用SQL语言查问、汇总和剖析数据。而mapreduce开发人员能够把本人写的mapper和reducer作为插件来反对Hive做更简单的数据分析。它与关系型数据库的SQL略有不同，但反对了绝大多数的语句如DDL、DML以及常见的聚合函数、连贯查问、条件查问。它还提供了一系列的1：具进行数据提取转化加载，用来存储、查问和剖析存储在Hadoop中的大规模数据集，并反对UDF（User-Defined Function）、UDAF(User-Defnes AggregateFunction)和UDTF（User-Defined Table-Generating Function），也能够实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。

Hive不适宜用于联机（online）上事务处理，也不提供实时查问性能。它最适宜利用在基于大量不可变数据的批处理作业。Hive的特点包含：可伸缩（在Hadoop的集群上动静增加设施）、可扩大、容错、输出格局的涣散耦合。

外部表

Hive的外部表与数据库中的Table在概念上是相似。每一个Table在Hive中都有一个相应的目录存储数据。删除表时，元数据与数据都会被删除。

外部示意例：

创立数据文件：test_inner_table.txt

创立表：create table test_inner_table (key string)

加载数据：LOAD DATA LOCAL INPATH ‘filepath’ INTO TABLE test_inner_table

查看数据：select from test_inner_table; select count() from test_inner_table

删除表：drop table test_inner_table

内部表

内部表指向曾经在HDFS中存在的数据，能够创立Partition。内部表加载数据和创立表同时实现（CREATE EXTERNAL TABLE ……LOCATION），理论数据是存储在LOCATION前面指定的 HDFS 门路中，并不会挪动到数据仓库目录中。当删除一个External Table时，仅删除该链接。

内部示意例：

创立数据文件：test_external_table.txt

创立表：create external table test_external_table (key string)

加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_inner_table

查看数据：select from test_external_table; •select count() from test_external_table

删除表：drop table test_external_table

分区

Partition对应于数据库中的Partition列的密集索引。在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。

分区表示例：

创立数据文件：test_partition_table.txt

创立表：create table test_partition_table (key string) partitioned by (dt string)

加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_partition_table partition (dt=‘2006’)

查看数据：select from test_partition_table; select count() from test_partition_table

删除表：drop table test_partition_table

桶

Buckets是将表的指定列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash，依据hash值切分数据，目标是为了并行，每一个Bucket对应一个文件。当须要并行执行Map工作时，桶是不错的抉择。

桶的示例：

创立数据文件：test_bucket_table.txt

创立表：create table test_bucket_table (key string) clustered by (key) into 20 buckets

加载数据：LOAD DATA INPATH ‘filepath’ INTO TABLE test_bucket_table

查看数据：select * from test_bucket_table; set hive.enforce.bucketing = true;

视图

视图与传统数据库的视图相似。视图是只读的，它基于的根本表，如果扭转，数据减少不会影响视图的出现；如果删除，会呈现问题。如果不指定视图的列，会依据select语句后的生成。

示例：create view test_view as select * from test

歪斜表

对大数据系统来讲，数据量大并不可怕，可怕的是数据歪斜。

数据歪斜，是并行处理的数据集中，某一部分的数据显著多于其它局部，从而使得该局部的处理速度成为整个数据集的瓶颈。

在Spark中，同一个Stage的不同Partition能够并行处理，而具备依赖关系的不同Stage之间是串行解决的。换句话说，一个Stage所消耗的工夫，次要由最慢的那个Task决定。因为同一个Stage内的所有Task执行雷同的计算，在排除不同计算节点计算能力差异的前提下，不同Task之间耗时的差别次要由该Task所解决的数据量决定。

歪斜表是一种非凡类型的表，其中经常出现的值（重偏差）被宰割成独自的文件，其余的值将转到其余文件。通过指定偏斜值，Hive会主动将它们合成为独自的文件，并在查问期间能够跳过（或蕴含）整个文件，从而进步性能。

创立表语法：create table <T> (schema) skewed by (keys) on (values) [STORED as DIRECTORIES];

具体例子： create table T (c1 string, c2 string) skewed by (c1) on (‘x1’)

存储过程

存储过程是在数据库系统中为了实现特定性能的SQL 语句集，通过第一次编译后再次调用不须要再次编译，用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它。

CREATE PROCEDURE proc_test

BEGIN

Drop table order_base.O_ORDER_DETAIL;

create table order_base.O_ORDER_DETAIL (customernumber string, invoicenumber string, invoicedate string, ordernumber string, itemnumberid string, ordertypeen string, ordertypesc string, salesrepid string, warehouse string, lineamount string, linecostamount string, invoicequantity string, lineno string) clustered by (ordertypeen) into 2 buckets stored as orc TBLPROPERTIES (‘transactional’=’true’);

TRUNCATE TABLE order_base.O_ORDER_DETAIL;

INSERT INTO order_base.O_ORDER_DETAIL select * from ORDER_DETAIL;

update order_base.O_ORDER_DETAIL set itemnumberid=replace(itemnumberid,’*’,”);

END;

CALL proc_test

执行存储过程

hplsql -f /home/hadoop/proc_test.sql

查问后果

select * from order_base.O_ORDER_DETAIL where ordernumber=8800840;

客户端接口

CLI：command line interface，命令行接口。

Thrift客户端： Hive架构的许多客户端接口是建设在thrift客户端之上，包含JDBC和ODBC接口。

WEBGUI：Hive客户端提供了一种通过网页的形式拜访Hive所提供的服务。这个接口对应Hive的HWI组件（Hive Web Interface），生产环境可用Hue组件代替，下图为Hue界面。

对于慧都数仓建模巨匠

慧都数仓建模巨匠可能疾速、高效地帮忙客户搭建数据仓库供企业决策分析之用。满足数据需要效率、数据品质、扩展性、面向主题等特点。

跨行业数据挖掘流程

关于hadoop:基于Hadoop的数据仓库工具Hive附超实用示例

Hive性能

外部表

内部表

分区

桶

视图

歪斜表

存储过程

客户端接口

对于慧都数仓建模巨匠

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于hadoop:基于Hadoop的数据仓库工具Hive附超实用示例

Hive性能

外部表

内部表

分区

桶

视图

歪斜表

存储过程

客户端接口

对于慧都数仓建模巨匠

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复