Hive-数据仓库笔记

jiezi

5 年前

产生背景:

MapReduce 编程的不便性
传统 RDBMS 人员的需要
Facebook 开源 用于解决海量结构化日志的数据统计问题
构建在 hadoop 之上的数据仓库

Hive 底层执行引擎支持:MR/Tez/Spark
Hive 体系架构:

client:shell，thrift/jdbc
metastore: ==>MySQL
    database:name,location,owner...
    table: name, location, owner, column

Hive 部署架构：

 测试环境：只有一个 MySQL 也可以
生产环境：MySQL 单点问题，用一个 active, 一个 standby 来解决
    Hive 指向 VIP 的虚拟地址，所以 MySQL 有一个好用即可
    hadoop 集群中：是有很多节点的
    Hive: 是一个客户端而已，并不涉及到集群的概念

Hive 与 RBDMS 的区别:

 都支持 sql
Hive 更多是对离线数据的批处理 是建立在 hadoop 或者 mapreduce 之上的 时效性不强
Sql 查询返回速度相对要快