产生背景:
MapReduce 编程的不便性
传统 RDBMS 人员的需要
Facebook 开源 用于解决海量结构化日志的数据统计问题
构建在 hadoop 之上的数据仓库
Hive 底层执行引擎支持:MR/Tez/Spark
Hive 体系架构:
client:shell,thrift/jdbc
metastore: ==>MySQL
database:name,location,owner...
table: name, location, owner, column
Hive 部署架构:
测试环境:只有一个 MySQL 也可以
生产环境:MySQL 单点问题,用一个 active, 一个 standby 来解决
Hive 指向 VIP 的虚拟地址,所以 MySQL 有一个好用即可
hadoop 集群中:是有很多节点的
Hive: 是一个客户端而已,并不涉及到集群的概念
Hive 与 RBDMS 的区别:
都支持 sql
Hive 更多是对离线数据的批处理 是建立在 hadoop 或者 mapreduce 之上的 时效性不强
Sql 查询返回速度相对要快