hadoop 王真催的面试题 hive中shuffle的优化 压缩压缩可以使磁盘上存储的数据量变小,通过降低I/O来提高查询速度。 对hive产生的一系列MR中间过程启用压缩 {代码…} 对最终输出结果压缩(写到hdfs、本地磁盘的文件) {代码…}
hadoop hadoop277安装和集群适用hadoop312和docker容器 vi /etc/profile.d/hadoop.sh {代码…} mapred-env.sh hadoop-env.xml yarn-env.sh 至少有一个设置JAVA_HOME
hadoop Hadoop-HA HA是High Available缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的…
hadoop HBase浅度学习 简介 hbase是大数据hadoop的数据库 存储数据 {代码…} 检索数据 {代码…} 已经有RDBMS数据库为什么还需要hbase这种hadoop数据库?(什么时候需要选择hbase) 要存储的数据为海量的数据 {代码…} 要存储的数据…
hadoop Hive浅度学习指南 hive介绍 由Facebook开源的,用于解决海量结构化日志的数据统计的项目 本质: 将HQL转化为MapReduce程序 Hive的其实时HDFS上的目录和文件 Hive的安装模式 嵌入模式元数据信息被保存在自带的Deybe数据库中 只允…
hadoop Flume浅度学习 flume简介 cloudera 公司开源的,贡献给Apache基金会 [链接] [链接] 只能运行在linux系统上 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving lar…
hadoop Namenode启动后挂掉连不上journalnode 使用start-dfs.sh启动HDFS后,jps查看到有namenode进程,但是过一会没了。查看日志,是连不上8485端口,8485配的是journalnode,也就是说连不上journalnode而挂掉的。