关于大数据:大数据开发之Hadoop集群安装教程
配置文件的批改留神:以下所有操作都在node01主机进行。1.1 hadoop-env.sh1、介绍文件中设置的是Hadoop运行时须要的环境变量。JAVA_HOME是必须设置的,即便咱们以后的零碎中设置了JAVA_HOME,它也是不意识的,因为Hadoop即便是在本机上执行,它也是把以后的执行环境当成近程服务器。2、配置cd /export/server/hadoop-3.0.0/etc/hadoopvim hadoop-env.sh增加以下内容:export JAVA_HOME=/export/server/jdk1.8.0_2411.2 core-site.xml1、介绍hadoop的外围配置文件,有默认的配置项core-default.xml。core-default.xml与core-site.xml的性能是一样的,如果在core-site.xml里没有配置的属性,则会主动会获取core-default.xml里的雷同属性大数据培训的值。2、配置在该文件中的<configuration>标签中增加以下配置,cd /export/server/hadoop-3.0.0/etc/hadoopvim core-site.xml<configuration> 配置内容如下:<!-- 用于设置Hadoop的文件系统,由URI指定 --> <property> <name>fs.defaultFS</name><value>hdfs://node01:8020</value></property><!-- 配置Hadoop存储数据目录,默认/tmp/hadoop-${user.name} --> <property> <name>hadoop.tmp.dir</name> <value>/export/server/hadoop-3.0.0/hadoopDatas/tempDatas</value></property> <!-- 缓冲区大小,理论工作中依据服务器性能动静调整 --> <property> <name>io.file.buffer.size</name> <value>4096</value> </property><!-- 开启hdfs的垃圾桶机制,删除掉的数据能够从垃圾桶中回收,单位分钟 --> <property> <name>fs.trash.interval</name> <value>10080</value> </property></configuration>1.3 hdfs-site.xml1、介绍HDFS的外围配置文件,次要配置HDFS相干参数,有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的性能是一样的,如果在hdfs-site.xml里没有配置的属性,则会主动会获取hdfs-default.xml里的雷同属性的值。2、配置在该文件中的<configuration>标签中增加以下配置,<configuration>在这里增加配置</configuration>cd /export/server/hadoop-3.0.0/etc/hadoopvim hdfs-site.xml 配置以下内容<!-- 指定SecondaryNameNode的主机和端口 --><property><name>dfs.namenode.secondary.http-address</name><value>node02:50090</value></property><!-- 指定namenode的页面拜访地址和端口 --><property><name>dfs.namenode.http-address</name><value>node01:50070</value></property><!-- 指定namenode元数据的寄存地位 --><property><name>dfs.namenode.name.dir</name><value>file:///export/server/hadoop-3.0.0/hadoopDatas/namenodeDatas</value></property><!-- 定义datanode数据存储的节点地位 --><property><name>dfs.datanode.data.dir</name><value>file:///export/server/hadoop-3.0.0/hadoopDatas/datanodeDatas</value></property><!-- 定义namenode的edits文件寄存门路 --><property><name>dfs.namenode.edits.dir</name><value>file:///export/server/hadoop-3.0.0/hadoopDatas/nn/edits</value></property><!-- 配置检查点目录 --><property><name>dfs.namenode.checkpoint.dir</name><value>file:///export/server/hadoop-3.0.0/hadoopDatas/snn/name</value></property> <property><name>dfs.namenode.checkpoint.edits.dir</name><value>file:///export/server/hadoop-3.0.0/hadoopDatas/dfs/snn/edits</value></property><!-- 文件切片的正本个数--><property><name>dfs.replication</name><value>3</value></property> <!-- 设置HDFS的文件权限--><property><name>dfs.permissions</name><value>false</value></property><!-- 设置一个文件切片的大小:128M--><property><name>dfs.blocksize</name><value>134217728</value></property><!-- 指定DataNode的节点配置文件 --><property> <name> dfs.hosts </name> <value>/export/server/hadoop-3.0.0/etc/hadoop/slaves </value></property>1.4 mapred-site.xml1、介绍MapReduce的外围配置文件,Hadoop默认只有个模板文件mapred-site.xml.template,须要应用该文件复制进去一份mapred-site.xml文件 2、配置在mapred-site.xml文件中的<configuration>标签中增加以下配置,<configuration>在这里增加配置</configuration>cd /export/server/hadoop-3.0.0/etc/hadoopcp mapred-site.xml.template mapred-site.xml vim mapred-site.xml 配置以下内容:<!-- 指定分布式计算应用的框架是yarn --><property><name>mapreduce.framework.name</name><value>yarn</value></property> <!-- 开启MapReduce小工作模式 --><property><name>mapreduce.job.ubertask.enable</name><value>true</value></property><!-- 设置历史工作的主机和端口 --><property><name>mapreduce.jobhistory.address</name><value>node01:10020</value></property> <!-- 设置网页拜访历史工作的主机和端口 --><property><name>mapreduce.jobhistory.webapp.address</name><value>node01:19888</value></property>1.5 mapred-env.sh在该文件中须要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的正文去掉,而后依照以下形式批改:cd /export/server/hadoop-3.0.0/etc/hadoopvim mapred-env.shexport JAVA_HOME=/export/server/jdk1.8.0_2411.6 yarn-site.xmlYARN的外围配置文件,在该文件中的<configuration>标签中增加以下配置,<configuration>在这里增加配置</configuration>cd /export/server/hadoop-3.0.0/etc/hadoopvim yarn-site.xml ...