安装hadoop2.7.2
- 解压(/opt/software -> /opt/module)
- tar -zxvf /hadoop-2.7.2.tar.gz -C /opt/module
- 环境变量
- sudo vim /etc/profile
export HADOOP_HOME=/opt/module/hadoop-2.7.2 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
- 配置立即生效
- source /etc/profile
- 查看hadoop版本
- hadoop version
完全分布式运行模式
-
集群部署规划
画横线的最好不要配置在同一台服务器上
-
配置集群(etc/hadoop/)
-
配置core-site.xml(核心配置文件)
- vi core-site.xml
<configuration> <!-- 指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://fan102:9000</value> </property> <!-- 指定Hadoop运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-2.7.2/data/tmp</value> </property> </configuration>
- vi core-site.xml
-
配置hadoop-env.sh(HDFS配置文件)
- vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- vi hadoop-env.sh
-
配置hdfs-site.xml(HDFS配置文件)
- vi hdfs-site.xml
<configuration> <!-- 指定HDFS副本的数量 --> <property> <name>dfs.replication</name> <value>1</value> </property> <!-- 指定Hadoop辅助名称节点主机配置 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>fan104:50090</value> </property> <!-- 开启浏览器访问HDFS --> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
- vi hdfs-site.xml
-
配置yarn-env.sh(YARN配置文件)
- vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- vi yarn-env.sh
-
配置yarn-site.xml(YARN配置文件)
-
vi yarn-site.xml
<configuration> <!-- Reducer获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- 指定YARN的ResourceManager的地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>fan103</value> </property> <!-- 历史服务器端地址 --> <!-- 历史服务器web端地址 --> <!-- 日志聚集功能使能 --> <!-- 日志保留时间设置7天 --> </configuration>
-
-
配置mapred-env.sh(MapReduce配置文件)
- vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- vi mapred-env.sh
-
配置mapred-site.xml(MapReduce配置文件)
- cp mapred-site.xml.template mapred-site.xml
- vi mapred-site.xml
<configuration> <!-- 指定MR运行在Yarn上 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
配置slaves(服务器注册表)
- vi slaves
fan102 fan103 fan104
- vi slaves
- 补充:配置HDFS存储多目录
- df -h
查看磁盘使用情况 - vi hdfs-site.xml
<property><name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value> </property>
- df -h
-
-
启动<u style="line-height: 22.399999618530273px; box-sizing: content-box;">分发脚本</u>(pwd /opt/module/)
- xsync hadoop-2.7.2/
-
同步配置文件(/etc/profile)
- scp /etc/profile root@fan103:/etc/profile
启动集群
- 如果集群是第一次启动,需要格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)
- bin/hdfs namenode -format
- 启动HDFS
- sbin/start-dfs.sh
- 启动YARN
- sbin/start-yarn.sh
注意:NameNode和ResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN。
- sbin/start-yarn.sh
- 查看
- Web端查看
- Web端查看SecondaryNameNode
- 查看各个节点状态
- jps
- 当启动发生错误的时候
- 查看日志:/home/fan/module/hadoop-2.7.2/logs
- 如果进入安全模式,可以通过hdfs dfsadmin -safemode leave
- 停止所有进程,删除data和log文件夹,然后hdfs namenode -format 来格式化